3.2 Эволюция экономической терминологии по данным параллельных текстов - Эволюция семантики экономической терминологии

(см. также: инструменты и материалы)

Для изучения возможности применения методов статистической обработки параллельных текстов к диахроническому анализу русской экономической лексики была выбрана работа А.Смита «Исследование о природе и причинах богатства народов». Оригинал труда на английском языке был опубликован в 1776 году. Первый русский перевод был опубликован в 1802 – 1806 годах. В 1866 году вышел перевод П.А. Бибикова – наиболее авторитетный перевод 19 века. В 1985 году появился перевод М.Щепкина, переизданный в 1908 году. Первым в 20 веке стал сокращенный перевод под редакцией П.И. Лященко, изданный в 1924 году. В 1931 Государственное Социально-экономическое Издательство опубликовало довольно полный перевод, который впоследствии неоднократно переиздавался. Наконец, в 1993 году был опубликован перевод первой и второй книг труда А. Смита под редакцией академика Л.И. Абалкина.

В качестве параллельных текстов были выбраны два перевода – 1895 года и 1931 года.

Перевод 1895 года находится ближе всего к началу 20 века и относится к дореволюционному периоду российской истории. Исходя из этого мы предполагаем, что этот перевод является наиболее представительным для языка начала 20 века.

Перевод 1895 года не является полным. Номинально он охватывает 1, 2, 5, 6, 7, 8 главы первой книги, все 5 глав второй книги и небольшой фрагмент третьей книги. Однако помимо пропуска отдельных глав в процессе обработки были обнаружены необозначенные переводчиком пропуски фраз и целых абзацев в присутствующих главах. Общий объем текста составляет 252 страницы формата около A5.

Текст перевода 1895 года доступен только в печатном виде. Для машинной обработки текст было необходимо отсканировать и произвести его распознавание. Несмотря на значительные успехи программных продуктов, предназначенных для распознавания отсканированных текстов на русском языке, дореволюционная орфография представляет довольно существенное затруднение. Продукты, рассчитанные на распознавание текста только в современной орфографии для этой цели непригодны, так как при попытке интерпретировать буквы і и ѣ эти программы выдают совершенно неприемлемый результат. Однако проблема не ограничивается неспособностью программ распознать специфические буквы дореволюционной орфографии. Все современные программы распознавания текста в процессе работы используют не только графический, но и более высокие уровни – орфографический, синтаксический. Это значит, что для полноценного функционирования программы распознавания на тексте с дореволюционной орфографией требуется не только «обучить» программу нескольким новым знаком, но и создать систему проверки дореволюционной орфографии и, желательно, синтаксиса.

Из перечисленных компонентов в настоящее время доступен только графический – для программы FineReader фирмы ABBYY имеется модуль, обеспечивающий распознавание всех знаков дореволюционной орфографии. Это решение и было применено к тексту 1895 года. Из-за отсутствия поддержки дореволюционной орфографии на более высоких уровнях распознавания, а также из-за существенного графического отличия характерных для дореволюционной печати шрифтов от современных, количество ошибок оказалось очень высоким – от единиц до десятков на страницу. Исправление этих ошибок было произведено вручную. В процессе исправления также были удалены многочисленные комментарии, не входящие в основной текст. Таким образом перевод 1895 года был преобразован в машиночитаемый текст объемом 325,571 знак.

Перевод 1931 года включает все 11 глав первой книги и все пять глав второй книги. Текст этого перевода доступен в электронном виде, что существенно облегчает работу с ним. Исходный объем этого текста составляет 535,665 знаков.

Для дальнейшей работы с текстами использовался набор программных инструментов, разработанных автором на платформе Microsoft Access и Microsoft Visual Basic. Тексты основных алгоритмов этого набора приводятся в Приложении. Этот набор инструментов выполняет следующие функции, необходимые для поиска лексических соответствий в двух параллельных массивах текста на русском языке:

Для разделения текста на предложения использовался простой алгоритм, использующий в качестве признака конца предложения знаки точки, вопросительного или восклицательного знаков, после которых следует пробел или конец абзаца.

Следует заметить, что такой подход принципиально опасен тем, что конец предложения необоснованно выделяется после сокращений типа «т.е.», «г.» и других. При более аккуратной его реализации список таких сокращений мог бы использоваться для дополнительной проверки нахождения конца предложения. Однако в нашем случае данный недостаток компенсируется во-первых тем, что большинство сокращений встречаются в обоих текстах и не влияют на правильность выравнивания, и во-вторых тем, что алгоритм выравнивания способен в некоторых пределах объединить необоснованно разделенное предложение в одно целое.

Для разделения предложений на слова использовался алгоритм, использующий в качестве признака конца слова любой знак, не являющийся буквой русского алфавита (включая буквы і и ѣ; интересно, что третьей буквы, специфичной для дореволюционной орфографии – θ – в тексте обнаружено не было). Более совершенная версия этого алгоритма должна была бы корректно интерпретировать сокращения с точками и числа.

Для выравнивания предложений использовался алгоритм динамического программирования без ограничения области поиска. Функция расстояния использовала сочетание лексических совпадений и близости длин предложений. Использование только близости длин предложений, как это предусматривает алгоритм Гейла в первоначальном виде, оказалось неэффективным ввиду очень значительного разброса соотношения длин совпадающих предложений: при средней длине предложений 195 и 183 знака, соответственно, стандартное отклонение разницы длины в сопоставленных парах составило 40.

Для нахождения лексических совпадений предварительно был построен список словоформ, считающихся формами одного слова. Для этого все словоформы, найденные в корпусе 1895 года и в корпусе 1931 года сравнивались с точки зрения их графической близости следующим образом:

Формами одного слова считались те кандидаты, коэффициент схожести которых превысил 0,8. Порог отсечения был установлен на основании просмотра полной таблицы кандидатов. Ниже приводится фрагмент таблицы пар-кандидатов, демонстрирующий снижение количества подлинных соответствий около порога 0,8 (с обеих сторон включены только слова, начинающиеся на первые три буквы алфавита).

Слово 1895	Слово 1931	Схожесть
безполезно	бесполезны	0,8
ближними	ближних	0,8
большему	большое	0,8
большем	большом	0,8
большемъ	большое	0,8
большемъ	большом	0,8
большемь	большое	0,8
большемь	большом	0,8
большими	больших	0,8
большими	большом	0,8
большимъ	больших	0,8
большимъ	большом	0,8
большого	Большой	0,8
большого	большою	0,8
большого	большое	0,8
большого	большом	0,8
большое	большому	0,8
большое	большого	0,8
большой	большому	0,8
большой	большого	0,8
большомъ	большое	0,8
большомъ	большою	0,8
большомъ	Большой	0,8
большою	большому	0,8
большою	большого	0,8
возраста	возрастающее	0,8
возраста	возрастающий	0,8
возраста	возрастающим	0,8
брезгливость	бережливость	0,791667
благоразумными	благоразумного	0,785714
благоразумныхъ	благоразумного	0,785714
вмѣшательства	вымогательствам	0,785714
вознаграждаетъ	вознаграждение	0,785714
вознаграждаетъ	вознаграждения	0,785714
вознаграждаеть	вознаграждение	0,785714
вознаграждаеть	вознаграждения	0,785714
вознаграждеаія	вознаграждение	0,785714
возникновеніемъ	возникновении	0,785714
возникновеніемъ	возникновения	0,785714
Возстановленіе	восстановлению	0,785714
возстановленію	восстановление	0,785714
возстановленія	восстановление	0,785714
возстановленія	восстановлению	0,785714
воспроизвести	воспроизводства	0,785714
воспроизводство	воспроизвести	0,785714
бережливой	бережливостью	0,782609
бережливости	бережливыми	0,782609
благодарность	благодарен	0,782609
вмѣшиваться	вымениваться	0,782609
возбуждаемыхъ	возбуждает	0,782609
возвратится	возвращаются	0,782609
возвратится	возвращается	0,782609
возвратятся	возвращаются	0,782609
возвратятся	возвращается	0,782609
возвращаетъ	возвращаются	0,782609
возвращаютъ	возвращается	0,782609
возмѣщеніемъ	возмещением	0,782609
воспрещается	встречается	0,782609
выплачиваемой	выплачивая	0,782609
выплачивается	выплачивая	0,782609
выплачивалось	выплачивая	0,782609
выплачиваются	выплачивая	0,782609

Так как число уникальных словоформ составило 8.907 единиц в тексте 1895 года и 11.452 единицы в тексте 1931 года, вычисление коэффициента близости между всеми парами словоформ заняло несколько часов машинного времени.

При вычислении функции расстояния между двумя предложениями в процессе поиска оптимального решения задачи динамического программирования все отобранные пары словоформ расценивались как равнозначные. Для рассматриваемой пары предложений подсчитывалось количество словоформ предложения a, которым найдено соответствие в предложении b, затем такой же подсчет производился для предложения b. Отношение числа совпадений к суммарному числу слов в предложениях рассматривалось в качестве вероятности того, что оба предложения являются переводом одного предложения оригинала.

Для того, чтобы снизить вероятность ситуации, когда два предложения, являющихся переводом одного предложения оригинала, было невозможно сопоставить, потому что в них не было обнаружено графически достаточно близких словоформ, в дополнение к мере лексического сходства использовалась мера сходства длины, заимствованная из исходного алгоритма Гейла. Мера схожести длины учитывалась только тогда, когда по степени лексического сходства вероятность совпадения оказывалась ниже 0,2, а по степени схожести длин предложений – выше 0,8. При этом для снижения вклада меры схожести длины вероятность совпадения взвешивалась на 0,2.

Как было описано выше, в реализации алгоритма динамического программирования Гейла для операций удаления, одностороннего слияния и двустороннего слияния предложений использовались «штрафы», соответствующие вероятности операции каждого типа в корпусе текста. Для целей обработки двух переводов в значения этих штрафов были внесены некоторые поправки. Значения новых штрафов были выбраны эмпирически путем оценки качества работы алгоритма на отрезке текста в 200 пар предложений.

Штраф за установление связи двух предложений с одной стороны с одним предложением с другой стороны не изменялся и остался на уровне 230, что соответствует вероятности 0,1.

Штраф за установление связи двух предложений с одной стороны с двумя предложениям с другой стороны был установлен на запретительном уровне 1000, соответствующем вероятности около 0,00005, так как при просмотре корпуса ситуаций, в которых такая операция была бы необходима, обнаружено не было.

Штраф за удаление одного предложения был снижен до уровня 250, соответствующего вероятности около 0,08 вместо 450 (p ≈ 0,01). Если для вычисления необходимого уровня штрафа следовать методике Гейла, заключающейся в оценке вероятности соответствующих операций по выборке из корпуса, размеченной вручную, то штраф за удаление предложений должен был бы быть существенно ниже, так как со стороны текста 1895 года имеются обширные пропуски. Однако по наблюдениям за результатами работы алгоритма на небольших участках было установлено, что снижение штрафа за удаление ниже уровня 250 приводит к необоснованно большому числу таких операций.

Алгоритм динамического программирования, основанный на алгоритме Гейла с описанными изменениями, был применен к текстам двух переводов. Пример результатов выравнивания приводится в Приложении. По данным приводимого образца количество ошибочных удалений составляет 2%, количество ошибочных слияний составляет 1%, ошибочные сопоставления отсутствуют.

При просмотре полученной таблицы было обнаружено, что текст 1895 года перед обширными пропусками имеет характер скорее реферата, чем перевода. Единичные предложения текста 1895 года оказались сопоставленными со случайными предложениями фрагментов 1931 года, пропущенных автором первого перевода. Для снижения уровня шума на следующем этапе эксперимента единичные предложения, сопоставленные со случайными предложениями на фоне обширных пропусков, были удалены вручную.

В результате описанной работы для дальнейшей обработки были получены 1.076 пар предложений.

Для извлечения нетривиальных (неграфических) лексических соответствий из выровненного корпуса оба текста рассматривались как оригинал на некотором языке и перевод на некоторый другой язык. Задача автоматического извлечения лексических соответствий из двух переводов таким образом сводится к задаче извлечения лексических соответствий при автоматическом машинном переводе.

Для эксперимента была выбрана Модель IBM №1. Модель №1 считается крайне примитивной с точки зрения перевода, однако достоинство более старших моделей заключается в том, что они оперируют не только таблицей переводных соответствий, но и более сложными псевдолингвистическими данными, позволяющими правильнее переводить фразы. Хотя таблица лексических переводных соответствий корректируется в процессе обучения старших моделей, их вклад в формирование этой таблицы не очень существенен, тогда как ресурсоемкость реализации и обучения более старших моделей на порядки превышает Модель №1. В силу этих соображений было решено отказаться от использования более сложных моделей.

Флективность русского языка представляет собой некоторое затруднение при использовании статистических моделей, таких как Модель №1. Из-за наличия у одного слова большого числа форм эффективность поиска лексических соответствий снижается. Простым способом устранения флективности является лемматизация, которая может быть выполнена для современного русского языка с помощью готовых программных продуктов. Однако лемматизация текста в дореволюционной орфографии представляет собой отдельную задачу. По этим соображениям было принято решение не производить лемматизацию текста перед применением статистической модели.

В эксперименте был использован программный код, опубликованный группой американских исследователей по результатам семинара по статистическому машинному переводу 1999 года [Statistical Machine Translation, 1999]. Ниже приводится фрагмент таблицы лексических соответствий, обнаруженных Моделью №1 в корпусе.

Как видно из приведенных таблиц, при высокой вероятности, присвоенной паре статистической моделью, подавляющее большинство лексических пар не только интуитивно правильно, но даже тривиально. По мере снижения уверенности модели в гипотезе повышается уровень шума.

Из приведенного примера виден результат словоцентрического подхода Модели №1 к переводу: словосочетания типа «доказывать примѣрами»/«приводить примеры» расщепляются на отдельные строки таблицы, однако зачастую части таких словосочетаний оказываются довольно близко друг от друга.

Конечный этап работы заключался в ручном просмотре пар-кандидатов с вероятностью выше 0,5 и коэффициентом графической схожести ниже 0,8. Из 295 пар были отобраны пары, приведенные в следующей таблице. При очевидном восстановлении словосочетания указывается словосочетание; слова по возможности восстановлены до исходной формы. Отмечены слова, относящиеся к области экономики.

1895	1931	Экон.
англійский	британский
благоразуміе	осторожность
богатство	состояние	+
большой	значительный
вездѣ	повсюду
верхъ	преимущество	+
вѣроятность	шансы	+
вознагражденіе	почет
возстановлять	возвращать
выпускать (из дома)	расставаться
деревни	села	+
дѣйствительный	реальный	+
дѣлятся	подразделении
исполнить	выполнить
кирпичникъ	каменщик	+
кѣмъ	лицом
куски	слитки	+
лавка	склад	+
ловкость	искусство	+
мастерство	ремесло	+
мѣняться	обмениваться	+
могущество	сила
мотъ	расточитель
надѣяться	рассчитывать
народный	национальный	+
народ	нация	+
образованный	цивилизованный	+
обстоятельство	особенность
обстоятельство	присущая/черта
общественный	государственный	+
обыкновенно	обычно
одѣваться	одеваться
одѣваться	питаться
одѣваться	находить/кров
отрасль	специальность	+
перевозочная	транзитная/торговля	+
получатъ	извлекать	+
получатъ	удерживать	+
помѣщеніе (капитала)	применение	+
постоянный	основной	+
правда	конечно
правительство	государственный
приготовленіе	выделка	+
производство	ремесло	+
рабочий	работник	+
разработки	рудники	+
разсчитывать	ожидать
рыболовство	ловля (рыбы)	+
смотрѣть	рассматривать
собственник	землевладелец	+
совокупный	общий	+
содержаніе	поддержание	+
сокращающий	облегчающий
способъ	приложение
сравнительно	(в) сравнении
су	шиллинг[1]	+
судно	корабль	+
считаться	признаваться
употребляться	вкладываться	+
фабрика	мануфактура	+
фабричный	мастеровой	+
франкъ	пенс	+
цѣнность	стоимость
шуметь	поднимать (шум)

[1] Конечно, использование французских наименований денежных единиц является ошибкой перевода 1895 года.