Эволюция семантики экономической терминологии

3.2 Эволюция экономической терминологии по данным параллельных текстов

(см. также: инструменты и материалы)

Для изучения возможности применения методов статистической обработки параллельных текстов к диахроническому анализу русской экономической лексики была выбрана работа А.Смита «Исследование о природе и причинах богатства народов». Оригинал труда на английском языке был опубликован в 1776 году. Первый русский перевод был опубликован в 1802 – 1806 годах. В 1866 году вышел перевод П.А. Бибикова – наиболее авторитетный перевод 19 века. В 1985 году появился перевод М.Щепкина, переизданный в 1908 году. Первым в 20 веке стал сокращенный перевод под редакцией П.И. Лященко, изданный в 1924 году. В 1931 Государственное Социально-экономическое Издательство опубликовало довольно полный перевод, который впоследствии неоднократно переиздавался. Наконец, в 1993 году был опубликован перевод первой и второй книг труда А. Смита под редакцией академика Л.И. Абалкина.

В качестве параллельных текстов были выбраны два перевода – 1895 года и 1931 года.

Перевод 1895 года находится ближе всего к началу 20 века и относится к дореволюционному периоду российской истории. Исходя из этого мы предполагаем, что этот перевод является наиболее представительным для языка начала 20 века.

Перевод 1895 года не является полным. Номинально он охватывает 1, 2, 5, 6, 7, 8 главы первой книги, все 5 глав второй книги и небольшой фрагмент третьей книги. Однако помимо пропуска отдельных глав в процессе обработки были обнаружены необозначенные переводчиком пропуски фраз и целых абзацев в присутствующих главах. Общий объем текста составляет 252 страницы формата около A5.

Текст перевода 1895 года доступен только в печатном виде. Для машинной обработки текст было необходимо отсканировать и произвести его распознавание. Несмотря на значительные успехи программных продуктов, предназначенных для распознавания отсканированных текстов на русском языке, дореволюционная орфография представляет довольно существенное затруднение. Продукты, рассчитанные на распознавание текста только в современной орфографии для этой цели непригодны, так как при попытке интерпретировать буквы і и ѣ эти программы выдают совершенно неприемлемый результат. Однако проблема не ограничивается неспособностью программ распознать специфические буквы дореволюционной орфографии. Все современные программы распознавания текста в процессе работы используют не только графический, но и более высокие уровни – орфографический, синтаксический. Это значит, что для полноценного функционирования программы распознавания на тексте с дореволюционной орфографией требуется не только «обучить» программу нескольким новым знаком, но и создать систему проверки дореволюционной орфографии и, желательно, синтаксиса.

Из перечисленных компонентов в настоящее время доступен только графический – для программы FineReader фирмы ABBYY имеется модуль, обеспечивающий распознавание всех знаков дореволюционной орфографии. Это решение и было применено к тексту 1895 года. Из-за отсутствия поддержки дореволюционной орфографии на более высоких уровнях распознавания, а также из-за существенного графического отличия характерных для дореволюционной печати шрифтов от современных, количество ошибок оказалось очень высоким – от единиц до десятков на страницу. Исправление этих ошибок было произведено вручную. В процессе исправления также были удалены многочисленные комментарии, не входящие в основной текст. Таким образом перевод 1895 года был преобразован в машиночитаемый текст объемом 325,571 знак.

Перевод 1931 года включает все 11 глав первой книги и все пять глав второй книги. Текст этого перевода доступен в электронном виде, что существенно облегчает работу с ним. Исходный объем этого текста составляет 535,665 знаков.

Для дальнейшей работы с текстами использовался набор программных инструментов, разработанных автором на платформе Microsoft Access и Microsoft Visual Basic. Тексты основных алгоритмов этого набора приводятся в Приложении. Этот набор инструментов выполняет следующие функции, необходимые для поиска лексических соответствий в двух параллельных массивах текста на русском языке:

  • Разделение текста на предложения
  • Разделение предложений на слова
  • Выравнивание предложений двух массивов между собой

Для разделения текста на предложения использовался простой алгоритм, использующий в качестве признака конца предложения знаки точки, вопросительного или восклицательного знаков, после которых следует пробел или конец абзаца.

Следует заметить, что такой подход принципиально опасен тем, что конец предложения необоснованно выделяется после сокращений типа «т.е.», «г.» и других. При более аккуратной его реализации список таких сокращений мог бы использоваться для дополнительной проверки нахождения конца предложения. Однако в нашем случае данный недостаток компенсируется во-первых тем, что большинство сокращений встречаются в обоих текстах и не влияют на правильность выравнивания, и во-вторых тем, что алгоритм выравнивания способен в некоторых пределах объединить необоснованно разделенное предложение в одно целое.

Для разделения предложений на слова использовался алгоритм, использующий в качестве признака конца слова любой знак, не являющийся буквой русского алфавита (включая буквы і и ѣ; интересно, что третьей буквы, специфичной для дореволюционной орфографии – θ – в тексте обнаружено не было). Более совершенная версия этого алгоритма должна была бы корректно интерпретировать сокращения с точками и числа.

Для выравнивания предложений использовался алгоритм динамического программирования без ограничения области поиска. Функция расстояния использовала сочетание лексических совпадений и близости длин предложений. Использование только близости длин предложений, как это предусматривает алгоритм Гейла в первоначальном виде, оказалось неэффективным ввиду очень значительного разброса соотношения длин совпадающих предложений: при средней длине предложений 195 и 183 знака, соответственно, стандартное отклонение разницы длины в сопоставленных парах составило 40.

Для нахождения лексических совпадений предварительно был построен список словоформ, считающихся формами одного слова. Для этого все словоформы, найденные в корпусе 1895 года и в корпусе 1931 года сравнивались с точки зрения их графической близости следующим образом:

  • Каждая буква lax слова a сравнивалась с буквами слова b в позиции на один знак левее, чем позиция буквы слова a, совпадающей с ней, и на один знак правее (lbx-1, lbx, lbx+1,) При этом если предыдущей букве lax-1 слова a была успешно сопоставлена буква lby слова b, то поиск начинался не ранее следующей позиции (y+1).
  • При успешном нахождении совпадающей буквы в указанном диапазоне засчитывалось одно совпадение, в противном случае – одно несовпадение.
  • Процедура повторялась зеркально для слова b.
  • В качестве коэффициента близости между словом a и b рассматривалось отношение общего числа совпадений к суммарной длине двух слов.

Формами одного слова считались те кандидаты, коэффициент схожести которых превысил 0,8. Порог отсечения был установлен на основании просмотра полной таблицы кандидатов. Ниже приводится фрагмент таблицы пар-кандидатов, демонстрирующий снижение количества подлинных соответствий около порога 0,8 (с обеих сторон включены только слова, начинающиеся на первые три буквы алфавита).

Слово 1895

Слово 1931

Схожесть

безполезно

бесполезны

0,8

ближними

ближних

0,8

большему

большое

0,8

большем

большом

0,8

большемъ

большое

0,8

большемъ

большом

0,8

большемь

большое

0,8

большемь

большом

0,8

большими

больших

0,8

большими

большом

0,8

большимъ

больших

0,8

большимъ

большом

0,8

большого

Большой

0,8

большого

большою

0,8

большого

большое

0,8

большого

большом

0,8

большое

большому

0,8

большое

большого

0,8

большой

большому

0,8

большой

большого

0,8

большомъ

большое

0,8

большомъ

большою

0,8

большомъ

Большой

0,8

большою

большому

0,8

большою

большого

0,8

возраста

возрастающее

0,8

возраста

возрастающий

0,8

возраста

возрастающим

0,8

брезгливость

бережливость

0,791667

благоразумными

благоразумного

0,785714

благоразумныхъ

благоразумного

0,785714

вмѣшательства

вымогательствам

0,785714

вознаграждаетъ

вознаграждение

0,785714

вознаграждаетъ

вознаграждения

0,785714

вознаграждаеть

вознаграждение

0,785714

вознаграждаеть

вознаграждения

0,785714

вознаграждеаія

вознаграждение

0,785714

возникновеніемъ

возникновении

0,785714

возникновеніемъ

возникновения

0,785714

Возстановленіе

восстановлению

0,785714

возстановленію

восстановление

0,785714

возстановленія

восстановление

0,785714

возстановленія

восстановлению

0,785714

воспроизвести

воспроизводства

0,785714

воспроизводство

воспроизвести

0,785714

бережливой

бережливостью

0,782609

бережливости

бережливыми

0,782609

благодарность

благодарен

0,782609

вмѣшиваться

вымениваться

0,782609

возбуждаемыхъ

возбуждает

0,782609

возвратится

возвращаются

0,782609

возвратится

возвращается

0,782609

возвратятся

возвращаются

0,782609

возвратятся

возвращается

0,782609

возвращаетъ

возвращаются

0,782609

возвращаютъ

возвращается

0,782609

возмѣщеніемъ

возмещением

0,782609

воспрещается

встречается

0,782609

выплачиваемой

выплачивая

0,782609

выплачивается

выплачивая

0,782609

выплачивалось

выплачивая

0,782609

выплачиваются

выплачивая

0,782609

Так как число уникальных словоформ составило 8.907 единиц в тексте 1895 года и 11.452 единицы в тексте 1931 года, вычисление коэффициента близости между всеми парами словоформ заняло несколько часов машинного времени.

При вычислении функции расстояния между двумя предложениями в процессе поиска оптимального решения задачи динамического программирования все отобранные пары словоформ расценивались как равнозначные. Для рассматриваемой пары предложений подсчитывалось количество словоформ предложения a, которым найдено соответствие в предложении b, затем такой же подсчет производился для предложения b. Отношение числа совпадений к суммарному числу слов в предложениях рассматривалось в качестве вероятности того, что оба предложения являются переводом одного предложения оригинала.

Для того, чтобы снизить вероятность ситуации, когда два предложения, являющихся переводом одного предложения оригинала, было невозможно сопоставить, потому что в них не было обнаружено графически достаточно близких словоформ, в дополнение к мере лексического сходства использовалась мера сходства длины, заимствованная из исходного алгоритма Гейла. Мера схожести длины учитывалась только тогда, когда по степени лексического сходства вероятность совпадения оказывалась ниже 0,2, а по степени схожести длин предложений – выше 0,8. При этом для снижения вклада меры схожести длины вероятность совпадения взвешивалась на 0,2.

Как было описано выше, в реализации алгоритма динамического программирования Гейла для операций удаления, одностороннего слияния и двустороннего слияния предложений использовались «штрафы», соответствующие вероятности операции каждого типа в корпусе текста. Для целей обработки двух переводов в значения этих штрафов были внесены некоторые поправки. Значения новых штрафов были выбраны эмпирически путем оценки качества работы алгоритма на отрезке текста в 200 пар предложений.

Штраф за установление связи двух предложений с одной стороны с одним предложением с другой стороны не изменялся и остался на уровне 230, что соответствует вероятности 0,1.

Штраф за установление связи двух предложений с одной стороны с двумя предложениям с другой стороны был установлен на запретительном уровне 1000, соответствующем вероятности около 0,00005, так как при просмотре корпуса ситуаций, в которых такая операция была бы необходима, обнаружено не было.

Штраф за удаление одного предложения был снижен до уровня 250, соответствующего вероятности около 0,08 вместо 450 (p ≈ 0,01). Если для вычисления необходимого уровня штрафа следовать методике Гейла, заключающейся в оценке вероятности соответствующих операций по выборке из корпуса, размеченной вручную, то штраф за удаление предложений должен был бы быть существенно ниже, так как со стороны текста 1895 года имеются обширные пропуски. Однако по наблюдениям за результатами работы алгоритма на небольших участках было установлено, что снижение штрафа за удаление ниже уровня 250 приводит к необоснованно большому числу таких операций.

Алгоритм динамического программирования, основанный на алгоритме Гейла с описанными изменениями, был применен к текстам двух переводов. Пример результатов выравнивания приводится в Приложении. По данным приводимого образца количество ошибочных удалений составляет 2%, количество ошибочных слияний составляет 1%, ошибочные сопоставления отсутствуют.

При просмотре полученной таблицы было обнаружено, что текст 1895 года перед обширными пропусками имеет характер скорее реферата, чем перевода. Единичные предложения текста 1895 года оказались сопоставленными со случайными предложениями фрагментов 1931 года, пропущенных автором первого перевода. Для снижения уровня шума на следующем этапе эксперимента единичные предложения, сопоставленные со случайными предложениями на фоне обширных пропусков, были удалены вручную.

В результате описанной работы для дальнейшей обработки были получены 1.076 пар предложений.

Для извлечения нетривиальных (неграфических) лексических соответствий из выровненного корпуса оба текста рассматривались как оригинал на некотором языке и перевод на некоторый другой язык. Задача автоматического извлечения лексических соответствий из двух переводов таким образом сводится к задаче извлечения лексических соответствий при автоматическом машинном переводе.

Для эксперимента была выбрана Модель IBM №1. Модель №1 считается крайне примитивной с точки зрения перевода, однако достоинство более старших моделей заключается в том, что они оперируют не только таблицей переводных соответствий, но и более сложными псевдолингвистическими данными, позволяющими правильнее переводить фразы. Хотя таблица лексических переводных соответствий корректируется в процессе обучения старших моделей, их вклад в формирование этой таблицы не очень существенен, тогда как ресурсоемкость реализации и обучения более старших моделей на порядки превышает Модель №1. В силу этих соображений было решено отказаться от использования более сложных моделей.

Флективность русского языка представляет собой некоторое затруднение при использовании статистических моделей, таких как Модель №1. Из-за наличия у одного слова большого числа форм эффективность поиска лексических соответствий снижается. Простым способом устранения флективности является лемматизация, которая может быть выполнена для современного русского языка с помощью готовых программных продуктов. Однако лемматизация текста в дореволюционной орфографии представляет собой отдельную задачу. По этим соображениям было принято решение не производить лемматизацию текста перед применением статистической модели.

В эксперименте был использован программный код, опубликованный группой американских исследователей по результатам семинара по статистическому машинному переводу 1999 года [Statistical Machine Translation, 1999]. Ниже приводится фрагмент таблицы лексических соответствий, обнаруженных Моделью №1 в корпусе.

Пары с лучшими вероятностями:   Пары с вероятностями в районе 0,5:

1895

1931

P

 

1895

1931

P

раздѣленіи

разделении

1

 

важнѣе

оставался

0,509592

шотландіи

шотландии

0,997036

 

доходу

доходу

0,509529

вмѣсто

вместо

0,996916

 

рукахъ

руках

0,509229

смѣшивается

смешивается

0,99519

 

совокупности

взятых

0,507744

смѣшиваются

смешиваются

0,994954

 

другимъ

употребляется

0,506752

деньгамъ

деньгам

0,994764

 

франковъ

пенсов

0,50671

процентъ

процент

0,993787

 

оно

оно

0,506414

воды

воды

0,992584

 

стоившее

часов

0,50626

возвращается

возвращается

0,990463

 

подъ

под

0,505644

происхожденіи

употреблении

0,989494

 

владѣльцы

употребляют

0,505447

происхожденіи

происхождении

0,989494

 

богатства

состояния

0,505086

купецъ

купец

0,988988

 

который

который

0,504976

второго

второго

0,988398

 

лѣтняго

летней

0,50482

надѣются

рассчитывают

0,988037

 

такой

такой

0,504145

ткачъ

ткач

0,987883

 

вычетъ

вычет

0,503974

исполняли

выполняли

0,987206

 

по

по

0,50394

покупку

покупку

0,987102

 

прежде

прежде

0,503881

природѣ

природе

0,984028

 

возможности

возможности

0,502914

возможенъ

состояться

0,981723

 

пріобрѣсть

приобрести

0,502876

прежняго

прежнего

0,981638

 

первыхъ

первых

0,502577

окончанія

окончания

0,981568

 

четыре

кварты

0,501846

землевладѣльцу

землевладельцу

0,978203

 

сторонъ

сторон

0,501114

полезнымъ

полезным

0,977288

 

суммы

понизилась

0,500752

равняться

равняться

0,976352

 

суммы

повысилась

0,500752

различномъ

помещениях

0,976188

 

разнообразнѣе

разнообразна

0,5

вліяніе

влияние

0,976175

 

слесаря

разнообразна

0,5

обычномъ

обычном

0,97591

 

примѣрами

примеры

0,499918

естественному

естественного

0,97586

 

доказывать

примеры

0,499918

зависѣть

зависеть

0,975633

 

доказывать

приводить

0,499918

сговориться

сговориться

0,975263

 

примѣрами

приводить

0,499918

замѣтно

заметно

0,975

 

разнообразнаго

разнообразный

0,499669

назадъ

назад

0,97494

 

сочиненія

введение

0,499652

хозяевами

хозяевами

0,974337

 

сочиненія

сочинения

0,499652

Как видно из приведенных таблиц, при высокой вероятности, присвоенной паре статистической моделью, подавляющее большинство лексических пар не только интуитивно правильно, но даже тривиально. По мере снижения уверенности модели в гипотезе повышается уровень шума.

Из приведенного примера виден результат словоцентрического подхода Модели №1 к переводу: словосочетания типа «доказывать примѣрами»/«приводить примеры» расщепляются на отдельные строки таблицы, однако зачастую части таких словосочетаний оказываются довольно близко друг от друга.

Конечный этап работы заключался в ручном просмотре пар-кандидатов с вероятностью выше 0,5 и коэффициентом графической схожести ниже 0,8. Из 295 пар были отобраны пары, приведенные в следующей таблице. При очевидном восстановлении словосочетания указывается словосочетание; слова по возможности восстановлены до исходной формы. Отмечены слова, относящиеся к области экономики.

1895

1931

Экон.

англійский

британский

 

благоразуміе

осторожность

 

богатство

состояние

+

большой

значительный

 

вездѣ

повсюду

 

верхъ

преимущество

+

вѣроятность

шансы

+

вознагражденіе

почет

 

возстановлять

возвращать

 

выпускать (из дома)

расставаться

 

деревни

села

+

дѣйствительный

реальный

+

дѣлятся

подразделении

 

исполнить

выполнить

 

кирпичникъ

каменщик

+

кѣмъ

лицом

 

куски

слитки

+

лавка

склад

+

ловкость

искусство

+

мастерство

ремесло

+

мѣняться

обмениваться

+

могущество

сила

 

мотъ

расточитель

 

надѣяться

рассчитывать

 

народный

национальный

+

народ

нация

+

образованный

цивилизованный

+

обстоятельство

особенность

 

обстоятельство

присущая/черта

 

общественный

государственный

+

обыкновенно

обычно

 

одѣваться

одеваться

 

одѣваться

питаться

 

одѣваться

находить/кров

 

отрасль

специальность

+

перевозочная

транзитная/торговля

+

получатъ

извлекать

+

получатъ

удерживать

+

помѣщеніе (капитала)

применение

+

постоянный

основной

+

правда

конечно

 

правительство

государственный

 

приготовленіе

выделка

+

производство

ремесло

+

рабочий

работник

+

разработки

рудники

+

разсчитывать

ожидать

 

рыболовство

ловля (рыбы)

+

смотрѣть

рассматривать

 

собственник

землевладелец

+

совокупный

общий

+

содержаніе

поддержание

+

сокращающий

облегчающий

 

способъ

приложение

 

сравнительно

(в) сравнении

 

су

шиллинг[1]

+

судно

корабль

+

считаться

признаваться

 

употребляться

вкладываться

+

фабрика

мануфактура

+

фабричный

мастеровой

+

франкъ

пенс

+

цѣнность

стоимость

 

шуметь

поднимать (шум)

 


[1] Конечно, использование французских наименований денежных единиц является ошибкой перевода 1895 года.

© Б.Н. Рахимбердиев, 2003.

Сайт управляется системой uCoz