Эволюция семантики экономической терминологии

2.3.3 Выравнивание предложений

Подавляющее большинство существующих параллельных текстов не дают возможности непосредственного извлечения информации о переводных соответствиях. Препятствий к этому несколько. Во-первых, очевидно, что между текстом оригинала и переводом не существует однозначного и линейного соответствия на уровне слов – в любой паре языков существуют как минимум различия грамматической структуры, различия в идиоматике, лексическая неоднозначность. Во-вторых, переводчик не всегда выбирает наиболее буквальный вариант перевода. В частности, одному предложению оригинала может соответствовать два (а иногда и более) предложений перевода, и наоборот. Наконец, неизбежным фактом являются неточности перевода, среди которых для нас наиболее существенны пропуски.

Таким образом, любая работа по статистическому анализу параллельных текстов опирается на выравнивание параллельных текстов. В большинстве исследований явно или неявно выделяются два уровня выравнивания: выравнивание предложений и лексическое выравнивание.

Разбиение корпуса текстов на предложения, хотя и представляет собой не столь тривиальную задачу, как это может показаться на первый взгляд, выходит за рамки этого обзора. Скажем только, что в наиболее простых случаях для деления текста на предложения используются элементарные синтаксические признаки конца и начала предложения – пунктуация, использование заглавных букв, знаки абзаца. В более сложных системах применяются эвристические методы, использующие более или менее обширные знания о лексике конкретного языка – списки сокращений и др.

Выравнивание предложений в параллельных корпусах текстов дает нам основу для дальнейших вычислений – схема распределения слов в предложениях используется как основной источник информации при установлении лексических соответствий на следующем этапе. От точности выравнивания предложений зависит успех дальнейших вычислений нашей системы.

Можно выделить два основных подхода к выравниванию предложений. Первый подход, обеспечивающий существенно более высокую производительность, основан на длине предложений. Во втором, более ресурсоемком подходе, используются лексические соответствия, устанавливаемые в той или иной степени методом выравнивания слов.

Как показано в работе [Gale, Church, 1991], длина предложений текста, переведенного на иностранный язык, с высокой вероятностью находится в прямой зависимости от длины предложения на языке оригинала. Так, для пары английский-немецкий уровень корреляции длины предложения в знаках составил 99,1%. Описанный алгоритм минимизирует суммарную разницу длин во всех парах предложений и обеспечивает среднюю точность выравнивания на уровне 95,8%.

Поиск оптимального варианта выполняется путем динамического программирования. Этот подход, используемый с разными вариациями во многих естественнонаучных задачах, обеспечивает нахождение минимального суммарного расстояния между элементами двух последовательностей. Расстояние между элементами определяется с помощью специфичной для каждой задачи функции расстояния, которая в нашем случае основывается на отрицательном логарифме вероятности наблюдаемого отклонения соотношения длины предложений от среднего значения при гипотезе, что предложения являются корректной парой. Соотношение длин вычисляется по формуле, обеспечивающей распределение отклонений в эталонном корпусе, близкое к нормальному распределению с нулевым средним и вариацией равной единице. Помимо этого, на каждом шаге рассматривается вероятность того, что предложение с какой-либо стороны отсутствует в другом тексте, что отдельное предложение с одной стороны соответствует двум предложениям с другой стороны, а также что совокупность двух предложений одного текста соответствует совокупности двух предложений в другом тексте. Во всех этих случаях функция расстояния начисляет некоторый «штраф», установленный авторами алгоритма на основе частотности каждого вида преобразований в эталонном корпусе.

Продолжительность вычислений алгоритма динамического программирования пропорциональна квадрату числа пар предложений в обрабатываемом фрагменте (вернее, произведению числа предложений на одном языке и на другом). Одна из особенностей описываемого алгоритма заключается в том, что выравнивание предложений производится только в рамках одного абзаца, – предполагается, что при переводе предложение не может перейти из конца одного абзаца в начало другого. Предварительно абзацы текстов выравниваются между собой в рамках документа таким же способом, как предложения внутри абзаца. Помимо сокращения времени вычислений, двухступенчатая обработка обеспечивает более низкое число ошибок.

По данным работы [Gale, Church, 1991], использование в качестве меры длины предложения числа слов, а не числа знаков существенно повышает количество ошибок. Хотя такой подход использовался в некоторых аналогичных алгоритмах, отсутствие подробных описаний и сравнимых измерений точности не позволяют делать дальнейшие выводы.

Альтернативный подход описан в работе [Chen, 1993]. Алгоритм, основанный на поиске лексических соответствий в параллельных текстах, по оценкам авторов, обеспечивает точность выравнивания на уровне 99,6%. В процессе выравнивания предложений алгоритм строит простую статистическую модель дословного перевода и выбирает такую схему выравнивания предложений, которая максимизирует вероятность генерации корпуса с этой моделью перевода. Скорость этого алгоритма оценивается авторами как «в десятки раз более низкая», чем у алгоритма Гейла [Gale, Church, 1991] и аналогичного ему алгоритма Брауна [Brown et al, 1991], несмотря даже на многочисленные аппроксимации, использованные при реализации алгоритма.

Поиск оптимального выравнивания, как и в алгоритме Гейла, выполняется методом динамического программирования. Авторы ввели в этот алгоритм пороги, сужающие область поиска до некоторой области вокруг диагонали матрицы расстояний шириной около 30 шагов. Это позволило обеспечить примерно линейную зависимость времени вычислений от размера корпуса (в отличие от квадратичной зависимости классического метода). Однако из-за этой модификации алгоритм потерял присущую динамическому программированию способность обнаруживать большие пропуски в одной из последовательностей. Для компенсации этого недостатка используется отдельный механизм определения начала и конца больших пропусков.

Функция расстояния вычисляется на основе произведения вероятностей лексических соответствий в рассматриваемой паре предложений. Вероятности каждой пары берутся из таблицы-словаря. Лексические пары создаются из пары предложений таким образом, чтобы каждая пара имела максимальное увеличение вероятности против гипотезы, что составляющие ее слова не имеют переводных соответствий в противоположном предложении.

Таблица-словарь, занимающая центральное место в модели перевода, а также остальные параметры модели, вычисляются постепенно с помощью особой модификации алгоритма Витерби. Для начала работы системы требуется корпус размером около 100 пар предложений, выровненных вручную. Свойства этого корпуса используются для установки первоначальных значений параметров модели – вероятностей переводных соответствий, а также средней длины предложения и вероятностей соотношения перевода 1:1, пропуска, разбиения предложения на два.

Суть классического алгоритма Витерби заключается в следующем чередовании фаз оценки и максимизации:

1.     Находится оптимальное решение (выравнивание) для имеющихся данных (корпуса) на основе текущих параметров модели (например, наполнения таблицы-словаря).

2.     На основе полученного решения параметры модели пересчитываются, и цикл повторяется.

В описываемой реализации алгоритма параметры модели пересчитываются не на всем корпусе, а в течение одного прохода по мере продвижения. Дело в том, что использование пороговых ограничений в алгоритме динамического программирования отбрасывает большую часть потенциальных вариантов выравнивания, и в некоторый момент начальные части всех вариантов выравнивания, остающихся в поле зрения, совпадают. Тогда на выровненных предложениях производится дополнительная тренировка алгоритма Витерби. В результате использования такого подхода алгоритм достиг необходимого уровня точности после одного прохода на корпусе из 20 тысяч пар предложений.

Параллельные тексты на одном языке дают возможность использовать промежуточный подход к выравниванию предложений. При расстоянии в несколько десятков лет между переводами одного текста сохраняется значительное число слов, не изменивших свое написание и значение, или изменившихся несущественно. Вследствие этого набор совпадающих или близких слов в предложениях двух текстов может служить показателем близости этих предложений, причем его уровень надежности существенно превышает надежность такого параметра как близость длины предложений.

Таким образом, мы можем построить алгоритм выравнивания, аналогичный алгоритму Гейла, т.е. использующий динамическое программирование без ограничения массива поиска, в котором в качестве функции расстояния используется информация о лексических соответствиях, но который является не рекурсивным (как алгоритм Витерби), а детерминистским.

В зависимости от доступных ресурсов к составления исходного словаря лексических соответствий могут использоваться различные подходы:

При отсутствии дополнительных лингвистических ресурсов наиболее доступным способом является извлечение слов из рассматриваемых текстов в тех формах, в которых они использованы с последующей оценкой вероятности того, что две словоформы являются одним словом на основании отношения совпадающих последовательностей знаков и различающихся. При очевидно высоком уровне шума по сравнению с использованием, например, алгоритмов лемматизации, такой подход может быть оправдан при наличии большого числа опечаток и дефектов распознавания текста, а также при сопоставлении текста в современной и устаревшей орфографии.

При наличии программных инструментов лемматизации и исправления орфографических ошибок принадлежность словоформ, извлеченных из текстов, к одному слову может быть констатирована по совпадению результата орфографической проверки и лемматизации.

Наконец, при доступности помимо указанных инструментов словаря синонимов дополнительные лексические соответствия могут быть установлены путем поиска лемматизированных форм в таком словаре.

© Б.Н. Рахимбердиев, 2003.

Сайт управляется системой uCoz