Эволюция семантики экономической терминологии

2.3.4 Составление лексических конкордансов

После того, как два параллельных корпуса выровнены на уровне предложений, мы можем попытаться извлечь из них информацию о переводных соответствиях двух языков. Характер информации, которую мы попытаемся извлечь, сильно зависит от того, какой метод перевода мы приняли за основу. Для целей лексикографии нам будет достаточно установить факт (и оценить надежность) лексических соответствий. В системах машинного перевода, как мы увидим далее, нам придется извлечь и некоторую псевдограмматическую информацию.

Наиболее простым статистическим алгоритмом построения лексических конкордансов является следующий быстрый («жадный») метод [Melamed, 1996]:

  • Выбирается мера сходства S между словами языка L1 и L2. Обычно в качестве меры сходства используется частотность совместного присутствия слов в связанных фрагментах параллельных текстов, хотя известны и другие подходы.
  • Вычисляется степень связи S(v, w) для набора пар слов (v, w) (L1 × L2)
  • Пары сортируются в порядке убывания степени связи
  • Выбирается пороговое значение t. Пары слов со степенью связи выше t включаются в конкорданс.

Классическая формула статистической меры сходства между двумя словами параллельных тексов основывается на формуле взаимозависимости (MImutual information) и имеет вид:

,

где вероятности P(v,w), P(v) и P(w) определяются на основе таблицы сопряженности следующим образом:

 

Фрагментов L1,
включающих
v

Фрагментов L1,
не включающих
v

Связанных фрагментов L2, включающих w

a

b

Связанных фрагментов L2,
не включающих
w

c

d

 

 

Очевидный недостаток такого алгоритма заключается в том, что степень связанности пар слов вычисляется независимо друг от друга. Это приводит к появлению в конкордансе не только пар, соединенных непосредственной связью, но и пар с косвенной связью. Представим себе, что в некотором корпусе политических текстов часто встречается словосочетание «Белый Дом» и его перевод «White House». Слово «White» обладает прямой связью со словом «Белый», но, кроме того, слово «Белый» обладает связью со словом «Дом». В результате алгоритм будет констатировать сильную (хотя и косвенную – но об этом алгоритм не знает) связь слова «White» со словом «Дом».

Более точные результаты достигаются путем построения модели перевода. При таком подходе за основу берется некоторая модель, позволяющая оценить правдоподобие конкретной гипотезы о схеме переводных соответствий в данных параллельных текстах. Затем методами линейного программирования (максимизация ожидания в форме алгоритма Витерби, симплекс-метод, упрощение классических методов под конкретную задачу) ищется такая схема соответствий, которая обладает максимальной оценкой.

Одним из методов построения конкорданса, использующих максимизацию оценки модели перевода, является Модель IBM №1, рассматриваемая ниже среди систем статического машинного перевода. Но прежде, чем перейти системам машинного перевода, следует обратить внимание на дополнение к описанному выше алгоритму, существенно повышающее точность создаваемого конкорданса.

Д. Меламед [Melamed, 1996] предлагает алгоритм очистки конкорданса, полученного «жадным» методом, от косвенных связей. Он исходит из предположения, что а) одному словоупотреблению в тексте L1 соответствует только одно словоупотребление в тексте L2, т.е. слово не может переводиться словосочетанием, и б) в одном фрагменте не используются синонимы. При всей условности этих предпосылок алгоритм обеспечивает следующие отношения точность/охват (см. 2.3.6 Оценка статистических моделей): 99,2% точности при 36% охвата, 99,0% точности при 46% охвата, 92,8% точности при 90% охвата.

Для начала работы алгоритма требуется исходный конкорданс (составленный «жадным» методом) с оценками надежности связей и параллельный корпус, выровненный на уроне предложений (или аналогичных фрагментов). Алгоритм циклически выполняет следующие шаги:

1.     Составляется исходный конкорданс с оценками надежности связей.

2.     Слова двух частей параллельного корпуса выравниваются на основе конкорданса; при этом каждое слово связывается только с одним словом, обладающим наибольшим весом.

3.     Слова, не объединенные в пары, исключаются из корпуса.

4.     Пересчитываются параметры модели перевода λправ и λложн.

5.     На основе новых параметров модели пересчитывается надежность всех связей в конкордансе.

6.     Если конкорданс изменился за последнюю итерацию, алгоритм повторяется с шага 2.

Надежность каждой связи E в конкордансе вычисляется на шаге 5 по следующей формуле:

,

где nE – количество раз, которое данная пара слов v и w встречается в связанных фрагментах,

 kE – количество раз, которое данная пара слов оказалась связанной

 B(k, n, p) – вероятность k связей при биномиальном распределении с параметрами n и p,

 λправ – вероятность, что два слова, являющиеся переводам друг друга и находящиеся в связанных фрагментах, будут связаны

 λложн – вероятность, что два слова, являющиеся переводам друг друга и находящиеся в связанных фрагментах, не будут связаны

Здесь nE и kE подсчитываются непосредственно по выравниванию, полученному на шаге 2, а λправ и λложн , представляющие собой параметры модели перевода, подбираются с помощью симплекс-метода путем максимизации вероятности модели с такими параметрами при данном выравнивании. С помощью теоремы Байеса задача сводится к максимизации вероятности данного выравнивания при такой модели:

, где

, где

τ – это вероятность, что два случайных слова v и w, встретившихся в связанных фрагментах, являются переводами друг друга и вычисляется по формуле

, где

K – общее число связей в корпусе (),

N – общее число пар конкорданса, встречающихся в связанных фрагментах ().

 

© Б.Н. Рахимбердиев, 2003.

Сайт управляется системой uCoz