2.3.4 Составление лексических конкордансов - Эволюция семантики экономической терминологии

Классическая формула статистической меры сходства между двумя словами параллельных тексов основывается на формуле взаимозависимости (MI – mutual information) и имеет вид:

где вероятности P(v,w), P(v) и P(w) определяются на основе таблицы сопряженности следующим образом:

	Фрагментов L1, включающих v	Фрагментов L1, не включающих v
Связанных фрагментов L2, включающих w	a	b
Связанных фрагментов L2, не включающих w	c	d

Очевидный недостаток такого алгоритма заключается в том, что степень связанности пар слов вычисляется независимо друг от друга. Это приводит к появлению в конкордансе не только пар, соединенных непосредственной связью, но и пар с косвенной связью. Представим себе, что в некотором корпусе политических текстов часто встречается словосочетание «Белый Дом» и его перевод «White House». Слово «White» обладает прямой связью со словом «Белый», но, кроме того, слово «Белый» обладает связью со словом «Дом». В результате алгоритм будет констатировать сильную (хотя и косвенную – но об этом алгоритм не знает) связь слова «White» со словом «Дом».

Более точные результаты достигаются путем построения модели перевода. При таком подходе за основу берется некоторая модель, позволяющая оценить правдоподобие конкретной гипотезы о схеме переводных соответствий в данных параллельных текстах. Затем методами линейного программирования (максимизация ожидания в форме алгоритма Витерби, симплекс-метод, упрощение классических методов под конкретную задачу) ищется такая схема соответствий, которая обладает максимальной оценкой.

Одним из методов построения конкорданса, использующих максимизацию оценки модели перевода, является Модель IBM №1, рассматриваемая ниже среди систем статического машинного перевода. Но прежде, чем перейти системам машинного перевода, следует обратить внимание на дополнение к описанному выше алгоритму, существенно повышающее точность создаваемого конкорданса.

Д. Меламед [Melamed, 1996] предлагает алгоритм очистки конкорданса, полученного «жадным» методом, от косвенных связей. Он исходит из предположения, что а) одному словоупотреблению в тексте L1 соответствует только одно словоупотребление в тексте L2, т.е. слово не может переводиться словосочетанием, и б) в одном фрагменте не используются синонимы. При всей условности этих предпосылок алгоритм обеспечивает следующие отношения точность/охват (см. 2.3.6 Оценка статистических моделей): 99,2% точности при 36% охвата, 99,0% точности при 46% охвата, 92,8% точности при 90% охвата.

Для начала работы алгоритма требуется исходный конкорданс (составленный «жадным» методом) с оценками надежности связей и параллельный корпус, выровненный на уроне предложений (или аналогичных фрагментов). Алгоритм циклически выполняет следующие шаги:

1. Составляется исходный конкорданс с оценками надежности связей.

2. Слова двух частей параллельного корпуса выравниваются на основе конкорданса; при этом каждое слово связывается только с одним словом, обладающим наибольшим весом.

3. Слова, не объединенные в пары, исключаются из корпуса.

4. Пересчитываются параметры модели перевода λ_прав и λ_ложн.

5. На основе новых параметров модели пересчитывается надежность всех связей в конкордансе.

6. Если конкорданс изменился за последнюю итерацию, алгоритм повторяется с шага 2.

Надежность каждой связи E в конкордансе вычисляется на шаге 5 по следующей формуле:

где n_E – количество раз, которое данная пара слов v и w встречается в связанных фрагментах,

k_E – количество раз, которое данная пара слов оказалась связанной

B(k, n, p) – вероятность k связей при биномиальном распределении с параметрами n и p,

λ_прав – вероятность, что два слова, являющиеся переводам друг друга и находящиеся в связанных фрагментах, будут связаны

λ_ложн – вероятность, что два слова, являющиеся переводам друг друга и находящиеся в связанных фрагментах, не будут связаны

Здесь n_E и k_E подсчитываются непосредственно по выравниванию, полученному на шаге 2, а λ_прав и λ_ложн , представляющие собой параметры модели перевода, подбираются с помощью симплекс-метода путем максимизации вероятности модели с такими параметрами при данном выравнивании. С помощью теоремы Байеса задача сводится к максимизации вероятности данного выравнивания при такой модели:

, где

τ – это вероятность, что два случайных слова v и w, встретившихся в связанных фрагментах, являются переводами друг друга и вычисляется по формуле

, где

K – общее число связей в корпусе (),

N – общее число пар конкорданса, встречающихся в связанных фрагментах ().