Эволюция семантики экономической терминологии |
|||||||||||||
Диссертация | Автореферат | Материалы и инструменты | Что это? | ||||||||||
|
2.3.4 Составление лексических конкордансовПосле того, как два параллельных корпуса выровнены на уровне предложений, мы можем попытаться извлечь из них информацию о переводных соответствиях двух языков. Характер информации, которую мы попытаемся извлечь, сильно зависит от того, какой метод перевода мы приняли за основу. Для целей лексикографии нам будет достаточно установить факт (и оценить надежность) лексических соответствий. В системах машинного перевода, как мы увидим далее, нам придется извлечь и некоторую псевдограмматическую информацию. Наиболее простым статистическим алгоритмом построения лексических конкордансов является следующий быстрый («жадный») метод [Melamed, 1996]:
Классическая формула статистической меры сходства между двумя словами параллельных тексов основывается на формуле взаимозависимости (MI – mutual information) и имеет вид: , где вероятности P(v,w), P(v) и P(w) определяются на основе таблицы сопряженности следующим образом:
Очевидный недостаток такого алгоритма заключается в том, что степень связанности пар слов вычисляется независимо друг от друга. Это приводит к появлению в конкордансе не только пар, соединенных непосредственной связью, но и пар с косвенной связью. Представим себе, что в некотором корпусе политических текстов часто встречается словосочетание «Белый Дом» и его перевод «White House». Слово «White» обладает прямой связью со словом «Белый», но, кроме того, слово «Белый» обладает связью со словом «Дом». В результате алгоритм будет констатировать сильную (хотя и косвенную – но об этом алгоритм не знает) связь слова «White» со словом «Дом». Более точные результаты достигаются путем построения модели перевода. При таком подходе за основу берется некоторая модель, позволяющая оценить правдоподобие конкретной гипотезы о схеме переводных соответствий в данных параллельных текстах. Затем методами линейного программирования (максимизация ожидания в форме алгоритма Витерби, симплекс-метод, упрощение классических методов под конкретную задачу) ищется такая схема соответствий, которая обладает максимальной оценкой. Одним из методов построения конкорданса, использующих максимизацию оценки модели перевода, является Модель IBM №1, рассматриваемая ниже среди систем статического машинного перевода. Но прежде, чем перейти системам машинного перевода, следует обратить внимание на дополнение к описанному выше алгоритму, существенно повышающее точность создаваемого конкорданса. Д. Меламед [Melamed, 1996] предлагает алгоритм очистки конкорданса, полученного «жадным» методом, от косвенных связей. Он исходит из предположения, что а) одному словоупотреблению в тексте L1 соответствует только одно словоупотребление в тексте L2, т.е. слово не может переводиться словосочетанием, и б) в одном фрагменте не используются синонимы. При всей условности этих предпосылок алгоритм обеспечивает следующие отношения точность/охват (см. 2.3.6 Оценка статистических моделей): 99,2% точности при 36% охвата, 99,0% точности при 46% охвата, 92,8% точности при 90% охвата. Для начала работы алгоритма требуется исходный конкорданс (составленный «жадным» методом) с оценками надежности связей и параллельный корпус, выровненный на уроне предложений (или аналогичных фрагментов). Алгоритм циклически выполняет следующие шаги: 1. Составляется исходный конкорданс с оценками надежности связей. 2. Слова двух частей параллельного корпуса выравниваются на основе конкорданса; при этом каждое слово связывается только с одним словом, обладающим наибольшим весом. 3. Слова, не объединенные в пары, исключаются из корпуса. 4. Пересчитываются параметры модели перевода λправ и λложн. 5. На основе новых параметров модели пересчитывается надежность всех связей в конкордансе. 6. Если конкорданс изменился за последнюю итерацию, алгоритм повторяется с шага 2. Надежность каждой связи E в конкордансе вычисляется на шаге 5 по следующей формуле: , где nE – количество раз, которое данная пара слов v и w встречается в связанных фрагментах, kE – количество раз, которое данная пара слов оказалась связанной B(k, n, p) – вероятность k связей при биномиальном распределении с параметрами n и p, λправ – вероятность, что два слова, являющиеся переводам друг друга и находящиеся в связанных фрагментах, будут связаны λложн – вероятность, что два слова, являющиеся переводам друг друга и находящиеся в связанных фрагментах, не будут связаны Здесь nE и kE подсчитываются непосредственно по выравниванию, полученному на шаге 2, а λправ и λложн , представляющие собой параметры модели перевода, подбираются с помощью симплекс-метода путем максимизации вероятности модели с такими параметрами при данном выравнивании. С помощью теоремы Байеса задача сводится к максимизации вероятности данного выравнивания при такой модели: , где , где τ – это вероятность, что два случайных слова v и w, встретившихся в связанных фрагментах, являются переводами друг друга и вычисляется по формуле , где K – общее число связей в корпусе (), N – общее число пар конкорданса, встречающихся в связанных фрагментах ().
|
||||||||||||
© Б.Н. Рахимбердиев, 2003. |