Эволюция семантики экономической терминологии - автореферат

Эволюция отношений номинации, рассматриваемая с точки зрения семантики, распадается на два явления. Изменение означаемого одного означающего представляет собой явление, известное как лексико-семантическое варьирование. Изменению означающего одного концепта до сих пор уделялось меньше внимания, чем первому явлению. Часть работы посвящена именно исследованию диахронического варьирования плана выражения.

Лексико-семантическое варьирование представляет собой тот процесс, синхронным срезом которого является полисемия. Этот факт дает возможность рассматривать методы и инструменты исследования лексической полисемии как потенциальный источник средств исследования исторических лексико-сематических изменений. Современные представления терминоведения, допускающие не только диахроническую вариативность семантики термина, но и его полисемию, не накладывают дополнительных ограничений на выбор инструментов в связи с терминологическим характером изучаемого материала [Татаринов, 1996].

Методы исследования лексической полисемии условно делятся на контекстологичекие, структурные, психолингвистические и корпусные подходы. Применимость психолингвистических методов в исторических исследованиях весьма ограничена. Понятие корпусных методов фактически определяет подход к объему и характеру первичного материала, и с точки зрения методологии исследования может подразумевать как контекстологические, так и психолингвистические работы. Заметим также, что в настоящее время корпусные методы исследования означают применение в большей или меньшей мере вычислительных технологий.

В силу ограничений, накладываемых диахроническим аспектом исследований, в качестве основных материалов для диахронической лексикографии выступают словари и различные первичные письменные тексты. Возможность произвольного сочетания корпусно-контекстологических и структурных методов со словарями или первичными текстами в качестве материала доказана работами многих авторов. Однако соображения производительности и эффективности диктуют нежелательность попыток вскрытия внутренней семантической структуры слова по данным корпуса текстов. Опыты автоматического извлечения данных из словарей пока что не дали возможности использования сложных семантических данных, содержащихся в них.

В настоящей работе анализ словарных определений в генетически связанных словарях разных лет применяется для обнаружения изменений в содержании одной единицы плана выражения, а корпусная методика обеспечивает обнаружения диахронических расхождений в плане выражения одной единицы плана содержания (поиск диахронических синонимов).

Сравнение словарей различных эпох может дать материал для выяснения закономерностей развития состава лексики языка как в количественном, так и в качественном отношении.

Современная лексикография располагает большим числом подробных классификаций типов и функций словарей. В целях определения круга словарей, которые могут быть привлечены в качестве материала для диахронических исследований лексической семантики, рассматриваются следующих типов: энциклопедические и толковые словари, идеологические словари, тезаурусы, нормативные и терминологические словари, учебные словари, переводные словари.

Хотя разделение энциклопедической и толковой функции в словаре редко проводится последовательно, энциклопедические словари, ориентированные на отражение научной, а не наивной картины мира, содержат меньше собственно языковой информации.

Нормативный характер тезаурусов и идеографических словарей ограничивает их применимость для диахронической лексикографии. Русскоязычные тезаурусы могут быть использованы для диахронического анализа глубиной не более 40 – 30 лет.

Применимость переводных словарей для изучения эволюции лексической семантики одного языка была продемонстрирована М.В.Марчук [Марчук, 1996]. Этот подход позволяет исследовать сдвиги на определенном фрагменте лексической системы, претерпевшем существенные изменения в одном языке, но оставшемся относительно стабильным в другом языке. Основой сравнения являются переводные эквиваленты, занимающие промежуточное положение между лексико-семантическим вариантом («значением») слова и компонентом значения (семой). Учитывается как появление и исчезновение переводных эквивалентов за исследуемый период, так и изменение места каждого в словарной статье. Описанный метод и основанная на нем теория диахронического вектора слова обладают высокой степенью формализации.

По сравнению с этой методикой, использование толковых словарей вносит определенную специфику и открывает новые возможности. При использовании в качестве элементарной единицы сравнения словарного значения, из-за существенно меньшего числа значений в толковом словаре, чем переводных соответствий в словаре двуязычном, а также из-за сложности их сопоставления, снижается надежность анализа. Использование же в качестве основы сравнения слов и синтаксических структур, составляющих толкование, открывает возможность извлечения семантической информации, недоступной в словарях переводных, хотя и повышает трудоемкость исследования.

Словарные статьи могут нести в себе информацию о всех трех уровнях семантики слова: сигнификативном, денотативном и коннотативном. Традиционное для толковых словарей определение через ближайший род и видовое отличие позволяет извлечь формулировку, соответствующую сигнификату, из большинства статей. В работе И.В. Рябовой [Рябова, 1996] в этих целях используются слова-понятия в субъектно-предикатной структуре определения.

В той же работе в качестве поверхностной реализации предметного содержания словарного определения рассматриваются слова-обозначения реальных объектов, явлений, признаков, действий, лиц и т.д. Однако референт совпадает с денотатом только при актуализации значения слова в речи. Кроме редких случаев, извлечение денотативного значения слова из словарного определения невозможно без привлечения концептуальной картины мира исследователя, так как именно она отделяет набор реально существующих объектов, включаемых в сигнификат, от потенциального объема денотата.

Исходя из определения коннотации, данного Ю.Д. Апресяном [Апресян, 1974], к признакам коннотационных компонентов определения, предлагаемых И.В. Рябовой (наречия, прилагательные, существительные оценочной семантики, слова-усилители типа «очень», «самый» и т.д.) добавляется следующее правило, специфичное для диахронического исследования: при относительной сохранности сигнификативного значения энциклопедическая информация, связанная со словом в более ранний период, допускается его толкованием и в более поздний; если какая-то дополнительная (не сигнификативная или денотативная) информация словарного определения стала неприменимой к более позднему толкованию, констатируется наличие коннотацией.

Исходя из представления о структуре определения в толковом словаре как о графе или дереве зависимостей, а не линейной иерархической структуре, предлагается использовать при сопоставлении словарных определений разных лет функциональный подход, и выделяются следующие типы возможных изменений семантики слова:

Расширение сигнификата – в случае, когда определение конечного периода сместилось вверх по гипо-гиперонимическому ряду, либо если оно позволяет включить некоторые объекты в дополнение к исходному периоду. В любом случае понятие конечного периода полностью включает в себя понятие исходного периода.

Сужение сигнификата – аналогично, но при полном включении понятия конечного периода в понятие исходного периода.

Модификация сигнификата – любые другие изменения.

Аналогично определяются расширение, сужение и модификация денотата. С точки зрения коннотата предполагаются пейорация, элевация и иная модификация коннотата.

Изменение значений слов при неизменности означающих поддается регистрации легче остальных видов номинативных сдвигов. Однако установление различных по форме слов, которые могут быть признаны синонимами на определенном уровне своего значения, представляет особый интерес для исторического исследования.

В отсутствие готовых исторических словарей поиск «диахронических синонимов» неизбежно опирается на тексты соответствующих периодов. Так, в этих целях могут использоваться различные списки одного текста или переводы древнего текста на современный язык. Применение к таким текстам методов статистики и линейного программирования позволяет найти новые решения некоторых классических задач прикладной лингвистики, радикально сокращающих трудоемкость работ.

Первые работы с параллельными текстами были выполнены в конце 80-х – начале 90-х годов в рамках разработки различных систем статистического машинного перевода. [Harris, 1988], [Brown et al, 1990]. Первые методики машинного перевода на основе примеров послужили толчком для дальнейших исследований в области извлечения лингвистической информации из параллельных текстов.

Именно в области автоматического составления словарей исследования по статистической обработке параллельных текстов достигли наиболее наглядных успехов. Так, некоторые системы достигают точности установления переводных соответствий на уровне слов выше 95% [Langlais et al, 1998].

Для обработки параллельных текстов исследователю необходимо решить несколько задач, а именно: подбор материала, т.е. собственно корпуса параллельных текстов, установление соответствия каждого предложения одного текста предложению, нескольким предложениям или части предложений другого текста (выравнивание предложений), поиск лексических соответствий, возможно, собственно статистический машинный перевод, и наконец, оценка результатов.

Применительно к экономической лексике, возможно использование ряда экономических текстов, написанных на иностранном языке и переведенных на русский язык в разное время. Существует не менее шести независимых переводов «Исследований о природе и причинах богатства народов» А. Смита, не менее четырех переводов собрания сочинений Д. Рикардо. Рассматривая переводы разных лет как параллельные тексты на разных языках, с помощью статистических методов можно составить словарь соответствий между переводами, относящимися к разным периодам.

Подавляющее большинство существующих параллельных текстов не дают возможности непосредственного извлечения информации о переводных соответствиях. Во-первых, очевидно, что между текстом оригинала и переводом не существует однозначного и линейного соответствия на уровне слов. Во-вторых, переводчик не всегда выбирает наиболее буквальный вариант перевода. Наконец, неизбежным фактом являются неточности перевода. Таким образом, любая работа по статистическому анализу параллельных текстов опирается на выравнивание параллельных текстов.

Наиболее популярный алгоритм выравнивания известен как алгоритм Гейла. Авторы алгоритма исходят из того, что длина предложений текста на языке перевода находится в прямой зависимости от длины предложения на языке оригинала [Gale, Church, 1991], а поиск оптимального варианта выравнивания выполняется путем динамического программирования, которое обеспечивает нахождение минимального суммарного расстояния между элементами двух последовательностей.

Альтернативный подход описан в работе [Chen, 1993]: в процессе выравнивания предложений алгоритм строит простую статистическую модель дословного перевода и выбирает такую схему выравнивания предложений, которая максимизирует вероятность генерации корпуса с этой моделью перевода, а функция расстояния вычисляется на основе произведения вероятностей лексических соответствий в рассматриваемой паре предложений. Таблица-словарь, а также остальные параметры модели перевода, вычисляются постепенно с помощью особой модификации алгоритма Витерби, при которой параметры модели пересчитываются не на всем корпусе, а в течение одного прохода по мере продвижения.

Параллельные тексты на одном языке дают возможность использовать промежуточный подход к выравниванию предложений. При расстоянии в несколько десятков лет между переводами одного текста сохраняется значительное число слов, не изменивших свое написание и значение, или изменившихся несущественно. Вследствие этого набор совпадающих или близких слов в предложениях двух текстов может служить показателем близости этих предложений, причем его уровень надежности существенно превышает надежность такого параметра как близость длины предложений.

Таким образом, можно построить алгоритм выравнивания, аналогичный алгоритму Гейла, т.е. использующий динамическое программирование без ограничения массива поиска, в котором в качестве функции расстояния используется информация о лексических соответствиях, но который является не рекурсивным (как алгоритм Витерби), а детерминистским.

При отсутствии дополнительных лингвистических ресурсов наиболее доступным способом лемматизации является извлечение слов из рассматриваемых текстов в тех формах, в которых они использованы, с последующей оценкой вероятности того, что две словоформы являются одним словом на основании отношения совпадающих последовательностей знаков и различающихся. Такой подход оправдан, в частности, при сопоставлении текста в современной и устаревшей орфографии.

Два параллельных корпуса, выровненные на уровне предложений, позволяют извлечь информацию о переводных соответствиях двух языков, что выполняется путем построения лексических конкордансов. Наиболее простым статистическим алгоритмом построения лексических конкордансов является метод, предложенный И. Меламедом [Melamed, 1996]. Однако недостаток этого метода состоит в том, что степень связанности пар слов вычисляется независимо друг от друга. Это приводит к появлению в конкордансе не только пар, соединенных непосредственной связью, но и пар с косвенной связью.

Более точные результаты достигаются путем построения модели перевода, когда за основу берется модель, позволяющая оценить правдоподобие конкретной гипотезы о схеме переводных соответствий в данных параллельных текстах, а затем методами линейного программирования ищется такая схема соответствий, которая обладает максимальной оценкой.

При статистическом подходе проблема перевода рассматривается в терминах канала с помехами. Согласно принципу канала с помехами предложение на одном языке представляет собой предложение на другом языке, искаженное неким шумом. Перевод осуществляется путем поиска такого предложения, которое максимизирует произведения безусловной вероятности предложения перевода и вероятности предложения оригинала при условии данного предложения перевода. Для статистического машинного перевода требуется модель источника и модель канала, или модель языка и модель перевода.

В качестве модели языка в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что грамматичность выбора очередного слова при формировании текста определяется только тем, какие (n – 1) слов идут перед ним. Вероятность каждого n-грамма определяется по его встречаемости в тренировочном корпусе.

Самой простой статистической моделью перевода является модель дословного перевода. В этой модели, известной как Модель IBM №1, предполагается, что для перевода предложения с одного языка на другой достаточно перевести все слова (создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель языка. Обучение Модели №1 производится на корпусе параллельных текстов, выровненном на уровне предложений. Описание математической части Модели №1 подробно изложено в работе [Knight, 1999].

Слабость Модели №1 демонстрируется на простом примере: представим, что модель перевода предоставила следующий «мешок» слов: утром, вечером, деньги, стулья. С точки зрения модели языка предложения «Утром деньги, вечером стулья» и «Утром стулья, вечером деньги» будут, по-видимому, иметь примерно равную вероятность, однако один из вариантов явно искажает смысл.

Более поздние модели статистического перевода (№2 – №5) решают ряд задач по передаче синтаксической конструкции переводимого предложения. В модели №4 появляется понятие класса слов. Более совершенные модели обеспечивают более высокую точность составления лексического конкорданса, однако это улучшение не столь значительно, чтобы оправдать использование существенно более ресурсоемких методов для решения задачи извлечения лексических соответствий.

Наиболее распространенными критериями оценки результатов статистической обработки текста являются точность (precision) и охват (recall). Измерение этих величин предполагает сравнение результата работы оцениваемой системы с эталоном. Для этого выбирается единица подсчета (например, предложение), и все единицы оцениваемого результата сравниваются с эталоном. Точность определяется как отношение числа правильных единиц результата к общему числу единиц в оцениваемом результате. Охват определяется как отношение числа правильных единиц результата к общему числу единиц эталона.

Эволюция семантики экономической терминологии
Диссертация	Автореферат	Материалы и инструменты	Что это?
Титульный лист реферата Общая характеристика Реферат глав 1 и 2 Реферат главы 3 Заключение	<< Реферат первой и второй глав >> В современной лингвистике значение слова рассматривается как сложная многоуровневая структура. В целях данного исследования используется четырехчастная система вертикальной связи словесного знака с внеязыковой действительностью: означающее (материальная, то есть письменная или звуковая сторона знака); сигнификат, соответствующий мыслительному уровню понятий и понимаемый как набор признаков класса объектов; денотат, понимаемый как класс объектов внеязыковой действительности, ограничиваемый сигнификатом (для слов абстрактной семантики может быть неотличим от сигнификата); референт (единичный предмет или ситуация, на которую указывает означающее слова в конкретном акте речи). В качестве горизонтальной модели лексической семантики принимается представление о возможности членения отдельного значения слова на семы, состоящие друг с другом в иерархических отношениях. Такое представление о структуре семантического значения позволяет говорить о родо-видовой, гипо-гиперонимической, тематической и иной соотнесенности слова, определяемой набором его дифференцирующих семантических признаков. Эволюция отношений номинации, рассматриваемая с точки зрения семантики, распадается на два явления. Изменение означаемого одного означающего представляет собой явление, известное как лексико-семантическое варьирование. Изменению означающего одного концепта до сих пор уделялось меньше внимания, чем первому явлению. Часть работы посвящена именно исследованию диахронического варьирования плана выражения. Лексико-семантическое варьирование представляет собой тот процесс, синхронным срезом которого является полисемия. Этот факт дает возможность рассматривать методы и инструменты исследования лексической полисемии как потенциальный источник средств исследования исторических лексико-сематических изменений. Современные представления терминоведения, допускающие не только диахроническую вариативность семантики термина, но и его полисемию, не накладывают дополнительных ограничений на выбор инструментов в связи с терминологическим характером изучаемого материала [Татаринов, 1996]. Методы исследования лексической полисемии условно делятся на контекстологичекие, структурные, психолингвистические и корпусные подходы. Применимость психолингвистических методов в исторических исследованиях весьма ограничена. Понятие корпусных методов фактически определяет подход к объему и характеру первичного материала, и с точки зрения методологии исследования может подразумевать как контекстологические, так и психолингвистические работы. Заметим также, что в настоящее время корпусные методы исследования означают применение в большей или меньшей мере вычислительных технологий. В силу ограничений, накладываемых диахроническим аспектом исследований, в качестве основных материалов для диахронической лексикографии выступают словари и различные первичные письменные тексты. Возможность произвольного сочетания корпусно-контекстологических и структурных методов со словарями или первичными текстами в качестве материала доказана работами многих авторов. Однако соображения производительности и эффективности диктуют нежелательность попыток вскрытия внутренней семантической структуры слова по данным корпуса текстов. Опыты автоматического извлечения данных из словарей пока что не дали возможности использования сложных семантических данных, содержащихся в них. В настоящей работе анализ словарных определений в генетически связанных словарях разных лет применяется для обнаружения изменений в содержании одной единицы плана выражения, а корпусная методика обеспечивает обнаружения диахронических расхождений в плане выражения одной единицы плана содержания (поиск диахронических синонимов). Сравнение словарей различных эпох может дать материал для выяснения закономерностей развития состава лексики языка как в количественном, так и в качественном отношении. Современная лексикография располагает большим числом подробных классификаций типов и функций словарей. В целях определения круга словарей, которые могут быть привлечены в качестве материала для диахронических исследований лексической семантики, рассматриваются следующих типов: энциклопедические и толковые словари, идеологические словари, тезаурусы, нормативные и терминологические словари, учебные словари, переводные словари. Хотя разделение энциклопедической и толковой функции в словаре редко проводится последовательно, энциклопедические словари, ориентированные на отражение научной, а не наивной картины мира, содержат меньше собственно языковой информации. Нормативный характер тезаурусов и идеографических словарей ограничивает их применимость для диахронической лексикографии. Русскоязычные тезаурусы могут быть использованы для диахронического анализа глубиной не более 40 – 30 лет. Применимость переводных словарей для изучения эволюции лексической семантики одного языка была продемонстрирована М.В.Марчук [Марчук, 1996]. Этот подход позволяет исследовать сдвиги на определенном фрагменте лексической системы, претерпевшем существенные изменения в одном языке, но оставшемся относительно стабильным в другом языке. Основой сравнения являются переводные эквиваленты, занимающие промежуточное положение между лексико-семантическим вариантом («значением») слова и компонентом значения (семой). Учитывается как появление и исчезновение переводных эквивалентов за исследуемый период, так и изменение места каждого в словарной статье. Описанный метод и основанная на нем теория диахронического вектора слова обладают высокой степенью формализации. По сравнению с этой методикой, использование толковых словарей вносит определенную специфику и открывает новые возможности. При использовании в качестве элементарной единицы сравнения словарного значения, из-за существенно меньшего числа значений в толковом словаре, чем переводных соответствий в словаре двуязычном, а также из-за сложности их сопоставления, снижается надежность анализа. Использование же в качестве основы сравнения слов и синтаксических структур, составляющих толкование, открывает возможность извлечения семантической информации, недоступной в словарях переводных, хотя и повышает трудоемкость исследования. Словарные статьи могут нести в себе информацию о всех трех уровнях семантики слова: сигнификативном, денотативном и коннотативном. Традиционное для толковых словарей определение через ближайший род и видовое отличие позволяет извлечь формулировку, соответствующую сигнификату, из большинства статей. В работе И.В. Рябовой [Рябова, 1996] в этих целях используются слова-понятия в субъектно-предикатной структуре определения. В той же работе в качестве поверхностной реализации предметного содержания словарного определения рассматриваются слова-обозначения реальных объектов, явлений, признаков, действий, лиц и т.д. Однако референт совпадает с денотатом только при актуализации значения слова в речи. Кроме редких случаев, извлечение денотативного значения слова из словарного определения невозможно без привлечения концептуальной картины мира исследователя, так как именно она отделяет набор реально существующих объектов, включаемых в сигнификат, от потенциального объема денотата. Исходя из определения коннотации, данного Ю.Д. Апресяном [Апресян, 1974], к признакам коннотационных компонентов определения, предлагаемых И.В. Рябовой (наречия, прилагательные, существительные оценочной семантики, слова-усилители типа «очень», «самый» и т.д.) добавляется следующее правило, специфичное для диахронического исследования: при относительной сохранности сигнификативного значения энциклопедическая информация, связанная со словом в более ранний период, допускается его толкованием и в более поздний; если какая-то дополнительная (не сигнификативная или денотативная) информация словарного определения стала неприменимой к более позднему толкованию, констатируется наличие коннотацией. Исходя из представления о структуре определения в толковом словаре как о графе или дереве зависимостей, а не линейной иерархической структуре, предлагается использовать при сопоставлении словарных определений разных лет функциональный подход, и выделяются следующие типы возможных изменений семантики слова: Расширение сигнификата – в случае, когда определение конечного периода сместилось вверх по гипо-гиперонимическому ряду, либо если оно позволяет включить некоторые объекты в дополнение к исходному периоду. В любом случае понятие конечного периода полностью включает в себя понятие исходного периода. Сужение сигнификата – аналогично, но при полном включении понятия конечного периода в понятие исходного периода. Модификация сигнификата – любые другие изменения. Аналогично определяются расширение, сужение и модификация денотата. С точки зрения коннотата предполагаются пейорация, элевация и иная модификация коннотата. Изменение значений слов при неизменности означающих поддается регистрации легче остальных видов номинативных сдвигов. Однако установление различных по форме слов, которые могут быть признаны синонимами на определенном уровне своего значения, представляет особый интерес для исторического исследования. В отсутствие готовых исторических словарей поиск «диахронических синонимов» неизбежно опирается на тексты соответствующих периодов. Так, в этих целях могут использоваться различные списки одного текста или переводы древнего текста на современный язык. Применение к таким текстам методов статистики и линейного программирования позволяет найти новые решения некоторых классических задач прикладной лингвистики, радикально сокращающих трудоемкость работ. Первые работы с параллельными текстами были выполнены в конце 80-х – начале 90-х годов в рамках разработки различных систем *статистического машинного перевода. [Harris, 1988], [Brown et al, 1990]. Первые методики машинного перевода на основе примеров послужили толчком для дальнейших исследований в области извлечения лингвистической информации из параллельных текстов. Именно в области автоматического составления словарей исследования по статистической обработке параллельных текстов достигли наиболее наглядных успехов. Так, некоторые системы достигают точности установления переводных соответствий на уровне слов выше 95% [Langlais et al, 1998]. Для обработки параллельных текстов исследователю необходимо решить несколько задач, а именно: подбор материала, т.е. собственно корпуса параллельных текстов, установление соответствия каждого предложения одного текста предложению, нескольким предложениям или части предложений другого текста (выравнивание предложений), поиск лексических соответствий, возможно, собственно статистический машинный перевод, и наконец, оценка результатов. Применительно к экономической лексике, возможно использование ряда экономических текстов, написанных на иностранном языке и переведенных на русский язык в разное время. Существует не менее шести независимых переводов «Исследований о природе и причинах богатства народов» А. Смита, не менее четырех переводов собрания сочинений Д. Рикардо. Рассматривая переводы разных лет как параллельные тексты на разных языках, с помощью статистических методов можно составить словарь соответствий между переводами, относящимися к разным периодам. Подавляющее большинство существующих параллельных текстов не дают возможности непосредственного извлечения информации о переводных соответствиях. Во-первых, очевидно, что между текстом оригинала и переводом не существует однозначного и линейного соответствия на уровне слов. Во-вторых, переводчик не всегда выбирает наиболее буквальный вариант перевода. Наконец, неизбежным фактом являются неточности перевода. Таким образом, любая работа по статистическому анализу параллельных текстов опирается на выравнивание параллельных текстов. Наиболее популярный алгоритм выравнивания известен как алгоритм Гейла. Авторы алгоритма исходят из того, что длина предложений текста на языке перевода находится в прямой зависимости от длины предложения на языке оригинала [Gale, Church, 1991], а поиск оптимального варианта выравнивания выполняется путем динамического программирования, которое обеспечивает нахождение минимального суммарного расстояния между элементами двух последовательностей. Альтернативный подход описан в работе [Chen, 1993]: в процессе выравнивания предложений алгоритм строит простую статистическую модель дословного перевода и выбирает такую схему выравнивания предложений, которая максимизирует вероятность генерации корпуса с этой моделью перевода, а функция расстояния вычисляется на основе произведения вероятностей лексических соответствий в рассматриваемой паре предложений. Таблица-словарь, а также остальные параметры модели перевода, вычисляются постепенно с помощью особой модификации алгоритма Витерби, при которой параметры модели пересчитываются не на всем корпусе, а в течение одного прохода по мере продвижения. Параллельные тексты на одном языке дают возможность использовать промежуточный подход к выравниванию предложений. При расстоянии в несколько десятков лет между переводами одного текста сохраняется значительное число слов, не изменивших свое написание и значение, или изменившихся несущественно. Вследствие этого набор совпадающих или близких слов в предложениях двух текстов может служить показателем близости этих предложений, причем его уровень надежности существенно превышает надежность такого параметра как близость длины предложений. Таким образом, можно построить алгоритм выравнивания, аналогичный алгоритму Гейла, т.е. использующий динамическое программирование без ограничения массива поиска, в котором в качестве функции расстояния используется информация о лексических соответствиях, но который является не рекурсивным (как алгоритм Витерби), а детерминистским. При отсутствии дополнительных лингвистических ресурсов наиболее доступным способом лемматизации является извлечение слов из рассматриваемых текстов в тех формах, в которых они использованы, с последующей оценкой вероятности того, что две словоформы являются одним словом на основании отношения совпадающих последовательностей знаков и различающихся. Такой подход оправдан, в частности, при сопоставлении текста в современной и устаревшей орфографии. Два параллельных корпуса, выровненные на уровне предложений, позволяют извлечь информацию о переводных соответствиях двух языков, что выполняется путем построения лексических конкордансов. Наиболее простым статистическим алгоритмом построения лексических конкордансов является метод, предложенный И. Меламедом [Melamed, 1996]. Однако недостаток этого метода состоит в том, что степень связанности пар слов вычисляется независимо друг от друга. Это приводит к появлению в конкордансе не только пар, соединенных непосредственной связью, но и пар с косвенной связью. Более точные результаты достигаются путем построения модели перевода, когда за основу берется модель, позволяющая оценить правдоподобие конкретной гипотезы о схеме переводных соответствий в данных параллельных текстах, а затем методами линейного программирования ищется такая схема соответствий, которая обладает максимальной оценкой. При статистическом подходе проблема перевода рассматривается в терминах канала с помехами. Согласно принципу канала с помехами предложение на одном языке представляет собой предложение на другом языке, искаженное неким шумом. Перевод осуществляется путем поиска такого предложения, которое максимизирует произведения безусловной вероятности предложения перевода и вероятности предложения оригинала при условии данного предложения перевода. Для статистического машинного перевода требуется модель источника* и модель канала, или *модель языка* и *модель перевода. В качестве модели языка* в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что грамматичность выбора очередного слова при формировании текста определяется только тем, какие (n – 1) слов идут перед ним. Вероятность каждого n-грамма определяется по его встречаемости в тренировочном корпусе. Самой простой статистической *моделью перевода* является модель дословного перевода. В этой модели, известной как Модель IBM №1, предполагается, что для перевода предложения с одного языка на другой достаточно перевести все слова (создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель языка. Обучение Модели №1 производится на корпусе параллельных текстов, выровненном на уровне предложений. Описание математической части Модели №1 подробно изложено в работе [Knight, 1999]. Слабость Модели №1 демонстрируется на простом примере: представим, что модель перевода предоставила следующий «мешок» слов: утром, вечером, деньги, стулья. С точки зрения модели языка предложения «Утром деньги, вечером стулья» и «Утром стулья, вечером деньги» будут, по-видимому, иметь примерно равную вероятность, однако один из вариантов явно искажает смысл. Более поздние модели статистического перевода (№2 – №5) решают ряд задач по передаче синтаксической конструкции переводимого предложения. В модели №4 появляется понятие класса слов. Более совершенные модели обеспечивают более высокую точность составления лексического конкорданса, однако это улучшение не столь значительно, чтобы оправдать использование существенно более ресурсоемких методов для решения задачи извлечения лексических соответствий. Наиболее распространенными критериями оценки результатов статистической обработки текста являются *точность* (precision) и *охват* (recall). Измерение этих величин предполагает сравнение результата работы оцениваемой системы с эталоном. Для этого выбирается единица подсчета (например, предложение), и все единицы оцениваемого результата сравниваются с эталоном. Точность определяется как отношение числа правильных единиц результата к общему числу единиц в оцениваемом результате. Охват определяется как отношение числа правильных единиц результата к общему числу единиц эталона.
© Б.Н. Рахимбердиев, 2003.

<< Реферат первой и второй глав >>