Эволюция семантики экономической терминологии

2.3 Корпус текстов как источник для диахронической лексикографии

2.3.1 Методы работы с параллельными текстами

Любой словарь, даже синхронной ориентации, отражает не точку во времени, а некоторый период, в течение которого словарь составляется, редактируется, и т.д. Синхронный срез лексики, представленной словарем, может быть получен путем наложения на данные словаря некоторого массива текстов, которые могут быть датированы намного точнее.

Изменение словаря в качественном отношении в течение исторического времени можно отмечать в терминах физической формы слов как составляющих словаря, в терминах их значений и в терминах означаемых и означающих. Вопрос о том, что меняется быстрее – форма или значение слова – не имеет однозначного ответа, однако существует мнение, что означающее, т.е. форма, меняется быстрее. «…утрата физического тождества не означает, что слова, имеющие близкий статус в различных словарях, не сохраняют каких-либо общих характеристик. Лингвистически наиболее существенная из таких характеристик – значение. Предположение состоит в том, что процесс изменения означающих … происходит на фоне сохранения означаемых. Если даже и означаемые изменяются, то этот – пока еще совершенно не исследованный процесс – осуществляется в гораздо более медленном темпе, чем изменение означающих. Доводом в пользу высказанной гипотезы могло бы служить то, что даже в различных языках слова с близким смыслом имеют близкий статус» [Арапов, 1988].

Изменение значений слов при неизменности означающих поддается регистрации легче остальных видов номинативных сдвигов. Однако установление различных по форме слов, которые могут быть признаны синонимами на определенном уровне своего значения, представляет особый интерес для исторического исследования.

В отсутствие готовых исторических словарей поиск таких «диахронических синонимов» неизбежно опирается на тексты соответствующих периодов. Так, в этих целях могут использоваться различные списки одного текста или переводы древнего текста на современный язык. Однако проведение такого анализа возможно для периодов, отделенных друг от друга на сотни (в случае списков) или даже тысячи лет (в случае переводов), и эффективно, когда объем изучаемого материала находится на уровне десятков страниц. Для обработки материала, доступного для относительно неотдаленных исторических периодов, представляется целесообразным применение методов корпусной лингвистики.

Развитие корпусной лингвистики и рост внимания к статистическим методам обработки языкового материала за последнее десятилетие привели к разработке целого ряда методик, связанных с использованием параллельных или близких текстов на разных языках. Применяя к таким текстам методы статистики и линейного программирования, исследователи в этой области предлагают новые решения некоторых классических задач прикладной лингвистики, радикально сокращающих трудоемкость работ.

Выполняя перевод с одного языка на другой, переводчик принимает решения, заключающие в себе его знания обо всех уровнях межъязыковых соответствий – лексическом, грамматическом, идиоматическом и т.д. Однако в обязанности переводчика обычно не входит составление документации или учебных пособий по выполненной работе. Создание словарей, учебников, формализация принципов перевода до уровня автоматических систем выполняется отдельно от собственно перевода, и обычно не охватывает всего спектра задач, решаемых переводчиком в повседневной деятельности. Если бы мы смогли проанализировать, формализовать и документировать мысль переводчика, воплощенную в паре оригинал-перевод, мы могли бы достичь иного уровня эффективности использования переводческого труда.

Системы статистической обработки параллельных текстов делают шаг в этом направлении. До недавнего времени возможность подобных исследований ограничивалась недоступностью достаточного количества материала в машинном формате, невысоким быстродействием компьютеров, дороговизной систем хранения. Всеобщая компьютеризация, действие закона Мура и снижение стоимости хранения единицы информации делают такой подход реалистичным. Крайне простые системы, практически не использующие знания о структурной организации языка, но способные обработать крупные корпуса параллельных текстов, оказались в состоянии конкурировать с программами, использующими сложный грамматический и семантический анализ по созданным вручную правилам.

Первые работы с параллельными текстами были выполнены в конце 80-х – начале 90-х годов в рамках разработки различных систем статистического машинного перевода. [Harris, 1988], [Brown et al, 1990]. Группа специалистов фирмы IBM (Ф. Дженилек, П. Браун и др.) создали первую систему машинного перевода, извлекающую знания о языке оригинала, языке перевода и правилах перевода исключительно из массива примеров переводов. Несмотря на то, что запатентованная фирмой IBM система Кандид обеспечивала качество перевода «не хуже коммерческих продуктов», эти работы вызвали критику со стороны традиционной лингвистики, так как в них отвергались подходы к машинному переводу, считавшиеся общепринятыми в течение десятков лет. В частности, в качестве модели языка использовались биграммы и триграммы (последовательности из двух или трех слов), на непригодность которых для целей моделирования языка Н. Хомский указывал в 50-е годы; система не пыталась использовать какие-либо знания о структуре предложения.

Несмотря на свои недостатки, статистический подход к машинному переводу привлек к себе внимание колоссальным сокращением трудоемкости построения таких систем по сравнению с системами традиционными. Неоспоримым достоинством такого подхода является отказ от ручного составления переводных словарей и грамматик: если в логике системы обнаруживается ошибка, ее устранение в худшем случае означает необходимость повторного запуска процедуры извлечения параметров из корпуса примеров, а не ручное переписывание этих ресурсов. Помимо этого, первые системы перевода на основе примеров задумывались как несвязанные с конкретной парой языков – чтобы добавить новую пару языков в систему предполагалось всего лишь обработать соответствующий корпус текстов.

Первые методики машинного перевода на основе примеров послужили толчком для дальнейших исследований в области извлечения лингвистической информации из параллельных текстов. С одной стороны, развивались сами системы статистического машинного перевода – за счет разработки более сложных статистических моделей, отказа от идеи абсолютной независимости алгоритмов от обрабатываемых языков, привлечения морфологического разбора и т.д. Так, хотя в описанных системах статистического перевода не используются развитые формальные грамматики, понятие класса слов уже стало частью таких алгоритмов [Brown, 1999].

С другой стороны, произошла некоторая переоценка роли обработки параллельных текстов. Алгоритмы обучения на параллельных корпусах стали применяться в инструментах, облегчающих труд человека-переводчика (таких как системы «переводная память»), а также в системах автоматической проверки переводов, выполненных вручную. Промежуточное место между переводной памятью и статистическим машинным переводом занимают системы машинного перевода на основе примеров (EBMTexample-based machine translation), составляющие законченные предложения из фрагментов, хранящихся в памяти (см. [Перевод…, 2002]). В приложении к задаче проверки переводов статистические алгоритмы используются для контроля полноты перевода, контроля единства используемой терминологии [Macklowitch, 1995], [Isabelle, 1992].

Другой задачей, решаемой с помощью анализа параллельных текстов, стала двуязычная лексикография. Автоматическое составление переводного конкорданса является одной из задач, решаемой любой системой статистического машинного перевода, но к настоящему времени оно выделилось в отдельную область исследований.

Интересно, что именно в области автоматического составления словарей исследования по статистической обработке параллельных текстов достигли наиболее наглядных успехов. Так, некоторые системы достигают точности установления переводных соответствий на уровне слов выше 95% [Langlais et al, 1998]. В середине 90-х годов автоматическое построение переводных словарей по параллельным текстам стало рассматриваться как отдельная задача, и к настоящему времени дало новый, многообещающий подход – установление лексических переводных соответствий по несвязанным текстам [Fung, 1998], [Rapp, 1999].

Методы статистической обработки параллельных текстов могут быть применены и в интересах исторической лексикографии, особенно в тех сферах, где существует переводная литература научного или технического характера. Применительно к экономической лексике, мы можем воспользоваться существованием ряда экономических текстов, написанных на иностранном языке и переведенных на русский язык в разное время. Так, существует не менее шести независимых переводов «Исследований о природе и причинах богатства народов» А. Смита, первый из которых относится к 1802 году, а последний – к 1993; собрание сочинений Д. Рикардо переводилось на русский язык не менее четырех раз. Рассматривая переводы разных лет как параллельные тексты на разных языках, с помощью статистических методов было бы возможно составить словарь соответствий между переводами, относящимися к разным периодам.

Исследование разных переводов одного иноязычного текста с помощью статистических методов ставит ряд вопросов и одновременно позволяет использовать некоторые приемы, недоступные при работе с текстами на разных языках.

Первой и наиболее серьезной проблемой является относительная ограниченность материала для подобной работы. Тогда как количество параллельных текстов на разных языках увеличивается довольно быстро, повторные переводы текстов, переводившихся ранее, относительно редки. Впрочем, эта проблема встает – хотя и в другом абсолютном выражении – при любом диахроническом исследовании: чем дальше от настоящего времени находится исследуемый период, тем более ограничен доступный исследователю материал. Обратной стороной того факта, что повторный перевод текста редко считается целесообразным, является вольное или невольное отталкивание переводчика от работы предшественника. В результате того, что новый перевод стремится быть как можно более понятным современному читателю, языковые сдвиги, произошедшие с момента создания предыдущего перевода, подчеркиваются особенно отчетливо.

Другое ограничение подобного исследования вытекает из ограниченной доступности материала. Язык, который может быть изучен таким методом, специфичен для тех произведений, которые оказались объектом труда нескольких переводчиков. Следует заметить, что такое внимание уделяется только тем работам, которые считаются основополагающими в своей области. Хотя язык такого произведения отнюдь не охватывает всей лексики той отрасли, которая развилась на его основе, оно обычно содержит достаточное количество характерной для своей области лексики, чтобы представлять интерес для лексикографии.

Параллельные тексты на одном языке обладают некоторыми особенностями, позволяющими модифицировать статистические методы, применимые к текстам на разных языках. В частности, хотя за период в одно столетие меняется не только сам язык, но и, что более существенно, набор языковых средств, уместных в публицистическом, научном или техническом тексте, очень существенное число одинаковых (или графически близких) слов неизбежно встречается в параллельных фразах в разных переводах. Как будет показано ниже, этот факт оказывается полезным при одной из проблематичных процедур статистической обработки текстов – выравнивании.

Несмотря на существенные ограничения, применение статистических методов к разделенным историческими периодами переводам одного иноязычного текста дает нам уникальную в своем роде возможность найти способы передачи одного смысла в разные периоды развития языка, не привязанную к способности лексикографа подобрать синоним к некоторому термину с учетом его диахронической актуальности. Помимо экспертного поиска «исторических синонимов» теоретически возможны и другие альтернативные подходы к такой задаче. Например, редукция словарных дефиниций словарей разных периодов до некоторого единого семантического метаязыка дала бы нам аналогичную возможность. Однако отсутствие формального способа такой редукции и, как следствие, колоссальная трудоемкость и невысокая надежность подобного подхода делают его неосуществимым. Другим очевидным направлением было бы извлечение такой информации из независимых текстов – например, журнальных статей разных лет. Подобная работа была бы близка по своему характеру составлению двуязычного словаря по массиву независимых текстов, и здесь следует обратить внимание на пока что скромные, но растущие успехи методов корпусной лингвистики в обработке непараллельных разноязычных текстов. Возможно, и в этом приложении «грубая сила» статистики может стать оказать лексикографу существенную помощь.

За десять лет работы над анализом параллельных текстов исследователями было предложено большое число подходов и конкретных алгоритмов. Некоторые из них специфичны для отдельных задач, другие применимы во всех областях обработки параллельных текстов. Ниже рассматриваются некоторые общие решения обработки параллельных текстов, а затем основные подходы в области статистического машинного перевода.

© Б.Н. Рахимбердиев, 2003.

Сайт управляется системой uCoz