Эволюция семантики экономической терминологии

<< Реферат третьей главы >>

Для проверки практической применимости положений, изложенных в первой главе, были проведены два эксперимента, позволившие не только отработать новые приемы диахронического исследования экономической лексики русского языка и построить набор обеспечивающих их инструментов, но также получить определенный массив собственно диахронического лексикографического материала.

В рамках первого эксперимента была осуществлена попытка изучения эволюции семантики сплошной выборки экономической лексики по данным двух толковых словарей русского языка. Содержанием второго эксперимента стал поиск диахронических синонимов в двух переводах одного иноязычного текста с помощью методов, основанных на современных работах по статистическому машинному переводу.

Для анализа сдвигов в семантической структуре экономической лексики русского языка в 20 веке в качестве словарей-источников были выбраны словари толкового типа. Ближайшим к началу исследуемого 20 века и подходящим по своим параметрам словарем оказался «Толковый словарь русского языка», составленный под редакцией Д.Н. Ушакова в 1927 – 1940 годах [Толковый словарь …, 1935-1940], соединивший в себе традиции строгой научности академических словарей и с общедоступность массового словаря-справочника, предполагающую строго нормативный характер словаря.

Со словарем Д.Н. Ушакова генетически тесно связан словарь С.И. Ожегова, работа над которым началась в 1940 году, а первое издание которого вышло в свет 1949 году. Несмотря на то, что объем словаря С.И. Ожегова составляет один том против четырех томов словаря Ушакова, даже в его первых, менее объемных изданиях размер словника (52 – 53 тысячи слов) составляет почти две трети словника словаря Ушакова (около 85 тысяч слов).

Вышедшее в свет в 1991 г. 23 издание словаря С.И. Ожегова с объемом словника около 70 тысяч единиц было выбрано в качестве источника, представляющего ситуацию в нормативном русском литературном языке на конец 20 века [Ожегов, 1991].

Для отнесения лексики, представленной в выбранных словарях, к сфере экономики использовался Тезаурус по экономике и демографии ИНИОН [Архангельская, 2001]. Из 314 слов, присутствующих и словаре С.И. Ожегова, и в тезаурусе, были отобраны 210 слов, относящихся только к сфере экономики. При этом из списка были исключены слова, относящиеся к демографии (напр., «женщины», «заболеваемость»), к метаязыку науки (напр., «динамика»), а также такие слова, которые не имеют лексико-семантических вариантов (ЛСВ) с экономическим значением ни в одном из словарей (напр., «лаг», «мультипликатор»).

В соответствии с положениями, изложенными в первой части работы, при сопоставлении словарных статей использовались следующие принципы:

  • В большинстве случаев одно словарное значение трактовалось как один ЛСВ. В отдельных случаях имеют место полноценные самостоятельные определения, включенные в состав других определений; такие определения рассматриваются как отдельные ЛСВ. В случае отсылочного толкования использовалось толкование того слова и значения, на которое указывает отсылка.
  • Отнесение отдельных ЛСВ к сфере экономики производилось экспертным способом. Экономические ЛСВ одного заглавного слова в каждом из двух словарей соотносились друг с другом на основании экспертной оценки близости определений. Анализ ЛСВ, не признанных экономическими, в большинстве случаев не производился. Соотнесение неэкономических ЛСВ осуществлялось только если это было необходимо для определения актуализации/деактуализации экономических значений.
  • Занятие отдельным толкованием более высокой (или низкой) позиции среди других определений интерпретировалось как актуализация/деактуализация соответствующего ЛСВ. Учитывался не абсолютный номер словарного толкования, а его положение относительно других ЛСВ – в первую очередь экономических.
  • Извлечение из словарной дефиниции сигнификативного компонента значения производилось путем анализа его субъектно-предикатной структуры и ограничивающих определений.
  • Сравнение денотативного значения слова по данным двух словарей производилось путем интуитивной оценки возможности включения в класс определяемых объектов различного набора таковых с обеих сторон диахронической пары.
  • Если часть определения признавалась энциклопедической информацией, она исключалась из рассмотрения.
  • Если по каким-либо причинам можно было установить большую или меньшую экономическую соотнесенность понятия в одном из периодов, такое изменение отмечалось отдельно.

Сравнительная схема определений словаря Д.Н. Ушакова 1935-1940 г.г. и словаря С.И. Ожегова 1991 г. приводится в Приложении 1. В левой колонке приводится статья словаря Ушакова, в правой – словаря С.И. Ожегова. Справа от заглавного слова, а также слева от каждого толкования могут приводиться условные обозначения отмеченных изменений семантики; отсутствие таких помет означает полное совпадение семантики по толкованиям обоих словарей.

Проведенный эксперимент позволяет установить возможность исследования эволюции семантики основного терминологического слоя экономики с помощью толковых словарей русского языка разных лет. Этот подход эффективен для изучения истории означающих тех слов, которые в настоящее время входят в сферу экономической лексики. Он позволяет установить достаточно тонкие качественные сдвиги в лексической семантике на большинстве ее уровней.

Анализ генетически близких и схожих по лексикографическим параметрам словарей, разделенных периодом около 50 лет показывает, что даже за такой относительно небольшой отрезок времени в той части литературного русского языка, которая пересекается с терминологическим полем экономики, происходят многочисленные сдвиги.

Так, из 210 слов, зафиксированных в словаре Ожегова, 13 являются новыми, у 24 слов появились новые экономические ЛСВ. С другой стороны, из зарегистрированных экономических ЛСВ в словаре Ушакова 42 отсутствуют в словаре Ожегова, что связано как изменениями на семантическом уровне русского языка, так и с различием объема двух словарей.

У 62 экономических ЛСВ зарегистрированы сдвиги на уровне сигнификата, из них 30 – в сторону расширения, у 52 экономических ЛСВ зарегистрированы сдвиги на уровне денотата, из них 28 – в сторону расширения. Тогда как не все расширения денотата/сигнификата могут считаться достоверными в силу соотношения объема словарей, количество относительно достоверных сдвигов остается весьма существенным. У экономических 17 ЛСВ зарегистрированы изменения коннотата, у 11 экономических ЛСВ – изменения в уровне актуальности их экономического значения, и наконец, у 29 экономических ЛСВ – изменения их актуальности в семантической структуре слова.

Для изучения возможности применения методов статистической обработки параллельных текстов к диахроническому анализу русской экономической лексики была выбрана работа А. Смита «Исследование о природе и причинах богатства народов». В качестве параллельных текстов были выбраны два перевода – 1895 года и 1931 года.

Текст перевода 1895 года доступен только в печатном виде. Для машинной обработки текст было необходимо отсканировать и произвести его распознавание. Из-за отсутствия поддержки дореволюционной орфографии в существующих программах оптического распознавания текста количество ошибок при распознавании оказалось очень высоким – от единиц до десятков на страницу. Исправление этих ошибок было произведено вручную. В процессе исправления также были удалены многочисленные комментарии, не входящие в основной текст. Таким образом перевод 1895 года был преобразован в машиночитаемый текст объемом 325 571 знак.

Текст перевода 1931 года доступен в электронном виде, что существенно облегчает работу с ним. Исходный объем этого текста составляет 535 665 знаков.

Для дальнейшей работы с текстами использовался набор программных инструментов, разработанных автором на платформе Microsoft Access и Microsoft Visual Basic и выполняющих следующие функции, необходимые для поиска лексических соответствий в двух параллельных массивах текста на русском языке:

  • Разделение текста на предложения
  • Разделение предложений на слова
  • Выравнивание предложений двух массивов между собой

Для разделения текста на предложения был применен простой алгоритм, использующий в качестве признака конца предложения знаки точки, вопросительный или восклицательный знак, после которых следует пробел или конец абзаца. Для разделения предложений на слова был применен алгоритм, использующий в качестве признака конца слова любой знак, не являющийся буквой русского алфавита. Для выравнивания предложений использовался алгоритм динамического программирования без ограничения области поиска. Функция расстояния использовала сочетание числа лексических совпадений и близости длин предложений.

Для нахождения лексических совпадений предварительно был построен список словоформ, считающихся формами одного слова. Для этого все словоформы, найденные в корпусе 1895 года и в корпусе 1931 года, были сравнены с точки зрения их графической близости. Формами одного слова считались те кандидаты, коэффициент схожести которых превысил 0,8. Для того, чтобы снизить вероятность ситуации, когда два предложения, являющихся переводом одного предложения оригинала, было невозможно сопоставить, потому что в них не было обнаружено графически достаточно близких словоформ, в дополнение к мере лексического сходства использовалась мера сходства длины, заимствованная из исходного алгоритма Гейла. В реализации алгоритма динамического программирования Гейла для операций удаления, одностороннего слияния и двустороннего слияния предложений использовались «штрафы», соответствующие вероятности операции каждого типа в корпусе текста.

При просмотре полученной таблицы было обнаружено, что текст 1895 года перед обширными пропусками имеет характер скорее реферата, чем перевода. Для снижения уровня шума на следующем этапе эксперимента единичные предложения, сопоставленные со случайными предложениями на фоне обширных пропусков, были удалены вручную. В результате были получены 1.076 пар предложений.

Для эксперимента была выбрана Модель IBM №1. В ходе эксперимента был использован программный код, в работе [Statistical Machine Translation, 1999]. Результатом эксперимента стала таблица лексических соответствий, расположенных в порядке убывания вероятности, присвоенной паре статистической моделью. Конечный этап работы заключался в ручном просмотре пар-кандидатов с вероятностью выше 0,5 и коэффициентом графической схожести ниже 0,8. Из 295 пар были отобраны пары слов, являющихся синонимами, после чего автором были вручную отмечены слова, относящиеся к области экономики.

© Б.Н. Рахимбердиев, 2003.

Сайт управляется системой uCoz