Эволюция семантики экономической терминологии

2.3.6 Оценка статистических моделей

Наиболее распространенными критериями оценки результатов статистической обработки текста являются точность (precision) и охват (recall). Измерение этих величин предполагает сравнение результата работы оцениваемой системы с эталоном. Для этого выбирается единица подсчета (например, предложение), и все единицы оцениваемого результата сравниваются с эталоном. Точность определяется как отношение числа правильных единиц результата к общему числу единиц в оцениваемом результате. Охват определяется как отношение числа правильных единиц результата к общему числу единиц эталона. Из понятий точности и охвата выводятся понятия шума и молчания: шум = (1 – точность), молчание = (1 – охват) [Langlais et al, 1998]. В зависимости от того, является ли результат работы системы симметричным, точность и охват могут измеряться как со стороны одного языка, так и с обеих сторон.

Несмотря на простоту определения, фактически приводимые в литературе значения точности и охвата зачастую оказываются не сравнимыми. Основными проблемами, возникающими при измерении этих величин, являются выбор принципа сегментации, выбор эталона, выбор критериев правильности.

Влияние принципа сегментации оцениваемого материала можно продемонстрировать на следующем примере. Допустим, система машинного перевода неправильно перевела по одному слову в предложении из трех слов и в предложении из 20 слов. В качестве единицы оценки используются предложения, оценки выставляются по двухбалльной системе. Оба предложения будут оценены как неправильные, однако, по-видимому, первую ошибку следует признать более серьезной, чем вторую. Если бы оценка производилась на уровне отдельных слов, а не предложений, вес обеих ошибок был бы иным.

Выбор или создание эталона может оказаться одной из наиболее трудоемких этапов работы над системой статистической обработки текста. В зависимости от требований к точности оценки различается и подход к созданию эталона. Наиболее простой способ можно назвать одноуровневым – судья, владеющий обоими используемыми языками, непосредственно оценивает каждый сегмент результата. В более масштабных экспериментах один и тот же фрагмент может оцениваться несколькими судьями, после чего их оценки тем или иным образом усредняются.

Если характер оцениваемой работы допускает формальное определение правильности и неправильности, возможно предварительное составление эталона человеком, владеющим обоими языками, и последующее автоматическое сравнение результата работы системы. Следует отметить, что при такой организации снижается зависимость суждения судьи от варианта, предложенного системой. Наконец, в качестве наиболее иерархичной системы оценки можно привести пример [Gale, Church, 1991], когда эталонный корпус, созданный основным судьей, сверялся с выборочными эталонами, созданными другими судьями, с целью установления авторитетности первого.

Для систем, в рабочий цикл которых входит фаза обучения, принципиальным моментом является оценка качества работы на корпусе, не использовавшемся при обучении. С другой стороны, в силу значительных лексических, идиоматических и грамматических различий между разнородным текстами статистические системы могут оказаться не в состоянии правильно обработать корпус, далекий от тренировочного. Поэтому для большинства оценок из тренировочного корпуса предварительно извлекаются небольшие фрагменты, не использующиеся при обучении.

Критерии правильности/ошибочности сильно зависят как от типа оцениваемой системы, так и от масштаба эксперимента. Однозначной оценке лучше всего поддаются системы выравнивания предложений – если система связала предложение не так, как судья, система сделала одну ошибку.

При оценке составления конкордансов известны несколько подходов. При наименее формальном подходе судьям, знающим оба языка, дается наиболее значимое переводное соответствие для каждого слова, а также фактические контексты на обоих языках, и предлагается оценить правильность перевода по двухбалльной шкале [Han, 2001]. Для получения более полной картины для каждого слова рассматриваются все пары с весом, превышающим некоторый порог. При этом в качестве эталона используются как традиционные словари, так и метод экспертной оценки [Melamed, 1996]. Следует отметить, что в последней работе правильными признавались не только переводы, буквально совпадающие с эталоном, но и переводы с изменением части речи, а также «неполные» переводы (например, фр. immédiatement – англ. right, при правильном переводе right away).

При оценке систем статистического машинного перевода чаще всего применяется метод экспертной оценки и градуированная шкала характера ошибки. Так, переводы, выполненные системой, могут оцениваться как: а) идентичные выполненным вручную, б) отличные, но такого же качества, в) отличающиеся по смыслу, г) неправильные и д) неграмматичные. Ошибки могут оцениваться по системной сущности («ошибка выбора слова», «ошибка склонения местоимения» и т.д.), после чего общая оценка формируется на основе сложности устранения каждой категории ошибок и ее влияния на понимание. В качестве альтернативы такому методу предлагается оценка понимания смыла исходного текста читателями перевода [Knight, 1997].

Создание эталона и экспертная оценка результатов не всегда представляются возможными, особенно при проведении больших серий экспериментов. В качестве критерия, заменяющего экспертную оценку, в системах, использующих обучаемую модель, может использоваться мера неуверенности (perplexity). Для вычисления показателя неуверенности используется тестовый корпус (фрагмент, выделенный из тренировочного и не использовавшийся при обучении). Оцениваемая модель применяется к тестовому корпусу – результатом является вероятность, присвоенная моделью сочетанию половин корпуса. Неуверенность вычисляется как отрицательный логарифм полученной вероятности, нормализованный по числу слов (или иных минимальных единиц, используемых моделью) тестового корпуса:

© Б.Н. Рахимбердиев, 2003.

Сайт управляется системой uCoz