Эволюция семантики экономической терминологии

2.3.2 Материал

Первое, что неизбежно необходимо для статистических исследований параллельных текстов, это собственно корпус параллельных текстов. В зависимости от сферы исследования, этот корпус используется как материал для тренировки системы, как источник для построения конкорданса и даже просто как объект статистических наблюдений. Первые эксперименты в области статистического машинного перевода были проведены на т.н. корпусе Хансарда, представляющем собой стенограммы заседаний парламента Канады на английском и французском языках. Канадские парламентарии выступают на любом из двух официальных языков страны, а после заседания все выступления переводятся и публикуются – в частности, в электронном виде. Объем корпуса Хансарда составляет сотни миллионов слов [Brown et al, 1990]. Крупный корпус тестов был собран в рамках европейского проекта Аркада – более 10 миллионов слов на девяти языках, т.е. примерно по 1,1 миллиону слов на каждый язык. Основой этого корпуса являются запросы членов Европейского парламента и ответы на них, опубликованные в официальном Журнале Европейского Союза [Langlais et al, 1998]. В крупных экспериментах также использовались фрагменты многоязычного корпуса ООН, документы различных учреждений Швейцарии, Гонконгский Хансард. Наконец, в качестве особенно сложного двуязычного материала используются переводы художественной литературы (в рамках проекта Аркада, например, это оригинал и английский перевод романа Ж.Верна «Из пушки на Луну»).

Для целей диахронической лексикографии, как говорилось выше, в качестве параллельных текстов могут рассматриваться переводы одного иноязычного текста, выполненные в разное время. В области экономики к таким текстам можно отнести сочинения А. Смита, Д. Рикардо, К. Маркса и некоторые другие.

© Б.Н. Рахимбердиев, 2003.

Сайт управляется системой uCoz