Скачать 0.61 Mb.
|
Санкт-Петербургский государственный университет Кафедра математической лингвистики АНАЛИЗ ОСОБЕННОСТЕЙ МАШИННОГО ПЕРЕВОДА (на материале финских текстов разных функциональных стилей) Направление: «Лингвистика» Образовательная программа: «Прикладная и экспериментальная лингвистика» Профиль: «Компьютерная лингвистика и интеллектуальные технологии» Выпускная квалификационная работа соискателя на степень магистра филологии Прохоровой Александры Алексеевны Научный руководитель: к. филол. наук, доц. М. В. Хохлова Санкт-Петербург 2016 ОГЛАВЛЕНИЕ ВВЕДЕНИЕ Инструменты машинного перевода (МП), позволяющие работать с текстами онлайн и осуществлять быстрый перевод, служат для интернет-пользователей средством коммуникации. У таких инструментов есть ряд недостатков — ни одна из таких платформ, существующих в настоящее время, не является оптимальной с точки зрения скорости, правильности и стоимости перевода [Борисова, 2013; Аматов, 2008]. Зачастую результаты работы онлайн-инструментов требуют постредактирирования [Борисова, 2014; Новожилова, 2014], и эффективно могут использоваться только теми, кто в какой-то степени владеет принимающим языком и языком-источником. Другой проблемой является то, что не для всех малых языков существуют хорошо разработанные автоматические переводчики. Большинство систем при работе с некоторыми парами языков используют язык-посредник (обычно английский язык). Иначе говоря, перевод осуществляется не напрямую: сначала происходит трансфер текста с языка-оригинала на английский, а уже потом — на необходимый язык перевода, что во многом влияет на качество перевода [Новожилова, 2014]. В этой ситуации нам кажется актуальной задача развития систем машинного перевода для тех языков, которые до сих пор не были достаточно автоматизированы. Так, до недавнего времени для перевода в паре финский-русский язык не существовало такой системы, которая бы не использовала язык-посредник. Это определяет актуальность нашей работы. Ее практическая значимость обусловлена тем, что разработанные нами классификация и рекомендации могут быть использованы при создании и усовершенствовании систем машинного перевода. Мы выбрали для работы онлайн-переводчик PROMT, во-первых, потому что на данный момент прямой перевод между русским и финским языком, без использования языка посредника, может осуществлять только этот инструмент, во-вторых, по той причине, что в нашем доступе оказались данные реальных пользовательских запросов. Более того, компания начинает активно внедрять статистические технологии, и это один из их первых проектов, над которым началась работа в 2005 году. Для английского и русского языков компания уже сейчас ведет разработки гибридных подходов. Мы верим, что с богатым и успешным опытом компании в области классического перевода «по правилам», при дальнейшем использовании статистических методов, у PROMT есть большой потенциал также и в области гибридного перевода. Мы считаем что, идентификация основных проблем системы перевода — это важный шаг в направлении дальнейших исследований. Целью нашей работы является анализ особенностей перевода, связанных с работой статистического машинного переводчика PROMT в паре языков русский-финский. Для достижения поставленной цели нами были решены следующие задачи: - изучена история развития систем МП, описаны типы систем МП и рассмотрены принципы их работы; - исследованы понятие «качества перевода» и способы оценки качества перевода; - проанализированы типы ошибок, появляющиеся при работе системы PROMT, и дана их классификация; - дана оценка результатам эксперимента, рассмотрены причины возникающих ошибок и определены дальнейшие пути развития. В первой главе дается краткий обзор истории машинного перевода, приведены несколько классификаций существующих систем МП, далее подробно расписаны принципы работы перевода по правилам, статистического перевода и гибридных подходов, приведены плюсы и минусы таких систем. Вторая глава посвящена оценке качества МП, разбираются стандартные методы оценки качества перевода (такие как экспертная оценка, метрики BLEU, NIST и WER) ставится вопрос об интерпретации результата такой оценки, приводится стандартная классификация типов ошибок. В третьей главе мы описываем практическую часть нашей работы, приводится классификация систематических ошибок на основании возможных причин их появления, даются рекомендации относительно улучшения работы СМТ с помощью дополнительных инструментов. Благодарим компанию «ПРОМТ» за предоставленные нам для работы данные пользовательских запросов и возможность участвовать в разработке этого переводческого инструмента. 1. МАШИННЫЙ ПЕРЕВОД 1.1. Определение понятия перевода как вида человеческой деятельности Перевод как один из видов языковой деятельности представляет собой процесс адекватной и полноценной передачи мыслей, высказанных на одном языке, средствами другого языка [Нелюбин, 2011, c.138]. Перевод — это сложный и многогранный вид человеческой деятельности. В процессе перевода происходит столкновение не только языков, но и культур. Данные переводоведения используются в областях культурологи, этнографии, истории и литературоведенья. В свою очередь, в науке о переводе могут выделяться культурологические, когнитивные, психологические, литературные и прочие аспекты [Комиссаров, 2002, c.22]. Л. С. Бархударов, один из основоположников отечественной теории перевода, дает следующее определение: «Переводом называется процесс преобразования речевого произведения на одном языке в речевое произведение на другом языке при сохранении неизменного плана содержания, то есть значения» [Бархударов, 1975, c.11]. Процесс перевода — это также и процесс передачи информации, содержащейся в произведении речи, средствами другого языка [Ахманова, 1969, c.316]. По словам И. Р. Гальперина при переводе должно передаваться не только смысловое содержания текста, но и его стилистические особенности [Гальперин, 1987, c.20]. Перевод можно рассматривать, как вид коммуникативной деятельности [Колшанский, 1980, c.112], а перевести что-то на другой язык — «значит выразить верно и полно средствами одного языка то, что уже выражено ранее средствами другого языка» [Федоров, 2002, c.10]. Л. К. Латышев считает, общественное предназначение перевода заключается в том, чтобы в максимальной степени приблизить опосредованную двуязычную коммуникацию по полноте, эффективности и естественности общения к обычной одноязычной коммуникации [Латышев, 1988, c.7]. Некоторые исследователи определяют перевод через требования, предъявляемые переводчику:
Другие определяют его через требования, которым должен удовлетворять сам текст перевода:
[там же]. 1.2. Определение понятия машинного перевода Рассмотрим, каким образом машинный перевод (МП) вписывается в наше представление о переводе. Как это ни парадоксально, но на данный момент с практической точки зрения машинный перевод остается процессом человеческой деятельности. Термин «машинный перевод» многозначен. За долгую историю использования он приобрел множество интерпретаций. Сначала этот термин подразумевал только автоматические системы, работающие без участия человека [Sager, 1994, c.326]. Европейская ассоциация машинного перевода дала следующее определение: «использование компьютера для перевода текста с одного естественного языка на другой язык» [Сайт Европейской ассоциации машинного перевода EAMT]. А Международная ассоциация машинного перевода (IAMT) определяет машинный перевод как «единовременный ввод полного предложения и генерирование соответствующего ему полного предложения» [Hutchins, 2000a]. Ни одно из этих определений не предполагает вмешательства человека. Академические ученые и исследователи до сих пор расходятся во взглядах на определение машинного перевода в отношении участия человека в этом процессе. В данный момент этот термин продолжает использоваться для обозначения полностью автоматизированных систем пусть даже и с участием человека [Somers 2003: c.1—11]. Машинный перевод — это выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия [Фролов, 2008, c.127]. Толковый переводоведческий словарь Л. Л. Нелюбина определяет машинный перевод следующим образом:
[Нелюбин 2011 c.107]. 1.3. История развития машинного перевода Идея машинного перевода, т.е. мысль о том, чтобы поручить машине работу по переводу с одного естественного языка на другой, насчитывает к настоящему времени уже около пятидесяти лет существования. Примерно столько же лет ведутся научно-исследовательские работы по машинному переводу во многих странах мира [Марчук, 2007, c.245]. Начиная с 40-х годов ХХ века, с момента создания первой ЭВМ, машинный перевод являлся одной из задач, которую ученые собирались решить в кратчайшие сроки [Baker, 2001]. Первые опыты специалистов из IBM основывались главным образом на словарном (прямом) методе и были весьма, успешными для малого (250) количества входных предложений. Это подкрепило уверенность в том, что проблема машинного перевода — простая для решения задача. Но, после проведения дальнейших исследований, ученые обнаружили, что задача машинного перевода вовсе не является тривиальной [Кан, 2011]. Чарльз Бэббидж первым высказал мысль о возможности МП. В середине 19 века он работал над проектом цифровой аналитической машины. Это был механический прототип ЭВМ, которые потом появились только через 100 лет. Идея Бэббиджа состояла в том, что такую машину можно использовать для хранения словарей. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения машины, которую ему так и не удалось построить [Шаляпина, 1996, c.105]. Джон Хатчинс — один из самых активных историков машинного перевода на западе [Сайт Джона Хатчинса]. Согласно Хатчинсу пионером в области машинного перевода был Пётр Петрович Троянский, предложивший схему механического устройства перевода. Троянский был незаслуженно забыт мировым научным сообществом. Первые ЭВМ («БЭСМ» и «Стрела») стали использоваться для работы в СССР в 1952-53 годах уже после его ухода [Hutchins, 2000b]. Машинный перевод начали воспринимать как отдельную исследовательскую область после марта 1947 года. Тогда, Уоррен Уивер, специалист по криптографии, в своем письме Норберту Винеру сформулировал задачу машинного перевода, сравнив ее с задачей дешифровки. В 1949 г. Уивер составил меморандум, в котором смог обосновать, каким образом возможно осуществить МП. Уивер писал: «I have a text in front of me which is written in Russian, but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text» («У меня есть текст, написанный на русском языке, но я сделаю вид, что он написан по-английски и закодирован при помощи странных символов. Тогда все, что мне нужно сделать, — это разгадать код, чтобы извлечь информацию, заключенную в тексте») [Слокум, 1989, c.56—58]. Позже идеи Уивера легли в основу подхода к МП, основанного на концепции интерлингвы (interlingva). При таком подходе стадия передачи информации разделена на два этапа. На первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного языка), а затем результат этого перевода представляется средствами выходного языка [Лекция о системах МП]. В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 г. в Джорджтаунском университете (г. Вашингтон, США). Тогда была представлена первая полноценная система машинного перевода — IBM Mark II. Это событие вошло в историю как «Джорджтаунский эксперимент». Очень ограниченная в своих возможностях система прекрасно справилась с переводом 49 специально подобранных предложений с русского языка на английский с использованием словаря на 250 слов и шести грамматических правил [там же]. В СССР первый эксперимент по МП был осуществлен И. К. Бельской и Д. Ю. Пановым в Институте точной механики и вычислительной техники АН СССР в 1954 г. [там же]. В истории МП было несколько поворотных моментов, которые определили его развитие на долгие годы, и несколько моментов, которые привели к затишью в области на многие годы. Одной из таких поворотных точек стал доклад ALPAC, содержавший объективную оценку состояния МП в 60-е годы XX века, показавший насколько сложной задачей является машинный перевод на самом деле [Онлайн версия доклада ALPAC, 1966]. Результатом этого доклада стала идея того, что разработка систем машинного перевода нерентабельна. Это фактически привело к прекращению работ над системами машинного перевода. Однако, благодаря постоянному прогрессу вычислительной техники, исследования в этой области вновь возобновились в 70-е годы, а в конце 80-х началась разработка первых статистических систем [Молчанов, 2013]. Системы перевода разрабатывались в разных странах по всему миру: США, Германия, Франция, Россия, Япония. Из наиболее известных масштабных исследовательских проектов в области МП в Советском Союзе и России нужно отметить систему МП ЭТАП [Кан, 2011б с.71]. В СССР в 70-х годах разработку основ технологии машинного перевода продолжила группа специалистов в ВИНИТИ под руководством профессора Г. Г. Белоногова [Карасев, 2011]. В результате в 1993 г. была создана первая российская промышленная версия системы RETRANS фразеологического машинного перевода с русского языка на английский и обратно, которая применялась в министерствах обороны, путей сообщения, науки и технологий, а также во ВНТИЦ [Карасев, 2011]. Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов. Тогда МП стал экономически выгодным. Стоимость персональных компьютеров (ПК) понизилась, и к ним стало проще получить доступ, количество пользователей ПК увеличилось. Системы МП были реализованы на персональных компьютерах и являлись системами прямого перевода, возможности которых базировались на огромных (по сравнению с первыми системами) словарях, а не на умении анализировать и синтезировать тексты. Одной из новых разработок 70-80-х годов стала технология TM (translation memory — «память переводов», или «переводческая память»), Такая «память», работает почти как человеческая память, по принципу накопления. Каждый раз при переводе сохраняется исходный текст и его перевод, из всех таких переводов создается лингвистическая база данных, которую затем можно использовать при последующих переводах. Инструменты TM сейчас активно используются большинством переводческих компаний. Технологии МП начали развиваться еще активнее в 90-е годы. Популяризация интернета и высокий уровень возможностей персональных компьютеров обеспечили реальный спрос на МП. Так МП снова стал привлекательным для инвесторов и выгодным для разработки. В ходе своего развития, алгоритмы МП перешли от прямого (словарного) метода к методу трансфера, а затем и к понятию интерлингвы. В итоге алгоритмы МП поделились на две группы: статистические подходы, основанные на входном корпусе данных (Data Driven Machine Translation), и классические (основанные на правилах), изучающие каждый язык во всей его лингвистической полноте (Rule Based Machine Translation) [Кан, 2011]. Сейчас основные исследования ведутся в области статистического МП [Hearne, 2011], а системы МП, основанные на правилах, считаются устаревающими. В российской литературе ситуация прямо противоположная: классические подходы привлекают значительно большее внимание специалистов [Кан, 2011]. Оба фундаментальных подхода имеют свои недостатки. Классические методы очень трудоёмки, а качество работы статистических подходов напрямую зависит от качества входного корпуса. Самые последние разработки ведуться в области гибридных систем, делающие попытку вобрать лучшие характеристики классического и статистического МП, минимизируя их недостатки [там же]. На данный момент наиболее известной и распространённой в мире системой МП является СМП компании Systran и компании Google. В России на текущий момент аналогом является СМП компании «ПРОМТ» [там же]. |
Соискателя на степень магистра филологии Коноваловой Александры Владимировны... Основными функциями языка являются коммуникативная (язык предназначен для взаимодействия людей), когнитивная (язык служит для передачи... |
Соискателя на степень магистра филологии Крастынь Валерии Валерьевны... Целью данного исследования является разработка системы для извлечения именованных сущностей из текстов микроблогов (Твиттер) на русском... |
||
Секция "Перевод и межкультурная коммуникация" Р е д а к ц и о н н а я к о л л е г и я: канд филол наук, доц. В. В. Сдобников (отв редактор), кнд филол наук, доц. Л. А. Аверкина,... |
Составителя: Н. Н. Бровин, С. А. Куприна, В. О. Перминов, Э. А Под редакцией канд филол иву* доц. В. О. Пернкнова Рецензент канд филол наук доц. В. В. Постникова |
||
Магистра филологии Егора Андреевича Инокова Научный к ф. н., ст преп.... Способы выражения просьбы в польском и немецком языках (в сопоставлении с русским) |
Российской Федерации Дальневосточный государственный университет... Л. П. Бондаренко, канд филол наук, профессор; Л. Е. Корнилова, старший преподаватель; Н. С. Морева, канд филол наук, профессор, М.... |
||
Российской Федерации Дальневосточный государственный университет... Л. П. Бондаренко, канд филол наук, профессор; Л. Е. Корнилова, старший преподаватель; Н. С. Морева, канд филол наук, профессор, М.... |
На соискание степени бакалавра филологии Научный к ф. н., доц. Сытнов... I. Терминосистема: формирование, особенности, классификация |
||
Программа государственной итоговой аттестации по направлению подготовки 38. 04. 02 “менеджмент” Е. Г., д-р экон наук, доц. Максимов Ю. Н, канд экон наук, доц. Писаренков А. Г., канд экон наук, доц. Скосарев С. А., канд социол... |
Магистра лингвистики Научный к п. н., доц. Беликова Л. Г. Рецензент:... Синтаксические средства передачи косвенных речевых актов в публицистических текстах |
||
Лексикология английского языка Рецензенты: кафедра английской филологии №1 Санкт-Петербургского университета; канд филол наук доцент кафедры английской филологии... |
Магистра лингвистики Научный к ф. н., доц., доц. Соколова Е. В рецензент:... ОП, выражение конверсных отношений, выражение каузативных и фазисных действий, номинации действия при отсутствии в языке глагольной... |
||
Английский для подготовки к военной олимпиаде Учебное пособие Краснодар И. Н. Сухомлина – доцент кафедры английской филологии, канд филол наук (Кубанский государственный университет) |
Ационного развития материалы VII международной научно-практической... Российской Федерации, д-ра экон наук, проф. В. В. М а с л е н н и к о в а, канд психол наук, доц. В. О. М и д о в о й, д-ра экон... |
||
Магистра лингвистики Научный к ф. н., доц. Косарева Е. В. Рецензент:... Охватывают также целые классы слов, единых по своей категориальной сущности (выражающие, например, значение предметности, признака,... |
Магистра филологии Научный к ф. н., доцент Ю. В. Каминская Рецензент:... Философские основы, зарождение и развитие комплекса представлений о синтезе искусств. 8 |
Поиск |