Перевод и информационно-коммуникативные технологии

К содержанию номера журнала: Вестник КАСУ №2 - 2011
Автор: Абдилова Галия Гарифуллаевна

Развитие общества сегодня диктует необходимость использовать новые информационно-коммуникативные технологии во всех сферах жизни. Перевод приобретает особое значение из-за многонационального характера нашей страны, а также глобализации экономических отношений во всем мире. Посредством перевода многие народы имеют возможность приобщиться к казахской культуре, а казахи, в свою очередь, знакомятся с национальным эпосом и литературными произведениями других народов мира.

За последние годы объем переводимых документов существенно вырос и постоянно продолжает увеличиваться. Это обусловлено целым рядом факторов, среди которых можно выделить три наиболее значимых: экономический, научно-технический и гуманитарный. Рост делового сотрудничества казахстанских компаний с зарубежными партнерами, интеграция экономики нашей страны в мировое экономическое сообщество приводит к увеличению объема деловой корреспонденции, контрактов, бизнес-планов и другой коммерческой информации, требующей перевода. С другой стороны, технический прогресс приводит к появлению новых аппаратных устройств и технологических процессов, для которых выпускается требующая перевода документация. Отдельно стоит выделить бурный рост компьютерных технологий и Интернета. К разряду гуманитарной информации можно отнести новости, политические комментарии и обзоры, информацию о культуре и искусстве и другие материалы общего характера.

В результате при параллельной работе нескольких переводчиков достаточно трудно отследить использование единых терминов, затраты на редакторскую правку становятся соизмеримыми с затратами на перевод. Это обусловливает необходимость использовать средства повышения эффективности труда переводчика [1, C. 2]. На помощь переводчику приходит машинный перевод.

Машинный перевод (МП далее по тексту) (Machine Translation) – это технология связного перевода текстов компьютерной программой с одного естественного языка на другой. Применение систем МП в такой ситуации позволяет существенно повысить производительность труда переводчика:

- отпадает необходимость набора переводимого текста,

- полностью сохраняются все особенности форматирования документов,

- используется единая терминология, поскольку к системе можно подключать специализированные словари и терминологические базы данных по определенным темам,

- сокращается время на получения перевода за счет уменьшения затрат на редакторскую правку.

Благодаря использованию МП, удается быстро и эффективно решить проблемы перевода текстов с одного языка на другой.

Впервые о расширении границ перевода заговорил английский изобретатель Чарльз Бэббидж, предложивший в конце 1830 года первый проект компьютера. Суть будущей машины состояла в использовании потенциала машинной памяти для хранения словарей [2]. Чарльз Бэббидж пытался убедить британское правительство в необходимости финансировать его исследования по разработке «вычислительной машины». В числе прочих благ он обещал, что когда-нибудь эта машина сможет автоматически переводить разговорную речь. Но, хотя сегодня Бэббидж и считается признанным автором множества идей, лежащих в основе работы компьютера, он так и не сумел ни построить свою машину, ни выполнить обещания по поводу МП.

Только спустя сто лет зарождается новый вид перевода в истории человечества - машинный перевод, если не считать изобретений 1933 года Джорджа Арстроуни (Франция) и П.П. Смирнова-Троянского (Россия). Общецелевая машина Арстроуни служила как многоязыковой словарь, а механизированное переводное устройство П.П. Смирнова-Троянского, своего рода лингвистический арифмометр, предполагал кодирование и объяснение грамматических функций, используя символы-«универсалии» на языке эсперанто. Хачинс У. называет их «забытыми пионерами» в истории машинного перевода [3, С. 1].

В марте 1947 года Уоррен Уивер (Warren Weaver), директор отделения естественных наук Рокфеллеровского фонда (Rockefeller Foundation), в переписке с Эндрю Бутом (Andrew D. Booth) и Норбертом Винером (Norbert Wiener) впервые сформулировал концепцию машинного перевода, которую несколько позже (в 1949 году) развил в своем меморандуме, адресованном Фонду.

У. Уивер писал: “I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text” («У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все, что мне нужно - это взломать код, чтобы извлечь информацию, заключенную в тексте»). [4] Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй Мировой войны. Сам термин МП существует именно с того времени.

Идеи Уивера легли в основу подхода к МП, основанному на концепции interlingva: стадия передачи информации разделена на два этапа; на первом этапе исходное предложение переводится на язык-посредник, созданный на базе упрощенного английского языка, а затем результат этого перевода представляется средствами выходного языка.

Меморандум Уивера вызвал самый живой интерес к проблеме МП. Вслед за этим последовало бурное обсуждение идеи автоматизированного перевода и теоретическая разработка первых технологий. Высказывались предположения о полной замене человека-переводчика электронными системами, многие профессиональные переводчики опасались в ближайшем будущем остаться без работы. Кажущаяся простота задачи дала начало нескольким глобальным проектам по созданию систем перевода для разных языков.

В 1948 году А. Бут и Ричард Риченс (Richard Richens) произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания) [4].

В те годы компьютеры довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов (последние также были тесно связаны с военной сферой). Поэтому на ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.

В 1952 году состоялась первая конференция по МП в Массачусетском технологическом университете, организованная знаменитым математиком Бар-Хиллелом, где исследователи обменялись идеями относительно организации множества синтаксических правил языка, способов описания семантики, морфологических структур, структуры словарей для систем перевода.

Первая система МП - IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент), была представлена в Нью-Йорке в 1954 году. Эта программа была очень ограничена в своих возможностях: она имела словарь в 250 единиц и 6 грамматических правил и 49 заранее отобранных предложений для перевода с русского языка на английский. Казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет (при этом акцент делался на развитии полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс) [4]. Этот эксперимент стал началом исследовательского бума, и за первые 10 лет правительство и военные ведомства США истратили на исследования в области машинного перевода около 40 миллионов долларов.

В течение последующих 10 лет технологии МП продолжали стремительно развиваться, но вскоре стало ясно, что машина не сможет переводить тексты также безукоризненно, как человек.

К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-for-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

В 1959 году философ Й. Бар-Хиллел (Yohoshua Bar-Hillel) выступил с утверждением, что высококачественный полностью автоматический МП (Fully Automatic High Quality Translation-FAHQT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив). Pen в данном случае должно переводиться не как «ручка» (инструмент для письма), а как «детский манеж» (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода «человеко-машинный симбиоз») [4].

Прошло всего восемь лет. В 1966 году к практически полному отрицанию МП пришли на основании обзора, выполненного Национальной Академии наук США специальным комитетом по прикладной лингвистике ALPAC (Automatic Language Processing Advisory Committee). В нем констатировалось, что системы автоматического перевода нерентабельны: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. Этот отчет драматически повлиял на развитие МП, так как были практически прекращены какие бы то ни было исследования из-за отсутствия финансирования, по крайней мере, в США и Европе; несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций (в числе которых ВВС США, Комиссия США по ядерной энергии, Центр Евроатома в Италии) [5, C. 35].

Тем не менее, первые системы перевода продолжали пользоваться популярностью в военных и научных учреждениях СССР и США.

Следующие десять лет разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO для перевода метеорологических сводок; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживают работа в этой области российских лингвистов, таких, как И.А. Мельчук и Ю.Д. Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-Исследовательского Института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета [2].

Лишь в конце 70-х годов с развитием вычислительной техники (появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти) машинный перевод вошел в эпоху «Ренессанса». При этом несколько сместились акценты: программисты отказались от идеи создания «идеальной» машины-переводчика, они теперь ставили целью развитие «реалистических» систем МП, предполагавших участие человека на различных стадиях процесса перевода. Новые системы разрабатывались с целью многократного увеличения скорости перевода информации, но с обязательным участием человека для достижения идеального качества, МП из «врага» и «конкурента» [2] профессионального переводчика превращается в незаменимого помощника, способствующего экономии времени и человеческих ресурсов.

О возрождении МП в 70-80-е годы свидетельствуют следующие факты: Комиссия Европейских общин (CEC) покупает англо-французскую версию Systran, а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итальяно-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA, основанного на разработках групп SUSY и GETA. Одновременно происходит быстрое расширение деятельности по созданию систем МП в Японии (главным образом, основанных на технологии interlingva, разработанной Уивером в конце 40-х годов) таких компаний, как Fujitsu, Hitachi, NEC, Sharp, Toshiba, которые разработали программы для перевода на компьютере; в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; математические тексты переводятся с китайского на английский с помощью CULT (Chinese University of Hong Kong); генератор SEMSYN (Германия) был нацелен на извлечение информации с японской системы Fujitsu ATLAS для перевода названий японских статей на немецкий язык [3, С. 8]. Целый ряд проектов, начатых в это время, впоследствии развились в полноценные коммерческие системы.

Таким образом, компьютеры уверенно и мощно начали завоевывать мир, время их работы, естественно, подешевело, и доступ к ним можно было получить в любую минуту. А значит, МП наконец-то стал экономически выгодным. К тому же в эти и последующие годы совершенствование программ позволило достаточно точно переводить многие виды текстов, однако некоторые проблемы МП остались нерешенными и по сей день.

За период 1978-93 годы в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

Очередной виток исследований в 90-х годов прошлого века связан с колоссальным прогрессом современных персональных компьютеров, появлением сканеров и программ OCR и распространением Интернета, обусловивших реальный спрос на МП. Он вновь стал привлекательной областью вложения капиталов, как для частных инвесторов, так и для государственных структур. Возможности перевода в режиме он-лайн позволяют преодолеть языковой барьер и осуществлять навигацию по иностранным сайтам. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

В настоящее время несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Transparent Language, Cross Language, Trident Software, Atril, Trados, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v., SAPAG и др.

Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: alphaWorks; PROMT’s Online Translator; LogoMedia.net; AltaVista’s Babel Fish Translation Service; Transtar; TranSphere; InfiniT.com.; Google.com.

С начала 1990-х годов на рынок систем персональных компьютеров выходят российские разработчики.

В июле 1990 года на выставке персональных компьютеров Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer’s Machine Translation). Уже в 1992 г. компания «ПРОМТ» выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

В 1992 году «ПРОМТ» выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 году на базе STYLUS создается первая в мире система МП для Windows. В 1994 году вышла версия STYLUS 2.0 для Windows 3.Х/95/NT, а в 1995-1996 годах представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT, одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем МП. В 1997 году, совместно с французской фирмой Softissimo, создается система перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. Затем выпускается целое созвездие программ под новым названием PROMT 98. Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet, и переводчик для корпоративных почтовых систем - PROMT Mail Translator. Для корпоративных клиентов разработаны также специальные серверные решения - корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS). В 2000 году «ПРОМТ» выпустила МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000. В настоящее время создано несколько программ в режиме он-лайн.

Перевод сообщений электронной почты (online translations of e-mails) в режиме он-лайн разработала недавно английская компания Translаtion [3, С. 18].

Важным достижением МП является разработка системы перевода с приложением, обеспечивающим голосовое взаимодействие между человеком и машиной. Здесь необходимо отметить программу IBM «Via Voice Translator (Голосовой переводчик), которая включает в себя систему автоматического перевода и систему голосовой диктовки перевода» [3, С. 16].

Совсем недавно компания - разработчик PticaGov объявила о выпуске бета-версии программы для потокового (в режиме реального времени) перевода речи с более чем тридцати языков мира, включая, русский, английский и китайский. После установки программы любой желающий сможет свободно пообщаться с представителями других стран, даже без базовых знаний иностранных языков.

Программа автоматически переводит и передает собеседнику всю произнесенную информацию, с сохранением голоса, тембра и интонации. И хотя для полноценной работы программы необходима детальная настройка со стороны пользователя (пока отсутствует встроенная поддержка сленговых слов и выражений), разработчики уверены, что программа будет пользоваться огромной популярностью среди самых разных слоев населения, станет одним из самых востребованных программных продуктов в мире.

В 2009 году японская корпорация NEC изобрела очки-переводчик со встроенным микрофоном и мини-компьютером. Как сообщает газета «Иомиури», очки записывают иностранную устную речь, переводят его в текст и проецируют перевод непосредственно на сетчатку глаз, после этого текст по зрительным нервам сразу направляется в мозг. Перевод происходит синхронно. Благодаря этому устройству глаза не устают. И разговор на всевозможных наречиях можно вести часами. Правда, сознаются разработчики, не исключены кое-какие погрешности в переводе [6].

На сегодняшнем рынке информационных технологий существует две технологии автоматизированного перевода информации: МП (Machine Translation, МТ) и Translation Memory (далее - TM). Программы, разработанные на основе технологии Мachine Тranslation (машинный перевод), осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. А технология TM (translation memory) работает по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных. Переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой.

Из всего вышесказанного ясно то, что МП претерпевал подъемы и падения, однако с годами не утратил своей значимости и усиленно развивается. МП совершенствуется с каждым днем, он выполняется быстрее и качественнее. На сегодняшний день МП – это эффективное средство для просмотра и поиска информации на иностранном языке, и именно эта функция является главной при работе в Интернете; во-вторых, МП - это превосходное средство автоматизации получения конечного результата при переводе, и третье, машинный перевод - это уникальный гуманитарный инструмент, позволяющий преодолевать проблемы общения разноязычных наций. А самый главный вывод состоит в том, что многие разработчики осознали, что МП - программное обеспечение, и функциональность систем играет не меньшую роль, чем наличие хорошо разработанной лингвистики.

Все возрастающие потребности в переводе большого потока информации могут выполнить различные типы систем МП. Большинство программ включают традиционные системы МП для крупных организаций, обычно в пределах ограниченной территории; инструменты перевода (с модулями МП как варианты) разработаны для профессиональных переводчиков; дешевые системы персональных компьютеров - для случайных, разовых переводов; системы для получения только сути в целях информационного сбора; использование МП для того, чтобы переводить электронную почту и Веб-страницы; системы для перевода (monolinguals) стандартных сообщений на неизвестные языки; голосовые системы перевода речи; системы, дающие синхронный перевод непосредственно в мозг человека (очки-переводчик).

Несмотря на то, что в основе любой программы-переводчика лежит технология МП, программные продукты разных производителей кардинально отличаются друг от друга качеством перевода и функциональными возможностями. Системы МП дают несовершенный перевод, с различными неточностями, требующими корректировки со стороны переводчика; однако они все же становятся все более широко известными и используемыми, диапазон перевода и возможных типов систем МП станет все более очевидным и будет дальше стимулировать научные исследования для достижения более или менее адекватного перевода.

ЛИТЕРАТУРА

1. Андреев А. Системы машинного перевода как средства повышения эффективности труда переводчика. common@ promt.ru

2. Машинный перевод: исторический обзор и преимущества. common@promt.ru

3. Hutchins W.J. Machine translation: a concise history. Ed. Computer aided translation: Theory and practice. Chan Sin Wai. Chineese University of Hong Kong, 2007.

4. Кристин Демос, Марк Фраунфельдер. 2000: K. D.; 2001-2264: M. F. Перевод системы PROMT XT при участии Е. Андреевой.

5. Винокуров А.А., Чуканов В.О. Новый метод оценки машинного перевода // Информационные технологии и системы. Hardware Software Security. Тенденции и перспективы – Сборник статей. - М., 1997.

6. Материалы http://pskov.kp.ru

К содержанию номера журнала: Вестник КАСУ №2 - 2011

{"REDIRECT_HTTPS":"on","REDIRECT_PORT":"443","REDIRECT_logsa":"%2Fhome%2Fu1440%2Flogs%2Fwww.vestnik-kafu.info-access.log","REDIRECT_logse":"%2Fhome%2Fu1440%2Flogs%2Fwww.vestnik-kafu.info-error.log","REDIRECT_PERL5LIB":".:\/nix\/store\/94h130g00alvmfffawya1k64jqr016x6-perl-union\/lib\/perl5\/site_perl:\/nix\/store\/c5zkkpqnb9w3d2bi90inci715gnxa8y9-perl-5.20.3\/lib\/perl5","REDIRECT_STATUS":"200","HTTPS":"on","PORT":"443","logsa":"%2Fhome%2Fu1440%2Flogs%2Fwww.vestnik-kafu.info-access.log","logse":"%2Fhome%2Fu1440%2Flogs%2Fwww.vestnik-kafu.info-error.log","PERL5LIB":".:\/nix\/store\/94h130g00alvmfffawya1k64jqr016x6-perl-union\/lib\/perl5\/site_perl:\/nix\/store\/c5zkkpqnb9w3d2bi90inci715gnxa8y9-perl-5.20.3\/lib\/perl5","HTTP_HOST":"www.vestnik-kafu.info","HTTP_X_FORWARDED_PROTO":"https","HTTP_X_REAL_IP":"216.73.216.118","HTTP_CONNECTION":"close","HTTP_ACCEPT":"*\/*","HTTP_USER_AGENT":"Mozilla\/5.0 AppleWebKit\/537.36 (KHTML, like Gecko; compatible; ClaudeBot\/1.0; +claudebot@anthropic.com)","HTTP_ACCEPT_ENCODING":"gzip, br, zstd, deflate","HTTP_REFERER":"http:\/\/www.vestnik-kafu.info\/journal\/28\/1160\/","PATH":"\/bin","SERVER_SIGNATURE":"","SERVER_SOFTWARE":"Apache\/2.4.46","SERVER_NAME":"www.vestnik-kafu.info","SERVER_ADDR":"127.0.0.1","SERVER_PORT":"80","REMOTE_ADDR":"216.73.216.118","DOCUMENT_ROOT":"\/home\/u1440\/vestnik-kafu.info","REQUEST_SCHEME":"http","CONTEXT_PREFIX":"","CONTEXT_DOCUMENT_ROOT":"\/home\/u1440\/vestnik-kafu.info","SERVER_ADMIN":"[no address given]","SCRIPT_FILENAME":"\/home\/u1440\/vestnik-kafu.info\/index.php","REMOTE_PORT":"58946","REDIRECT_URL":"\/journal\/28\/1160\/","GATEWAY_INTERFACE":"CGI\/1.1","SERVER_PROTOCOL":"HTTP\/1.1","REQUEST_METHOD":"GET","QUERY_STRING":"","REQUEST_URI":"\/journal\/28\/1160\/","SCRIPT_NAME":"\/index.php","PHP_SELF":"\/index.php","REQUEST_TIME":1777366897,"argv":[],"argc":0}