Logrus

Русский Українська English Deutsch 中文 Français
v
Знания

Журнал

О проекте

Свежий номер

Избранные статьи

Архив

Машинный перевод

Память переводов

Наши публикации

Грабли

Полезные ссылки

Вопрос - Ответ


Отзывы

Коллеги из Логруса!  Спасибо вам огромное за качественную работу в сжатые сроки! С вами очень приятно сотрудничать!
Антон



Как ускорить локализацию многоязычных приложений?

Бернар Нормье (Bernard Normier)

Важной и дорогостоящей частью любого многоязычного проекта является создание и пополнение терминологических баз данных. До сих пор этот процесс был настоящим камнем преткновения на пути к получению качественного перевода, независимо от того, выполнялся ли он профессиональными переводчиками или системами автоматического перевода (например, системой SYSTRAN).
 
В этой статье речь пойдёт о платформе, позволяющей быстро создавать терминологические базы данных для многоязычных приложений, используя сочетание статистических и лингвистических средств для извлечения двуязычной терминологии из корпуса текстов. Эта технология ускоряет процесс создания релевантных терминологических баз данных с помощью утверждённых терминов оригинала и перевода, характерных для определённой области и соответствующих контексту клиента.
 
Новизна и преимущество данного метода заключаются в его эффективности и высоком качестве результатов. Термины оригинала и перевода извлекаются из такого корпуса текстов, который с наибольшей вероятностью содержит необходимые сведения. В отличие от других решений, представленных на рынке, эта система извлечения двуязычной терминологии не требует синхронизации корпуса текстов. Время, необходимое для создания терминологической базы данных, сокращается в два и более раз.
 
Терминологические базы знаний
 
Лексическая база данных для определённого языка обычно включает в себя три уровня: ядро (как правило, около 3000 часто встречающихся терминов), базовый, или стандартный, язык (несколько десятков тысяч терминов), а также дополнения по областям (терминологический слой), которые могут насчитывать десятки и даже сотни тысяч терминов.
 
В системе имеются базовые словари, охватывающие две первые категории, и терминологические дополнения для ряда ключевых технических областей. Терминологические базы на основе этих словарей создаются и пополняются автоматически, в три этапа. На первом этапе составляется корпус текстов, характерных для данной области (на языках оригинала и перевода). На втором происходит извлечение терминов из корпуса текстов для языка оригинала. Наконец, на третьем этапе с помощью межъязыкового поиска по корпусу текстов на языке перевода определяются возможные варианты перевода. Полученная в результате двуязычная терминологическая база может затем использоваться профессиональными переводчиками или импортироваться в программу машинного перевода (например, в систему SYSTRAN).
Составление корпуса текстов, характерных для определённой области, является исключительно важным этапом, поскольку качество вариантов перевода зависит от адекватности выбранного корпуса текстов (как для языка оригинала, так и для языка перевода). По нашим оценкам, чтобы обеспечить приемлемый объём терминологии и уровень производительности, требуется не менее 40 МБ текста на языке оригинала и приблизительно в два раза больше текста на языке перевода. При этом, чтобы терминология нужной области была представлена в должной мере, материалы, включённые в корпус текстов, должны быть разнообразными.
 
В большинстве случаев у клиента уже имеется корпус текстов, относящихся к нужной области, будь то внутренняя корпоративная документация (патенты, статьи, публикации компании) или веб-страницы (электронные публикации, совещания, специализированные и корпоративные веб-сайты, блоги и т. п.). Также могут использоваться терминологические базы, связанные с деятельностью компании (как на одном языке, так и двуязычные).
 
Если у клиента нет корпуса текстов или имеющегося корпуса текстов недостаточно, используется проверенный метод для создания специального корпуса.
 
Эта процедура начинается с составления ограниченного набора характерных для области терминов на языке оригинала. Затем извлекается первый набор документов или веб-страниц, содержащих эти термины (вернее, значимые поднаборы из этих наборов). Статистическое средство позволяет выявить другие термины, характерные для этой области, и с помощью итерации получить сравнительно большой корпус текстов. Кроме того, можно использовать другие доступные корпусы текстов, публикации (политические, новостные и т. п.), многоязычные веб-сайты и другие источники.
 
Специалисты по конкретному языку перевода оценивают такие ключевые параметры каждого корпуса текстов, как область, уровень языка (технический, общий, официальный и т. д.), кодирование, формат и соответствие корпуса текущему проекту.
 
Программная платформа автоматически извлекает термины на языке оригинала. Средство для извлечения терминологии проводит лингвистический анализ всех предложений корпуса и определяет типичные языковые структуры, или «модели».
 
В следующей таблице приведены некоторые примеры.

Модель
Пример
прилагательное + существительное
laptop computer
существительное + предлог + существительное
state of the art
существительное + предлог + прилагательное + существительное
increase of the minimum wage

Возможные варианты перевода фильтруются на основании дополнительных статистических критериев, чтобы в итоге оставались лишь наиболее подходящие термины.
 
К примеру, во внимание принимается такой элемент, как «широта охвата» для каждого термина в корпусе. Если корпус составлен на основании нескольких сотен веб-сайтов, а термин, даже часто используемый, появляется только на одном веб-сайте, он не будет сохранён.
 
Получение перевода является наиболее важной стадией процесса и проходит в три этапа: с термином на языке оригинала соотносится множество возможных вариантов перевода, подсчитывается число вхождений разных вариантов для корпуса текстов на языке перевода и, наконец, выбирается наилучший вариант перевода (или, в исключительных случаях, несколько вариантов).
 
Создание множества возможных вариантов перевода
 
На этом этапе для создания всех возможных комбинаций переводов на основании сведений, содержащихся в существующем словаре и терминологических базах, используется ядро межъязыкового поиска управления знаниями (Knowledge Management, KM).
 
Например, на основании следующих данных

Термин на языке оригинала (английский язык)
Возможный перевод (французский язык)
term
condition
term
terme
term
vocable
use
utilisation
use
exercice
use
usage
use
fonction

с помощью межъязыкового поиска KM создаются следующие комбинации:

Термин на языке оригинала (английский язык)
Расчет вариантов перевода (французский язык)
Читаемый вариант
term of use
condition + de + utilisation
condition d'utilisation
term of use
condition + de + exercice
condition d'exercice
term of use
condition + de + usage
condition d'usage
term of use
condition + de + fonction
condition de fonction
term of use
terme + de + utilisation
terme d'utilisation
term of use
terme + de + exercice
terme d'exercice
term of use
terme + de + usage
terme d'usage
term of use
terme + de + fonction
terme de fonction
term of use
vocable+ de + utilisation
vocable d'utilisation
term of use
vocable + de + exercice
vocable d'exercice
term of use
vocable + de + usage
vocable d'usage
term of use
vocable + de + fonction
vocable de fonction

Среди возможных вариантов перевода может оказаться сам английский термин, а также предлагаемые переводы слов, отсутствующие в словаре, но являющиеся тем не менее возможными вариантами перевода. Последнее особенно касается технических областей, где применяется много неологизмов (например, во французском языке: productisation, browseur, boguer и bugger).
 
Обратите внимание, что модель английского языка <существительное + of + существительное> даёт при переводе на французский модель <существительное + de + существительное>. Кроме того, при переводе могут быть утверждены разные предлоги. Например, результатом перевода английской модели <существительное + существительное> на французский язык может быть модель <существительное + de + существительное> или модель <существительное + en + существительное>.
 
Такая процедура позволяет получить правильные термины, например в области медицины:
 
АНГЛ. cancer mortality: ФР. mortalité par cancer
АНГЛ. children's hospital: ФР. hôpital pour enfant
АНГЛ. flu shot: ФР. vaccin contre la grippe
 
Подсчёт числа вхождений варианта перевода для корпуса текстов на языке перевода
 
Под этим подразумевается подсчёт всех встречающихся в тексте случаев появления варианта перевода.
Так, для предыдущего примера могут быть получены следующие результаты:

Вариант перевода (французский язык)
Число вхождений в корпусе текстов на языке перевода (французский язык)
condition d'utilisation
228
condition d'exercice
6
condition d'usage
3
condition de fonction
0
terme d'utilisation
1
terme d'exercice
0
terme d'usage
1
terme de fonction
1
vocable d'utilisation
0
vocable d'exercice
0
vocable d'usage
0
vocable de fonction
0
term of use
3

На втором этапе подсчитывается количество вхождений варианта перевода.
 
На третьем этапе (этапе отбора) в расчёт принимаются следующие элементы: относительная частота вхождений вариантов перевода (более часто встречающиеся варианты сохраняются, менее часто – исключаются); абсолютная частота появления вариантов перевода (исключаются варианты, которые почти не употребляются); частота появления вариантов перевода относительно частоты появления исходного термина (исключаются варианты, частота появления которых на языке перевода значительно ниже частоты появления исходного термина в корпусе текстов на языке оригинала).
 
При отборе наиболее подходящего варианта или вариантов перевода учитываются те же три элемента.
В первом примере будет сохранён единственный вариант перевода:

Термин на языке оригинала (английский язык)
Выбранный вариант перевода (французский язык)
term of use
condition d'utilisation

Определение эффективности технологии SYSTRAN
 
Проект, осуществлённый компанией Lingway для компании SYSTRAN, занимающейся автоматическим переводом, включал создание трёх крупных терминологических баз для таких областей, как вычислительная техника (18 тыс. терминов), медицина (27 тыс. терминов) и финансы (6 тыс. терминов). Эти терминологические базы были автоматически экспортированы в формат SYSTRAN и интегрированы в решение SYSTRAN 5.0 Professional Premium; при этом управление качеством обеспечивалось группами SYSTRAN.
 
Компания SYSTRAN, интегрировав созданные компанией Lingway терминологические базы в своё переводческое программное обеспечение, провела сравнительный анализ эффективности при помощи лингвистической платформы SYSTRAN Linguistic Platform (SLP). С помощью этой платформы отображались следующие элементы оцениваемого корпуса текстов: предложения на языке оригинала; машинный перевод с использованием новой терминологической базы; машинный перевод без использования новой терминологической базы; сравнение переводов.
 
Система SLP также позволила профессиональным переводчикам оценить повышение или снижение качества перевода, полученного с помощью новой терминологической базы, или отметить совпадение результатов. После этого с помощью платформы SLP были рассчитаны процентные показатели снижения и повышения качества, а также эквивалентности перевода для корпуса текстов в целом.
 
Повышение качества перевода
 
Первоначальные результаты внедрения системы извлечения терминологии показали значительное повышение качества перевода (+49%).
 
Небольшое снижение качества было отмечено на первой стадии анализа. Такое снижение часто бывает связано с методом оценки, при котором приоритет получают термины, имеющиеся в традиционных словарях, тогда как для программного средства приоритетными являются термины, содержащиеся в корпусе текстов на языке перевода. Например, предлагаемый термин driver Linux получает более низкую оценку, чем термин module de gestion de riphérique de Linux. Последний вариант перевода является более громоздким; что более важно, употребление этого варианта перевода не нашло подтверждения в корпусе текстов.
 
Некоторое снижение качества связано также с особенностями работы программы машинного перевода (добавленные пары терминов могут блокировать некоторые правила программы).
Ещё одна трудность, в настоящий момент уже разрешённая, была связана с проблемой согласованности форм, в частности с парами, в которых не совпадало число (единственное или множественное).
После ликвидации побочных явлений были получены следующие результаты:

Категория
Процент
Повышение качества
53%
Снижение качества
3%
Эквивалентное качество
44%

Преимущества нового метода очевидны: использование терминологических баз позволяет значительно улучшить качество перевода.
 
Примеры результатов
 
В следующей таблице приведены примеры результатов, полученных для перевода в области вычислительной техники. Термины на французском языке, предоставленные построителем терминологии, обозначены серым цветом.

Исходный текст
[Site Info] [Privacy Policy] [Advertise] (Freq:1153)
Перевод SYSTRAN + терминология Lingway
[Infos du site] [Politique de confidentialité] [annoncez]
«Обычный» перевод SYSTRAN
[Information de site] [politique d'intimité] [annoncez]
Сравнение
[Information de [Infos du site] [politique d'intimité] [Politique de confidentialité] [annoncez]

Обратите внимание, что в первом примере слово confidentialité, выбранное с помощью нового метода, намного больше соответствует контексту вычислительной техники, чем слово intimité.
 
В заключение следует отметить, что с помощью этих методов и средств можно автоматически или полуавтоматически составлять терминологические базы данных, что обеспечивает экономию времени и снижение затрат на 50–75%.
 
Применение корпуса текстов обеспечивает соответствие утверждённых терминов оригинала и перевода. Кроме того, это решение предлагает средство для определения степени достоверности перевода при оценке качества. Использование веб-корпусов позволяет систематически производить поиск обновлённого контента в Интернете и получать новейшую терминологию, что особенно важно для технических областей.





Новости
Все новости