Тестирование машинного перевода на фармацевтических текстах

Тестирование стоковых моделей машинного перевода Яндекс, Google и Promt в компании «Априори»

Автор — магистр лингвистики Дарья Жукова

Выбор движка МП и САТ-инструмента

На начальном этапе знакомства с машинным переводом мы решили использовать готовый (стоковый) движок машинного перевода (МП). Готовые модели не специализированные, выражаясь профессиональным сленгом, они не имеют доменной адаптации к медицинским текстам или юридическим.

Для тестирования мы выбрали систему Memsource, как один из основных инструментов нашей компании. Весной 2019 года компания принимала участие в пилотном проекте Memsource, где производилось тестирование системы оценки качества машинного перевода (Machine Translation Quality Estimation, MTQE). Основные алгоритмы использования машинного перевода при работе в Memsource были уже знакомы нашим менеджерам и переводчикам, и благодаря этому мы миновали этап обучения сотрудников.

Примечание: в рамках внедрения МП в производственный процесс особенно полезной оказалась функция создания шаблонов проектов в Memsource. Ее использование избавляет отдел переводов от заучивания алгоритма создания переводческого проекта со всеми нюансами (выбор нужного движка МП, настройки анализа, этапов рабочего процесса и так далее). При запуске проекта в перевод через МП менеджеру остается всего лишь выбрать нужный шаблон в выпадающем списке. Подробнее с этой функцией можно ознакомиться тут.

При выборе движков МП из ныне существующего многообразия компания решила довериться статистике Intento и протестировать лидеров перевода в интересном нам языковом направлении: Google и Яндекс. Интерес также вызвал движок NMT Promt.

Алгоритм тестирования

Тестирование заключалось в слепой оценке качества текстов экспертами. Оценивалось качество текстов, переведенных человеком, машинного перевода без постредактирования и машинного перевода с постредактированием. В целях соблюдения принципа слепой оценки выполнялись два условия: эксперты не знали о происхождении перевода и не оценивали тексты, которые сами редактировали. Такой подход позволил сравнить качество машинного и человеческого перевода, сравнить между собой тестируемые движки МП, отследить рост показателей качества перевода после постредактирования, а также определить средние времязатраты на постредактирование текстов после применения каждого из движков МП.

Параметры текстов для тестового проекта

Для тестирования мы выбрали 10 текстов, объединенных тематикой «Фармацевтика» в направлении русский-английский и английский-русский. Предпочтение отдавалось текстам, состоящим из длинных связных предложений, включающим минимальное количество HTML тегов. МП модели до сих пор «спотыкаются» о теги, переводя текст вокруг них без учета контекста. Объем каждого текста составил 1 страницу — около 250 слов или 1,800 знаков с пробелами. Наименование текстов представляло собой код, отображающий необходимые для анализа метаданные (порядковый номер, направление языков, способ перевода, движок МП), но исключающий их расшифровку участниками проекта. Предпроектная подготовка исходного текста (упрощение структуры и форматирования) не проводилась.

Исполнители

Для участия в проекте мы выбрали семерых переводчиков-экспертов в паре русский-английский по тематике «Фармацевтика». Они оценили десять текстов по описанным критериям до и после постредактирования, заполнили формы оценки и выполнили постредактирование.

Метрики и методика оценки качества

Для тестового проекта было решено использовать систему критериев качества, на основе концепции Quality Triangle Metrics[1], которая включает две метрики целостного восприятия текста и показатель качества текста на атомарном уровне (с точки зрения более мелких составляющих текста: сегментов, предложений, слов). Для текстов, предполагающих выполнение постредактирования, также была добавлена метрика трудозатратности редактирования.

Общая адекватность перевода определяет, насколько точно передан смысл исходного текста, не привел ли процесс перевода к каким-либо расхождениям между исходным и целевым текстом. Оценивается по шкале от 1 до 5, где 1 — в переводе значение исходного текста было искажено до неузнаваемости, а 5 — смысл исходного текста был сохранен полностью без каких-либо отклонений.

Общая удобочитаемость перевода определяет, насколько легко читать, воспринимать и понимать переведенный текст. Оценивается по шкале от 1 до 5, где 1 — целевой текст непригоден для чтения и непонятен, представляет собой бессмысленную последовательность слов, а 5 — текст легко читается, смысл текста абсолютно ясен и недвусмыслен, для его понимания не требуется никаких дополнительных размышлений.

Трудозатратность редактирования определяет, сколько усилий потребовалось для постредактирования текста, чтобы сделать его пригодным для дальнейшего использования. Оценивается по шкале от 1 до 5, где 1 — постредактирование потребовало минимум усилий, а 5 — перевод должен быть полностью переписан.

Для оценки качества текста на атомарном уровне мы использовали некоторые критерии системы оценки качества ассоицации LISA, где каждая ошибка оценивается в баллах. Мы остановились на следующей такой классификации ошибок:

  1. Пропущенные понятия/предложения
  2. Добавленные понятия/предложения
  3. Непереведенные понятия
  4. Неверная терминология
  5. Неверный перевод
  6. Порядок слов
  7. Формат
  8. Пунктуация
  9. Стиль

В «Неверный перевод» вошли следующие подкатегории ошибки:

  • неверный лексический эквивалент слова;
  • неверная форма слова (ошибка в использовании времени/формы глагола, неверное согласование слов и т. д.);
  • неверный эквивалент в условиях неоднозначности (например: средства мед. применения = funds вместо medical products);
  • служебные части речи (например: с… по… = with вместо from);
  • имена собственные (названия компаний и/или имена неверно транслитерируются или переводятся буквально вместо транслитерации);
  • аббревиатуры и сокращения (например: мед. (медицинский) = honey);
  • буквальное толкование общеупотребительных идиом;
  • машинные неологизмы (использование в переводе несуществующих слов).

В рамках заполнения формы оценки качества перевода мы предложили экспертам предположить происхождение перевода: перевод человеком, машинный перевод без постредактирования, машинный перевод с постредактированием

Результаты

Целостное восприятие текста

На диаграммах ниже приведены усредненные результаты оценки текстов по критериям целостного восприятия. Любопытно, что перевод, выполненный человеком, эксперты оценили не на максимальный балл (5), а в пределах 4,4–4,8 баллов. Люди не идеальны.

Также отметим, что результаты оценки не позволяют выделить лидера среди поставщиков машинного перевода на основании полученных данных. Общая адекватность и удобочитаемость текстов, переведенных с помощью МП без постредактирования, оценивается в пределах 3,4–3,8 баллов. Трудоемкость редактирования таких текстов оценивается на 3–3,2 балла, что почти в два раза превышает аналогичный показатель для перевода, выполненного человеком.

Постредактирование значительно увеличило показатели адекватности и удобочитаемости. На диаграммах ниже видно, что показатели выросли до 4,0–4,6, что практически соответствует показателям человеческого перевода. Показатель трудозатратности редактирования при этом упал почти вдвое, достигнув диапазона значений 1,3–2, что существенно приближает тексты, переведенные с помощью МП с постредактированием, к человеческому переводу. Постредактирование довело качество почти до уровня профессионального перевода человеком с нуля.

Указанные тенденции верны для всех движков МП, что снова не позволяет выделить безусловного лидера.

Оценка происхождения перевода

Напомним, что кроме оценки качества перевода экспертам предлагалось определить происхождение оцениваемого перевода, полагаясь на собственные ощущения. Текст, переведенный человеком, определили таковым только 40 % экспертов, а в 6 случаях из 10 эксперты ошиблись. Очевидно, они были невысокого мнения о труде своих коллег.

Зато неотредактированный машинный перевод они определили верно.

Самое интересное — как эксперты оценили отредактированный машинный перевод. Google с постредактированием определили как профессиональный человеческий перевод 6 экспертов из 10, Яндекс и Промт — 3 из 10.

Качество на атомарном уровне

Переводы, выполненные человеком, содержали минимальное количество ошибок, что позволяет сделать вывод о высоком показателе атомарного качества таких текстов. Вместе с тем ошибки каждого типа встречались в 2-5 переводах каждого МП движка. Исключение составили пропущенные и добавленные понятия, а также пунктуация (встречается в одном тексте Яндекс и в одном — Promt). Показатели атомарного качества текста одинаково низкие для всех тестируемых движках МП. Мы снова не смогли выявить однозначного лидера по данному критерию.

Для текстов машинного перевода после постредактирования характерно существенное улучшение показателей атомарного качества текста, однако терминологические ошибки и неверный перевод понятий все равно встречались в текстах всех движков МП.

Наиболее частотные типы ошибок приведены на диаграмме ниже.

Высокая частотность терминологических ошибок и ошибок неверного перевода обусловлена использованием стоковых движков МП. Такие движки обучаются на текстах общей тематики и переводят узкоспециализированные тексты без учета отраслевых норм, стандартов и контекста сферы.

Оригинал МП Верный термин
ВЭЖХ VEZHKH HPLC
test solution тестовое решение испытуемый раствор
mid-term pregnant rat среднеспелая крыса крыса на среднем сроке беременности
blank solution пустой растворчистое решение холостой раствор
strong positive response сильный положительный ответ резко-положительный ответ
vessel судно сосуд
clear solution ясное решение прозрачный раствор

Неожиданным результатом стал относительно высокий показатель частотности ошибок форматирования (отсутствие курсива, неверный буквенный регистр, несоблюдение формата подстрочных/надстрочных знаков, добавление пробелов, разный тип кавычек).

Оригинал МП
XXX has not been shown to interact with the activity of hepatic microsomal drug metabolising enzymes in vivo or in vitro. Было показано, что XXX не взаимодействует с активностью ферментов, метаболизирующих печеночные микросомальные лекарственные средства in vivo или in vitro.
(дозы малая — s1 и большая — s2) (doses small — s1 and large — s2)
Период полувыведения (Т1/2) из плазмы составляет 2-3 часа. The half-life (T1/2) of plasma is 2-3 hours.
Методика по определению концентрации XXX в сыворотке яванских макак. Method for determining the concentration of XXX in serum of cynomolgus monkeys.
Нижний предел количественного определения оценен как 75-230 нг/мл. The lower limit of quantification is estimated to be 75-230 ng / ml.
разделяли на аликвоты по 15 мкл was divided into aliquots of 15 μl
см. раздел «Количественное определение» see «quantification of»
XXX, at dose XXX, was tested both with and without metabolic activation for 5 hours and 25 hours, respectively.   XXX в дозах от YYY тестировали как с метаболической активацией, так и без нее в течение 5 часов и 25 часов соответственно.

Недостаточный опыт экспертов в работе с МП привела к увеличению объема и времязатратности постредактирования. Эксперты старались привести машинный перевод к максимально похожему на человеческий. То же касалось и оценки атомарного качества перевода: эксперты отмечали ошибки, допустимые для машинного перевода, например, незначительное нарушение порядка слов, пропуск слова, не влияющий на смысл высказывания и т. д. Излишне шепетильно отнеслись к мелочам, другими словами.

Какие выводы мы сделали для себя?

  • Стоит ли использовать машинный перевод? Определенно да! Инструмент позволит выполнить проекты, скорость выполнения которых критична и МП — единственный способ успеть. МП также подойдет для проектов, конечное качество которых может быть ниже среднего (внутренние документы, перевод «для понимания» и т. д.).
  • Какой МП движок выбрать? На начальном этапе внедрения МП и выстраивания производственного процесса достаточно стокового движка МП. Тестирование показало, что принципиальной разницы в показателях качества МП движков-кандидатов нет. Это позволяет выбрать МП движок по принципу наибольшей выгоды. При успешном внедрении и после проведения аналитики планируется обучение движка.
  • Самая частотная проблема машинного перевода — несоблюдение терминологии и отраслевой специфики. Вполне ожидаемый результат для стоковых «универсальных» МП движков, переводящих фармацевтические тексты.
  • Недостаточная компетенция постредакторов приводит к существенному увеличению объема правок, что сокращает выгоду от использования МП. При планировании внедрения МП необходимо разработать и внедрить обучающий блок для исполнителей.

Как можно было бы улучшить тестирование?

  • При выборе исполнителей представляется более эффективным делать упор не на экспертизу в определенной сфере (в нашем случае — фармацевтика), а на опыт работы с машинным переводом.
  • Каждому критерию атомарного качества текста должен быть присвоен коэффициент. Он может варьироваться в зависимости от тематики текста. Например, в технической документации стилистические ошибки будут иметь меньший вес, чем в маркетинговых текстах. Использование коэффициентов для критериев существенно упростит анализ результатов.
  • Если в компании тестируемая тематика подразделяется на несколько подтематик, для тестирования необходимо подобрать достаточное количество текстов по каждой подтематике. Такой подход позволит учесть особенности структуры, языкового оформления текстов для каждого узкого направления. В результате получим более расширенное понимание о возможностях движков МП и их применимости к переводу тех или иных типов текстов интересующей нас тематики.
  • Использование в качестве материала для тестирования одного проекта (текста), разделенного на несколько отрывков равного объема, увеличит надежность полученных данных. В этом случае влияние структурных и/или языковых различий текстов на показатели качества перевода будет минимизировано.

Об авторе

Дарья Жукова

Руководитель отдела контроля качества в ООО «Априори». Окончила НИУ ВШЭ по направлениям «Фундаментальная и прикладная лингвистика» (бакалавр, 2018) и «Русский язык как иностранный» (магистр, 2020), сертифицированный инструктор Memsource (2019).

Почта: zhukovadash@gmail.com

Тел.: +79616353813

  1. Glazychev L. Reliably Measuring Something That Isn’t Completely Objective: The Quality Triangle Approach to Translation Quality Assurance. Linguistics and Literature Studies 5(2): 122-131, 2017

Поделиться в соцсетях

Комментарии

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Будьте в курсе новостей и технологий переводческого бизнеса
Подпишитесь на рассылку Translationrating