О неточных расчетах fuzzy-совпадений

Вместе с текстом на перевод вы можете получить результат анализа повторяющихся сегментов. Или захотите его сделать самостоятельно. Ну, со 100 %-ными совпадениями и новыми сегментами вроде бы все понятно, но как считаются fuzzy matches?

Авторы блога GlobalVision приводят интересный пример. Какой процент совпадения будет у этих двух сегментов:

The lazy brown fox jumped over the quick brown dog.
The lazy brown dog jumped over the quick brown fox.

В строке из 50 символов 46 остались неизменными, что соответствует совпадению в 92%. Но мы переводим не посимвольно! Для переводчика в исходном сегменте поменялись два слова из 10 — величина 80 % выглядит более реалистичной. И это еще без учета возможных изменений во флексиях других слов.

Это (наряду с возможностью обсчета) следует помнить при предварительной оценке времени, которое потребуется на выполнение проекта. На 95 %-ное совпадение уйдет в два, а не в двадцать раз меньше времени, чем на новый сегмент :-)



 


2 Responses to “О неточных расчетах fuzzy-совпадений”

  1. Михаил Says:

    На 95 %-ное совпадение уйдет в два, а не в двадцать раз меньше времени, чем на новый сегмент :-)

    Максим, а если в новом сегменте был термин, перевод которого вы искали минут 10? Тогда на 95 %-ное совпадение уйдет в двадцать раз меньше времени ;)

  2. Maxim Says:

    Будем считать, что глоссарий терминов идет в комплекте с текстом на перевод :-)

Leave a Reply


Learn More

Related Posts: The Translator's Guide to the Galaxy , Грамотные интерфейсы в понимании Microsoft , Продолжаем бороться с категорией рода в русском , Угадываем переводчика по ttx-файлу , NSA SIGINT Style and Usage Manual , СМИ переименовали кнопку «Нравится» , П. Палажченко о либеральных идеях , Что такое key take-away? , О переводе телефонных номеров , Не спешите отказываться от большого тестового задания , Об однородности терминологии, стопроцентных совпадениях и Autopropagate