Журнал «Компьютерра» № 18 от 16 мая 2006 года
Шрифт:
Для подобного рода работ в переводческой отрасли прижилась другая технология автоматизации процесса. Правда, прижилась в основном за границей, о чем можно судить даже по разнобою в переводах названия технологии translation memory. Кроме лобовой «переводческой памяти» встречается «накопительный перевод», «автоматизированный перевод» и даже «пул переводов». Подробная статья на эту тему со множеством ссылок есть в Wikipedia
В общих чертах технология сводится к следующим процедурам. Вы загружаете исходный текст в программу переводческой памяти. Программа сегментирует текст, извлекает из своей базы ранее переведенных текстов совпадающие сегменты и выдает частично переведенный текст. Главное отличие от машинного перевода состоит в том, что базу переводческой памяти составляют сегменты из текстов, переведенных человеком. В качестве же сегмента или элемента переводческой памяти чаще всего берется предложение. Отсюда и концепция translation memory, которая основана
Тем не менее по мере ускорения процессов глобализации спрос на программы переводческой памяти растет. Цены на полные версии многих программ translation memory колеблются от 500 до 2500 долларов и обусловлены не столько технологией, сколько многообразием поддерживаемых форматов переводимой документации. В качестве примеров можно упомянуть STAR Transit и Deja Vu .
Если же перед переводчиком не стоит задача переводить во всех мыслимых форматах, он может выбрать относительно дешевую программу WordFast, которая, в отличие от вышеупомянутых пакетов, не имеет собственной оболочки, а встраивается в Word.
Мало-помалу отношение к этой технологии меняется и в России. Например, компания Promt включила в свою последнюю версию машинного «переводчика» функцию translation memory. Еще одним свидетельством растущего спроса на такого рода программы стало событие, не оставшееся без внимания переводческого сообщества. В июле прошлого года компания SDL объединилась с разработчиком самой популярной программы переводческой памяти Trados. По мере обострения конкурентной борьбы меняется и идеология переводческой деятельности. Все чаще говорят не столько о переводе документации на язык страны назначения, сколько о локализации продукта на десятки языков. Став крупнейшим игроком на рынке средств локализации, компания SDL заговорила уже о стратегии управления глобальными данными (Global Information Management).
Впрочем, тема развития систем переводческой памяти и вообще средств автоматизации переводческого труда достойна не одной статьи в компьютерном журнале и привлечения участников разных сторон этого процесса. Меня же со своей колокольни интересует чисто практический вопрос: где место переводчика в процессе локализации? Начнем с того, что наше занятие еще долго будет оставаться очень трудоемким. В то же время перевод занимает в среднем лишь 40% общих расходов на локализацию, а остальное приходится на долю таких операций, как обработка файлов, форматирование, управление базами данных терминов и переводческой памяти, управление проектом, утверждение готового материала в стране целевого языка. Переводчику на этом конвейере обычно достается файл в формате программы переводческой памяти, где уже учтены предыдущие переводы по этому и подобным проектам и встроена терминологическая база. Некоторые особо продвинутые агентства разделяют работу до конца и не заставляют переводчика овладевать несвойственными ему навыками. В этом случае обработка документа в translation memory выполняется в агентстве, а переводчик получает в файлах Word сегментированный текст, не требующий форматирования и размеченный по степени совпадения с предыдущими переводами, а также глоссарий терминов по данному проекту. Результат работы переводчика снова вставляется в ту же программу для обновления баз данных переводческой памяти и терминологии. Таким образом, круг замыкается, и переводчик возвращается к идеальному варианту работы в текстовом редакторе, имея возможность целиком и полностью сосредоточиться на лингвистических задачах.
Так что я пока не вижу в компьютере серьезного конкурента живому переводчику. Не обойтись им без нас. К сожалению.
ТЕХНОЛОГИИ: Из света в тень
Автор: Максим Стеклов
Нечасто случается, что технология, призванная решить определенные проблемы, не только их не решает, но и усугубляет. Но именно это случилось с технологией изображений с расширенным динамическим диапазоном (HDRI). Изначально предназначенная для повышения реалистичности фотографий и 3D-изображений, HDRI неожиданно стала удобным инструментом для творческого самовыражения и интересной игрушкой для многих любителей фотографии. Фотографы с удовольствием экспериментируют с новой технологией, превращая банальные пейзажи в изображения, напоминающие скорее картины, чем фотоснимки.
А если переведенные в пространство RGB HDR-кадры меньше похожи на реальность, чем обычные карточки с заваленными тенями и пересвеченными лицами... Наверное, это проблемы реальности.
Прежде чем перейти к рассказу о HDRI, необходимо вкратце рассказать, как записываются, хранятся и отображаются цифровые изображения сегодня. А также о том, как фиксирует изображение человеческий глаз.
В модели RGB любой цвет кодируется тройкой целых чисел, описывающих соответственно интенсивность зеленого, синего или красного каналов. Например, черный цвет может быть представлен как (0, 0, 0), а белый – находящийся на противоположном конце шкалы – как (255, 255, 255). Таким образом, для отображения любой картинки у нас есть 16,7 млн. оттенков, а сама картинка называется восьмибитной (или 24-битной), потому что на каждый канал нам требуется 8 бит, а каждая точка изображения кодируется с помощью трех 8-битных чисел. Динамический диапазон (здесь: отношение максимальной интенсивности цвета к минимальной) такой цветовой модели составляет 28:1, или 256:1.
Для 16-битных RGB-изображений (когда на каждый канал отводится уже не один байт, а два) теоретический динамический диапазон заметно больше и составляет 216:1, или 65536:1. Это впечатляет, если не вспоминать, что человеческое зрение способно улавливать освещение от 10-6 кд/кв. м до 108 кд/кв. м , то есть имеет абсолютный диапазон 1014:1 (правда, человеческий глаз не может регистрировать свет во всем диапазоне одновременно; максимальный охват составляет от 10000 до 30000 к 1).
Принципиальная недостаточность цветового пространства RGB усугубляется скромными аппаратными возможностями современных сенсоров и отображающих устройств. Реальная чувствительность сенсоров в цифровых фотокамерах, как правило, не превышает 1000:1 (теоретически она может быть и выше, в зависимости от матрицы, но ограничена сверху шумовыми эффектами). На выходе камера может давать хоть 12-битный, хоть 112-битный RAW, однако на динамический диапазон записанного в файл изображения это не повлияет, поскольку в нем просто физически нет необходимой информации.
Мониторов, способных корректно отобразить 48-битную картинку с заявленным динамическим диапазоном, скажем, 10000:1, сегодня также не существует (за редкими и дорогими исключениями, но о них ниже).
Дополнительный минус модели RGB (и, например, CMYK) в том, что она виртуальна и не привязана к реальным значениям, то есть является физически некорректной – и не может быть приведена к корректной модели без потерь, раз уж все показатели в ней задаются целыми числами, и их набор ограничен. Исправляет эту ситуацию схема HDRI (High Dynamic Range Imaging), в которой на каждый цветовой канал отводится 16 или 32 бита, а характеристики задаются не целыми, а вещественными числами, что позволяет полностью описывать доступный человеческому зрению диапазон с нужным уровнем детализации. Все остальные модели (включая RGB) называют моделями с низким динамическим диапазоном (Low Dynamic Range).
(Так получилось, что словосочетание динамический диапазон в контексте HDR зачастую используется для обозначения разных, хотя и близких понятий – и для яркостного диапазона сцены, и для описания диапазона цветовой модели, и как синоним фотографической широты датчика. Это вносит некоторую путаницу.)
Изначально главными пропагандистами и пользователями HDRI были специалисты по трехмерной графике (см., например, статью «Фотореализм» в «КТ» #628), поскольку использование HDR позволяет без потерь и ошибок рассчитать освещенность созданной сцены. И пусть большую часть этой информации отобразить не удастся – даже те крохи, которые дойдут до зрителя, все равно создадут должный эффект и сделают искусственную картинку более реалистичной. И сегодня аббревиатура HDR в применении к компьютерной графике означает прежде всего повышенную фотореалистичность изображения, близость к тому, что можно получить с помощью фотоаппарата или кинокамеры.
Как ни странно, применение схожей технологии в фотографии дает обратный результат. У фотографов, экспериментирующих с HDR, получаются безумно красивые снимки, не страдающие излишней реалистичностью. Собственно, первое, что приходит в голову при знакомстве с HDRI-фотографиями, – как же здорово эти люди научились рисовать в 3D.
Любой, кто хотя бы раз держал в руках фотоаппарат, сталкивался с тем, что при неверно подобранной экспозиции одни снимки получаются слишком темными, а другие – слишком светлыми. Однако даже оптимально выставленные параметры экспозиции не помогут, если у сцены, которую мы хотим снять, слишком широкий яркостный диапазон: или хорошо получатся детали, лежащие в тени, но засветятся светлые участки, или будут достоверно переданы светлые участки, но потеряются те, которые освещены недостаточно.