Журнал «Компьютерра» №44 от 29 ноября 2005 года
Шрифт:
Показательно, что «Дельта банк» перешел на схему кредитования по скрытым ставкам буквально на днях, 10 ноября 2005 года. До этого он нарвасадаты чурался, предпочитая в отношениях с населением цивилизованную миссионерскую позицию: 25% годовых без всяких подводных камней. Сгубила, однако, жадность: все вокруг лохов разводят по-черному, а мы чем хуже?
Одно успокаивает: маниакальная шейлокова лавочка не сегодня-завтра накроется. Насобирают кредитоманы долгов по самое небалуйся и через пару месяцев исправных платежей захлебнутся от непосильного пятидесятипроцентного оброка. Вот под эти грядущие события банки-то и закладываются. Полагаю, сегодняшняя несуразная ставка как раз дисконтирует ожидаемую лавину невозвратов.
Если кто решил, что сегодняшнее культур-повидло не представляет интереса для IT-тусовки, он глубоко ошибается: на входе в торговый комплекс «Горбушка» расположена целая вереница банковских лавочек, оформляющих со скоростью пулемета кредиты страждущим любителям софтверно-хардверных технологий. Очереди там жирные, сочные, на зависть прочей торгующей горбушечной братии! В очередях томится в предвкушении скорого обладания предметами своих железячных вожделений по большей части «наша» аудитория. Вот к ней-то я и обращаюсь: читайте внимательно, что подписываете, чтобы потом не хлопать лупетками от непомерности долгового ярма!
От полезного к приятному: сегодня будем мусолить один из вечных лейтмотивов «Голубятен» - синтезаторы речи, тем более что подоспел достойный повод - явление народу первого серьезного русскоязычного голоса Katerina. Полное название продукта ScanSoft RealSpeak Katerina 22Khz.
Впервые о системах речевого синтеза и движках TTS (Text-to-Speech) я писал пять лет назад, на самой «голубятинской» заре, и с тех пор не забываю вбивать эволюционные колышки: на смену убогому «дяде Сёме» (встроенный в Windows голос Miscrosoft Sam), не ботающему по-русски, пришел TTS-движок от французской Elan Speech со своим сиплым «Коляном» (голос Nikolai), а затем и близкие ему по качеству «Ирина», «Ольга» и «Вячеслав» от белорусского Sakrament. Продукты эти вполне терпимы, если не знать о существовании AT amp;T Natural Voices - настоящего 16-килогерцового синтезатора речи, на фоне которого русскоязычные говоруны сразу кукожатся и жухнут. И вдруг «Катерина»!
Самой большой загадкой для меня стало происхождение говорящей подруги: ведь компания ScanSoft (на днях переименованная в Nuance Communications), похоже, самостоятельно ничего не разрабатывает, а действует через так называемую партнерскую систему, скупая технологии на стороне. Под зонтиком ScanSoft продаются популярные Dragon Dictate (NaturallySpeaking), PaperPort, OmniPage, PDF Converter - программы разноплановые и изначально произведенные в иных местах. TTS-движок ScanSoft называется RealSpeak, и кроме «Катерины» в нем есть еще тридцать голосов, говорящих на двадцати четырех языках. Прослушивая «Катерину» и с восторгом отмечая неоспоримые достоинства этого синтезатора речи, я никак, однако, не мог отделаться от дежавю: легкие щелчки на стыке слов, неожиданно возникающие на ровном месте ритмические перебивки… Откуда взялись эти родимые пятна? Вестимо откуда - из TTS Sakrament! Быстро связался со своими белорусскими друзьями, те, однако, разуверили: к «Катерине» рук не прилагали! Было дело, ScanSoft подкатывал с предложением прикупить по-пиндосски (то бишь за копейки) кое-какие разработки «Сакрамента», однако, получив от ворот поворот в стиле чегеварствующего Батьки, отправился восвояси.
Ну да бог с ним, с происхождением, главное, что «Катерина» и в самом деле хороша. Непосредственно ScanSoft свой движок не продает, а предоставляет по лицензии разработчикам так называемых читалок (TTS Tools по-научному), поэтому первым делом я ринулся на сайт компании NextUp - создателя TextAloud, которым комплектовался мой AT amp;T Natural Voices. И не прогадал: «Катерину» отпускают за 20 долларов (плюс сама читалка $29,95;
Надо сказать, цены у NextUp.com божеские: 16-килогерцовые английские, немецкие, французские Natural Voices - по 25 долларов за штуку. Столько же стоят и хиты сезона, предельно реалистичные 16 Khz SAPI5-говоруны Kate и Paul от Neospeach. Одна незадача: американские процессинговые системы кредитных карт (единственный доступный на сайте вариант платежа) принципиально не работают с российскими IP-адресами.
Когда я поведал Кену Уайту из NextUp.com о троекратной попытке приобрести «Катерину» по американской кредитной карте, что увенчалось тройным списанием средств со счета (25+25+25=75 долларов[Разумеется, деньги через неделю были разморожены, хотя все равно неприятно]) при одновременном уведомлении об ошибке и отказе выдать товар (ну разумеется: карта американская, а запрос идет из России!), тот расчувствовался и просто подарил мне этот речевой синтезатор, честно предупредив, что с TextAloud «Катерина» не работает!
Так оно и оказалось: даже после третьей бутылки водки русскоязычный человек произносит слова быстрее, чем это делала «Катерина» в «читалке» NextUp.com, причем ни скорость, ни высота голоса не поддаются никакой регулировке. Судя по всему, реализация SAPI5 в этом конкретном синтезаторе RealSpeak конфликтует по каким-то параметрам с TextAloud. Ну да не беда: первый же отечественный бесплатный «чтец»[Слово «читалка» не подходит по сюжетным соображениям] Cool Reader лег на «Катерину» как родной (рис. 2, 3).
Именно в последней версии Cool Reader - 2.00.52a от 2 ноября - реализована корректная поддержка SAPI5-движков ScanSoft, поэтому «Катерина» отлично настраивается и регулируется. Единственное ограничение: заточен Cool Reader исключительно под чтение электронных книг (понимает форматы html, rtf, doc, txt, fb2 и автоматически распознает русские кодировки dos, win, koi-8, а также latin, utf-8 и unicode), поэтому ему невозможно скормить содержимое буфера обмена, как в TextAloud.
Заключительный аккорд - о качестве звучания «Катерины». Оно хорошее. Твердая «четверка». Залогом тому служит уже размер дистрибутива - 45 мегабайт, что десятикратно превышает аллофонную базу «Коляна» от Elan Speech. Другое дело, что до настоящего 16-килогерцового продукта все равно еще далеко: размер каждого голоса AT amp;T Natural Voices - 600 мегабайт. Кстати, так и не сумел разобраться в цифрах из полного названия «Катерины»: ScanSoft Katerina Full 22 Khz. О каких килогерцах идет речь? Надеюсь, кто-нибудь из профессионалов откликнется и просветит. В любом случае, «Катерина» - это первый в истории русский голос, напоминающий больше человека, чем робота. Прорыв грандиозный!
Линки, помянутые в «Голубятне», вы найдете на домашней странице internettrading.net/guru.
ОКНО ДИАЛОГА:
9 рота: аварийная посадка
Зритель «9 роты», приходя отдохнуть в кинозал с внушительным стаканом попкорна, ближе к концу фильма (если, конечно, не заснет к середине) увидит замечательный спецэффект: в грузовой самолет попадает ракета. После чего дымящий лайнер, теряя хвостовое оперение и кусок фюзеляжа, совершает вынужденную посадку.