Гигабайты власти
Шрифт:
Трудно сказать, какие еще изыскания и эксперименты разведслужб на поприще манипуляций изображением произвели на американские власти решающий эффект, но в конце 1999 года в недрах клинтоновской госадминистрации США родилась новость несколько иного рода. Было официально объявлено, что в министерстве обороны изучили вопросы применимости международного права к «информационным операциям», практикуемым военными, и пришли к выводу, что сгенерированные с помощью компьютера изображения в определенных обстоятельствах могут стать военным преступлением. Буквально, было сказано следующее: «[хотя] Используя технику компьютерного морфинга, имеется возможность создавать образ главы вражеского государства, информирующего свои войска о заключении перемирия или соглашения о прекращении огня», однако если это фабрикация, то подобный трюк «был бы военным преступлением». По всем параметрам подобный
Осталось неизвестным, какие именно конкретные причины или факты побудили военно-политическое руководство к подобным заявлениям. Но зато достоверно известно другое. В первых числах января 2000 г. германская газета «Франкфуртер Рундшау» сообщила, что видеолента НАТО, демонстрировавшаяся в предыдущем году по телевидению с целью оправдания убийства по меньшей мере 14 гражданских лиц в Косово, на самом деле была сфабрикована. Погибшие люди находились в поезде, который уничтожили в апреле 1999 г. самолеты НАТО, бомбя мост через реку Южная Морава. В оправдание убийства мирных жителей, представители военного блока тогда заявили, что поезд двигался слишком быстро, и траектории запущенных с самолетов ракет изменить было уже невозможно. Для документального подтверждения были продемонстрированы видеоленты, снимавшиеся телекамерами, установленными в боеголовках двух ракет, уничтоживших мост и поезд [FPOO].
В действительности же, как было установлено сотрудниками немецкой газетой, эти видеоленты демонстрировались со скоростью, в три раза превышающей реальную. Представители командования НАТО в Брюсселе были вынуждены признать данный факт, объяснив происшедшее «технической проблемой». Но самым пикантным в этой технической проблеме оказалось то, что счетчик хронометража, постоянно «щелкающий» в кадре видеоленты, показывал при этом вовсе не утроенную, а вполне нормальную скорость. Понятно, что никто из военных не пожелал вдаваться в подробности того, каким образом в видеолентах могут происходить столь удивительные метаморфозы. Но, учитывая возможности компьютерных технологий, подмена какого-то там счетчика – задача просто тривиальная.
Сегодня успешно решаются задачи куда более сложные. На конференции Siggraph-2002, традиционно собирающей мировую элиту компьютерной графики и анимации, группа разработчиков из Массачусетского технологического института (МТИ) представила новую программу обработки видеозаписи, позволяющую имитировать произнесение человеком слов и фраз, которые в действительности тот никогда не говорил.
Нечто подобное делалось другими и раньше. Например, в конце 1990-х разработчики технологии Video Rewrite, совместно созданной в университете Беркли и компании Interval, обработали кинохронику с записью одного из выступлений президента Джона Кеннеди в 1962 году. В результате этой цифровой модификации речь президента пополнилась довольно забавными фразами, например, «Я никогда не встречался с Форестом Гампом» [EG02].
Главная же особенность новой программы МТИ – небывалая прежде реалистичность морфинга, в результате чего зрители, принимавшие участие в тестировании, оказались уже не в состоянии отличать реальную запись от сгенерированной компьютером. Кроме того, нынешняя техника компьютерной анимации обычно требует ручной доработки при «склеивании» комбинируемых фрагментов изображения говорящего, в то время как технология МТИ уже практически полностью автоматизирована.
Программа построена на основе самообучающейся системы искусственного интеллекта, которая после анализа 2-4-минутного видеоролика (необходимый для работы минимум) выделяет кадры, представляющие полный спектр возможных движений рта и окружающих его областей. После чего компьютер становится способен синтезировать любое выражение лица как комбинацию из примерно полусотни «базовых» лиц объекта. Затем программа просматривает всю имеющуюся видеозапись, обучаясь тому, как лицо отображает произнесение каждого звука и как оно двигается
Разработчики признают, что в настоящее время высокая реалистичность образа достигается лишь на протяжении одной-двух фраз, после чего становится заметным отсутствие эмоциональности в лице говорящего. Однако уже ведутся работы по созданию и более сложной модели, способной обучаться выражению базовых эмоций человека. Так что генерация эмоциональной окраски и все более достоверного звукового сопровождения синтезируемых сцен – дело лишь времени. Новая программа разработчиков МТИ уже применяется на телевидении для формирования более правдоподобной мимики при дубляже читаемых диктором новостей с английского языка на испанский. Потенциал подобной технологии в кино и компьютерных играх поистине неисчерпаем, поскольку позволяет реалистично возродить на экране любого из уже ушедших из жизни актеров или знаменитых людей.
Яркий тому пример – инициатива южнокорейского продюсера Чул Шина, возвращающего на киноэкраны легендарного Брюса Ли, героя целой серии культовых фильмов 1970-х годов о мастерах восточных единоборств. Скоропостижная смерть от кровоизлияния в мозг оборвала карьеру артиста в 1973 году, когда после картин «Кулаки ярости» и «Путь Дракона» он находился в самом зените славы. Несмотря на прошедшие годы, фильмы с Брюсом Ли по-прежнему пользуются популярностью у зрителей Азии, Америки и Европы. Поэтому в 2001 году Чул Шин объявил о начале съемок новой картины, в которой благодаря современным компьютерным технологиям в главной роли вновь будет выступать легендарный артист. Сгенерированный компьютером персонаж будет на равных участвовать в действии вместе с живыми актерами и актрисами. Для этого тщательно подобран список азиатских актеров-спортсменов, чрезвычайно похоже имитирующих манеру боя и движений Брюса Ли. С помощью хорошо известной в компьютерной анимации технологии «захвата движения» с максимальной реалистичностью моделируются все сцены схваток «цифрового Ли». Что же касается речи, то предполагается, что за Брюса Ли будет говорить актер с похожим голосом, а окончательное доведение тембра и прочих голосовых нюансов до оригинального звучания возьмет на себя программа синтеза речи [MS01].
Отдельного упоминания заслуживает и нынешний уровень наиболее продвинутых программ синтеза речи. С лета 2001 года научно-исследовательский центр ATT Labs занимается коммерческими продажами своего программного обеспечения Natural Voices (www.naturalvoices.att.com). По свидетельству экспертов, на сегодняшний день у этой программы нет конкурентов в правдоподобности воспроизведения тембра, нюансов интонирования и прочих особенностей натурального человеческого голоса. При этом программа, основная цель которой – перевод печатного текста в синтезированную речь, способна говорить не только заранее выбранным голосом, но и обучаться воспроизведению хорошо всем знакомых голосов знаменитостей, как ныне живущих, так и давно ушедших из жизни [АВОЗ].
На примере Natural Voices уже очевидно, что клонирование человеческого голоса достигло такого уровня совершенства, когда на слух разница с оригиналом становится неощутима. В своей «базовой» версии это программное обеспечение вышло на рынок с тремя голосами профессиональных актеров, двух мужчин и одной женщины. Затем были добавлены еще два голоса– «ребенка» и «бабушки». Активно ведутся работы над версиями программы для разных языков и диалектов. Уже выпущены варианты «естественных голосов» на испанском, английском, французском и британском английском языках. Пока что комплект такого программного обеспечения стоит несколько тысяч долларов, и ориентировано оно на корпоративных клиентов, таких как телефонные компании; фирмы, занимающиеся созданием программ для чтения разного рода текстовых файлов; изготовители встраиваемых автоматизированных речевых устройств и тому подобное. Ясно, что перед бизнесом открываются захватывающие перспективы – привлечение толп новых клиентов с помощью легко узнаваемых голосов самых знаменитых актеров, телеведущих или политиков, бодро читающих нужные тексты абсолютно произвольного содержания. Но тут же встают многочисленные «скользкие» вопросы. Кто владеет правами на голос знаменитости? Наряду с полностью синтезированными актерами, проникающими ныне в кинематограф, не вытеснят ли синтезированные голоса живых артистов? Конечно же, всплывает сложнейшая проблема с имитацией голоса в мошеннических операциях, поскольку в телефонных переговорах начинается полное размытие границ между «настоящим» и «поддельным».