Вы не гаджет. Манифест
Шрифт:
Однако до недавнего времени компьютеры даже не могли распознать улыбку. Мимика была глубоко упрятана в неточном понятии качества и весьма далеко от другого полюса — абсолютно определенного понятия количества. Ни одна улыбка не похожа на другую, и невозможно сказать, что общего во всех них. Подобие — это субъективное ощущение, интересующее поэтов, но безразличное для разработчиков программного обеспечения.
Хотя и существует множество качеств, которые нельзя передать с помощью программного обеспечения, используя имеющиеся на настоящий момент средства, инженеры наконец-то смогли создать программу, способную распознать улыбку, и написать код, который улавливает хотя бы часть того, что объединяет все улыбки. Данная незапланированная трансформация наших возможностей произошла на рубеже
РАСПОЗНАВАНИЕ МИМИКИ ИМЕЕТ И БОЛЕЕ ГЛУБОКИЙ СМЫСЛ. МНОГИЕ ГОДЫ СУЩЕСТВОВАЛА ЧЕТКАЯ И НЕИЗМЕННАЯ ГРАНЬ МЕЖДУ ТЕМ, ЧТО МОЖНО И ЧЕГО НЕЛЬЗЯ ПРЕДСТАВИТЬ ИЛИ РАСПОЗНАТЬ С ПОМОЩЬЮ КОМПЬЮТЕРА. МОЖНО ПРЕДСТАВИТЬ ОПРЕДЕЛЕННОЕ КОЛИЧЕСТВЕННОЕ ПОНЯТИЕ, НАПРИМЕР ЧИСЛО, НО НЕВОЗМОЖНО ПРЕДСТАВИТЬ ПРИБЛИЗИТЕЛЬНОЕ ЦЕЛОСТНОЕ КАЧЕСТВО, ТАКОЕ КАК ВЫРАЖЕНИЕ ЛИЦА.
Технология распознавания образов и неврология развиваются вместе. Программа, которую я использовал для НАПМИ, служит прекрасным подтверждением этого. Неврология может достаточно быстро подтолкнуть развитие технологии. Изначально данный проект стартовал в 1990-е годы под эгидой ученого-невролога из Университета Южной Калифорнии Кристофа фон дер Мальсбурга, работавшего с группой своих студентов, в частности, с Хартмутом Невеном. (Фон дер Мальсбург более всего известен своим замечательным наблюдением, сделанным в начале 1980-х: синхронное возбуждение нейронов, когда многочисленные нейроны проводят электрические импульсы одновременно, важно для способа функционирования нейронных сетей.)
В данном случае он работал над ответом на вопрос, какие функции выполняются отдельными участками ткани в зрительной коре — той части мозга, которая первой получает изображение с оптических нервов. В настоящее время не существует инструмента, способного детально определить, что происходит в большой сложной нейронной сети, в особенности если последняя является частью живого мозга. Поэтому ученым приходится изыскивать иные пути для проверки своих гипотез о том, что же в ней происходит.
Одним из таких путей является построение компьютерной модели для проверки работы гипотезы. Если гипотеза о том, как функционирует часть мозга, инспирирует создание работающей технологии, эта гипотеза определенно имеет право на существование. Однако неясно, насколько она верна. Вычислительная неврология находится на нечеткой грани научного метода. Казалось бы, программа распознавания мимики сокращает степень неопределенности, присутствующую в человеческой натуре, но фактически она может не сократить, а усилить эту неопределенность. Дело в том, что программа приближает ученых и инженеров к тому состоянию, когда наука постепенно начинает использовать методы, близкие к поэзии и прозе. Правила, используемые программой, несколько неопределенны и останутся таковыми до тех пор, пока мы не получим более точные данные о функциях нейронов в живом мозге.
Впервые мы можем рассказать хотя бы в общих чертах, как мозг распознает образы, встречающиеся в мире, например улыбку, хотя мы и не знаем, как доказать, что наше понимание верно. Вот этот рассказ.
Начну со своего детского воспоминания. Когда я рос в пустыне южного Нью-Мехико, я обратил внимание на полосы, оставляемые на грунтовой дороге проезжающими автомобилями. На дороге появлялись волнистые выпуклые поперечные полосы, как вельветовые рубчики, которые представляли собой естественным образом образующуюся бесконечную последовательность «лежачих полицейских». Расстояние между полосами определялось средней скоростью движения автомобилей по этой дороге.
Когда вы ехали с этой средней скоростью, меньше трясло. Полосы были видны лишь на закате, когда горизонтальные красные солнечные лучи высвечивают все неровности на земле. Днем нужно было ехать осторожно, чтобы не пропустить эту информацию, спрятанную на дороге.
Цифровые алгоритмы должны подходить к проблеме распознавания образов подобным косвенным путем, и им часто приходится применять общую процедуру, немного похожую на проезд виртуальных колес по виртуальным неровностям. Она носит название «преобразование Фурье». Преобразование Фурье определяет объем деятельности, проходящий на конкретной «скорости» (частоте) в блоке цифровой информации.
Представьте себе графический дисплей эквалайзера, имеющийся на аудиопроигрывателях и показывающий интенсивность воспроизведения музыки на разных частотных полосах. Именно преобразование Фурье производит разделение частотных полос.
К сожалению, преобразование Фурье не в состоянии распознать мимику, однако существует связанный с ним, но более сложный алгоритм — фильтр Габора для небольших волн, который нам и поможет. Этот математический процесс идентифицирует отдельные маркеры деятельности на конкретных частотах в конкретных местах, в то время как преобразование Фурье лишь сообщает, какие вообще частоты присутствуют.
Существуют поразительные параллели между теми процессами, что происходят в инжиниринге, и теми, что наблюдаются в человеческом мозгу, включая двойственность Платона/Дарвина: новорожденный младенец способен отследить простое схематическое лицо, но ребенку постарше нужно наблюдать людей, чтобы научиться отличать их друг от друга.
Я рад сообщить, что группа ученых из Хартмута заработала высшие баллы в соревновании по распознаванию лиц, спонсированном правительством. Национальный Институт стандартов и технологии проводит тестирование систем распознавания лиц с той же целью, что лекарств и машин: люди должны знать, кому и чему можно доверять.
И теперь у нас появляются теории — или по крайней мере мы можем кое-что подробно рассказать о том, как мозг распознает объекты этого мира, такие как улыбка, например. Но рот производит гораздо больше движений, чем просто улыбается. Есть ли возможность расширить наш рассказ, чтобы объяснить, что такое слово и как мозг узнает его?
Оказывается, лучше всего подойти к этому вопросу через рассмотрение совершенно иного чувства. Вместо зрения и слуха, возможно, нам полезнее начать с изучения запахов, ощущаемых человеческим носом.
Около двадцати лет я выступал с лекциями об основах виртуальной реальности. Я рассказывал про главные характеристики зрения и слуха, а также осязания и обоняния. В конце лекции начинались вопросы, и одним из первых обычно был вопрос об обонянии: скоро ли у машин виртуальной реальности появится способность чувствовать запахи?
Возможно, но, скорее всего, лишь несколько. Запахи фундаментально отличаются от образов или звуков. Последние могут быть разделены на исходные составляющие, которые относительно просто обработать компьютеру — и мозгу. Видимые цвета — всего лишь слова, состоящие из различной длины световых волн. Любая звуковая волна состоит из множества синусоид, каждая из которых легко может быть описана математически. Каждая похожа на «лежачего полицейского» определенной высоты с грунтовых дорог моего детства.
Иначе говоря, цвета и звуки могут быть описаны с помощью нескольких чисел, широкий спектр цветов и тонов описывается с помощью интерполяции этих чисел. Человеческой сетчатке необходимо воспринимать лишь небольшое количество длин волн или цветов, чтобы наш мозг сумел воспринять все промежуточные. Компьютерная графика работает подобным образом: экран пикселей, каждый из которых способен передать красный, зеленый или синий, может воспроизвести приблизительно все цвета, которые определяет мозг. [23] Музыкальный синтезатор можно представить себе как устройство, генерирующее множество синусовых волн, затем налагающее их друг на друга, чтобы произвести набор звуков.
23
Современные коммерческие экраны не совсем соответствуют человеческому восприятию, поэтому они не могут передать все цвета, которые способны видеть мы, но, возможно, в будущем эти экраны начнут передавать гамму цветов, воспринимаемых человеческим глазом, во всей ее полноте. (Прим. автора)