Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет
Шрифт:
Хотя крупнейшие высокотехнологичные компании первыми внедрили приложения для глубокого обучения, инструменты машинного обучения уже широко доступны, и многие другие компании начинают получать от них выгоду. Алекса, голосовой помощник в устройстве Amazon Echo, отвечает на устные запросы благодаря глубокому обучению. Платформа Amazon Web Service (AWS) представила панель инструментов Lex and Polly, которая способствует разработке «естественного» языка на основе автоматического распознавания речи для определения намерений говорящего и преобразования письменного текста в устную речь. Приложения с диалоговым взаимодействием сейчас можно встретить только на малых предприятиях, которые не могут позволить себе нанять экспертов по машинному обучению. Искусственный интеллект помогает удовлетворять покупателей.
Когда компьютер обыграл в шахматы лучших игроков, разве люди перестали в них играть? Наоборот, это только повысило их уровень!
Назад в будущее
Различные формы обучения позволяют работать всем вышеупомянутым приложениям. Кроме того, глубокое обучение – основа и для человеческого интеллекта. Эта книга посвящена двум взаимосвязанным темам – эволюции человеческого мозга и эволюции ИИ. Самое заметное различие: природа потратила миллионы лет на развитие человеческого интеллекта, в то время как ИИ на это понадобилось всего несколько десятилетий – слишком короткий срок даже для культурной эволюции.
Последние достижения глубокого обучения были сделаны не в одночасье, как может показаться по сообщениям в СМИ. История перехода ИИ, основывавшегося на символах, логике и системе правил, к глубокому обучению малоизвестна. Эта книга о появлении и развитии глубокого обучения с моей точки зрения как того, кто стоял у истоков разработки алгоритмов обучения нейронных сетей в 1980-х годах и в качестве президента Фонда Neural Information Processing Systems [44] (NIPS) курировал открытия в области машинного и глубокого обучения в течение последних 30 лет. Долгие годы нас преследовали неудачи, но в конце концов наши настойчивость и терпение были вознаграждены.
44
Нейронные системы обработки информации. Ранее была аббревиатура NIPS, в 2018 году ее сменили на NeurIPS. Так как данная книга была написана незадолго до переименования, в оригинале и в библиографических ссылках употребляется аббревиатура NIPS, которую мы и будем использовать далее во избежание путаницы. – Прим. ред.
Глава 2. Перерождение искусственного интеллекта
Марвин Минский – блестящий математик и основатель Лаборатории искусственного интеллекта в МТИ в США. Основатели задают направление всей отрасли, и в 1960-х годах эта лаборатория стала цитаделью разума. У Минского за минуты рождалось огромное количество идей, и он мог убедить любого, что его мнение является верным, даже если здравый смысл говорил об обратном. Я восхищался его умом и смелостью, но был не согласен с его взглядами на ИИ.
Детская игра?
Blocks World – хороший пример проекта, созданного Лабораторией искусственного интеллекта МТИ в 1960-х годах. Если объяснять просто, Blocks World состоял из прямоугольных строительных блоков, которые можно было сложить в различных сочетаниях (рис. 2.1). Основной целью было написать программу, которая умела бы обрабатывать запросы вроде: «Найди большой желтый блок и положи его на красный блок», – а также продумывать шаги, необходимые для выполнения задания роботизированной рукой. Это похоже на детскую игру, однако требовалось написать сложную программу, причем настолько громоздкую, что было очень тяжело устранять неполадки. Программа была заброшена, когда студент Терри Виноград, написавший программу, покинул МТИ. Простая на первый взгляд программа оказалась головоломной. Но даже если бы ее удалось реализовать, все равно она не нашла бы применения вне лаборатории, ведь в реальном мире у объектов разные форма, размер и вес, а освещение может сильно отличаться в зависимости от места и времени, что сильно затрудняет распознавание.
В 1960-х годах Лаборатория ИИ получила крупный грант от Министерства обороны США на создание робота, играющего в пинг-понг. Я однажды услышал историю о том, что ученый, руководивший проектом, якобы забыл попросить деньги, необходимые на создание для робота зрительной системы, и потому поручил это дело аспиранту в качестве летнего проекта. При случае я спросил у Марвина Минского, правда ли это? Он резко ответил, что я ошибаюсь: «Мы поручили задачу студенту-бакалавру». Документ из архива МТИ подтверждает его слова (рис. 2.2) [45] .
45
По словам Михаэлы Эннис, студентки МТИ в 2016 году, «историю о том, что старшекурсникам МТИ поручили создать компьютерную зрительную систему в качестве летнего проекта, ежегодно рассказывает профессор Винстон. Также он говорит, что его студентом был Сассман». – Прим. авт.
Рис. 2.1. Марвин Минский наблюдает за роботом, укладывающим блоки. 1968 год. Blocks World был упрощенной моделью того, как мы взаимодействуем с окружающим миром. Но все оказалось гораздо сложнее, чем кто-либо предполагал, и проблема не была решена, пока это не сделало глубокое обучение в 2016 году
То, что казалось простым на первый взгляд, стало своего рода зыбучим песком для целого поколения ученых, работающих над созданием компьютерного зрения.
Почему компьютерное зрение – трудная задача?
Мы, как правило, без проблем определяем, что за объект перед нами, независимо от его расположения, размера, ориентации в пространстве и освещенности. Одна из первых идей, касающихся компьютерного зрения, предлагала сопоставлять шаблон предмета с его пиксельным изображением. Но это не сработало, потому что если поменять положение одного и того же объекта, то его изображения не совпадут. Пример: фотография двух птиц на рис. 2.3. Если вы наложите изображение одной птицы на изображение другой, то какая-то его часть совпадет, но остальная – нет. В то же время оно может быть удачно совмещено с изображением птицы, относящейся к другому виду, но находящейся в такой же позе.
Рис. 2.2. Первая страница летнего проекта по созданию машинного зрения в МТИ. dspace.mit.edu/handle/1721.1/6125
Рис. 2.3. Две зебровые амадины, изображения которых надо совместить. Мы без труда определим, что это птицы, относящиеся к одному и тому же виду. Но из-за разного положения на снимке их сложно сравнивать с помощью шаблона, хотя у них схожие идентификационные признаки
Ученые добились прогресса, когда сосредоточились не на шаблонах, а на схожих чертах. Например, орнитологи должны профессионально определять разные виды птиц, так как некоторые могут отличаться лишь отдельными неявными чертами. В популярной прикладной книге, помогающей идентифицировать птиц, дается всего одна фотография каждой птицы и множество схематичных рисунков, на которых обозначены ключевые различия (рис. 2.4) [46] . Хорошая особенность – та, которая присутствует только у одного вида птиц, но практика показывает, что схожие признаки можно обнаружить у нескольких видов. Таким образом, единственный способ идентифицировать птицу – определить уникальный набор различных признаков: цвет оперения, полосы над глазами, вкрапления на крыльях. Когда не получается распознать птиц по этим чертам, ученые обращаются к их пению. Рисунки отличительных особенностей птиц гораздо информативнее, так как фотографии переполнены лишней информацией.
46
Roger Peterson, Guy Mountfort and P.A.D. Hollom, Field Guide to the Birds of Britain and Europe. Peterson Field Guides Series, 2001.
Рис. 2.4. Изображение отличительного признака, по которому можно определить вид птицы среди схожих. Стрелки указывают на участки оперения, которые особенно важны для того, чтобы распознать вид птицы семейства соловьиных: некоторые из них бросаются в глаза, другие нечеткие; одни длинные, другие короткие. Из книги Роджера Петерсона, Гайя Маунтфорта и Филипа Холлома «Справочник птиц Британии и Европы»
Проблема такого подхода в том, что очень непросто разработать анализаторы признаков для сотен тысяч объектов, и даже с большим набором признаков программе будет трудно различить объекты на изображении, если те частично закрыты, и понять, где заканчивается один объект и начинается другой.