Журнал «Компьютерра» № 11 от 20 марта 2007 года
Шрифт:
Специально не дописываю последнюю тысячу знаков «Голубятни», оставляя место для лишнего скриншота!
ТЕХНОЛОГИИ: Великие раскопки и великие вызовы
Автор: Леонид Левкович-Маслюк
Наука об извлечении содержания из гигантских массивов данных становится все более изощренной, а задачи, за которые берутся мастера такого поиска, — все более человечными.
ЦИФРА
Агентство IDC прогнозирует, что объем цифровой информации в мире достигнет тысячи экзабайт к 2010 году,
то есть по сравнению
миллиард гигабайт).
Прочесыванием гор информации в поисках скрытых в них закономерностей люди занимаются уже многие века. Но только с появлением компьютеров, баз данных, локальных и глобальных сетей понятие «больших массивов» обрело нынешний смысл, а их вдумчивое сканирование, когда-то занимавшее лишь шпионов и каббалистов-мистиков, позже — социологов культуры и теоретиков медиа с их страстью к контент-анализу, превратилось в индустрию. Причем индустрию высокотехнологичную даже на фоне инфотеха. Ведь найти смысловые связи в новостной заметке, правильно ответить на элементарный вопрос — о чем она, к какому тематическому классу ее причислить, — сложнейшая, как оказалось, задача для машины. С другой стороны, даже простая для машины, но неподъемная и невыносимо тоскливая для человека задача механического сканирования текста с одновременной сортировкой имен, названий, ключевых слов часто оказывается очень и очень востребованной. А если еще и выйти за пределы мира текстов, попытаться научить компьютер понимать, о чем люди говорят (хотя бы в телефонных переговорах с туристическим бюро), что они показывают друг другу на фотографиях и видеолентах, — станет ясно, что колоссальный спрос на результаты таких исследований сталкивается с колоссальными трудностями в их реализации.
Вот где-то между этими молотом и наковальней и зародился современный датамайнинг (data mining, буквально — раскопки данных, или добыча чего-то из данных), в котором научные и индустриальные компоненты трудно разделить. В 1998 году научную зрелость этой отрасли подтвердило создание Special Interest Group (SIG), Группы особых интересов, в рамках авторитетной международной организации по компьютерным исследованиям ACM (Association for Computing Machinery, Ассоциация по вычислительным машинам).
Что такое SIG? Вспомним о самой популярной из подобных групп — SIGGRAPH. Ежегодные мегаконференции, на которых делаются доклады, читаются лекции и демонстрируются высшие достижения компьютерной графики, анимации и сопутствующей всему этому математики, других наук и технологий, известны далеко за пределами сообщества специалистов. Другие SIG’и (сейчас их тридцать четыре, в том числе SIGART [искусственный интеллект], SIGMOD [базы данных], SIGPLAN [языки программирования], SIGSOFT [разработка ПО] и др.) не так знамениты среди широкой публики, но заслужили уважение специалистов, а проводимые ими конференции, издаваемые журналы являются индикаторами качества в своих областях.
На наши вопросы о теории и практике датамайнинга ответил Григорий Пятецкий-Шапиро (Gregory Piatetsky-Shapiro), основатель и председатель SIGKDD — Группы особых интересов, посвященной «открытию знаний в данных» (Knowledge Discovery in Data).
ОЦЕНКА
Удачные статистические модели позволили выявить потенциальные «налоговые убежища» обеспеченных американцев объемом в сотни миллионов долларов.
Какие новые разделы датамайнинга (ДМ) появились
— Одно из замечательных новых полей исследований — анализ связей (link analysis). Приложения весьма обширны, от биоинформатики до выявления преступлений, от маркетинга до исследования социальных сетей. Вокруг Web 2.0 сейчас столько шума именно потому, что он очень эффективно использует веб как инструмент социальных связей, — а это придает все большую значимость анализу этих связей.
Огромный прогресс виден и в майнинге текста (большинство программных комплексов [suites] для датамайнинга теперь включают компоненты для текст-майнинга), а также в майнинге мультимедиа. И то и другое — прекрасные области для исследований.
Датамайнинг широко применяется в больших компаниях, особенно работающих в электронной коммерции. Amazon, Yahoo — примеры таких компаний (мой коллега Усама Файяд занимает должность руководителя по обработке данных [Chief Data Officer] в Yahoo, он первым в индустрии е-коммерции получил такой титул). Вот неполный список областей применения датамайнинга:
• реклама;
• биоинформатика;
• связь с клиентами (CRM);
• маркетинг;
• выявление мошенничества (fraud detection);
• е-коммерция;
• здравоохранение;
• инвестиции/ценные бумаги;
• управление производством;
• развлечения и спорт;
• телекоммуникации;
• изучение веба.
Если говорить об успехах индустрии датамайнинга, то самый яркий пример здесь — Google. Oба его сооснователя в Стэнфорде занимались исследованиями в этой области, и ранняя история самого Google связана с датамайнингом.
Рекомендации на сайте Amazon.com («покупатели, купившие/искавшие/посмотревшие X, купили также Z») привели к огромному росту продаж. Высококачественные рекомендации такого типа обеспечили успех компании Netflix, занимающейся прокатом видео.
Например, если вам понравилась знаменитая абсурдистская комедия «Монти Пайтон и священный Грааль» («Monty Python and the Holy Grail»), то вы получите от Netflix рекомендацию посмотреть «This is Spinal Tap» ["Пункция спинномозговой жидкости"], известную пародию на документальный фильм о гастролях экстравагантной рок-группы. Netflix придает такое значение датамайнингу, что в прошлом году учредила приз в миллион долларов за улучшение алгоритма выработки рекомендаций (см. врезку).
Как развивалась ваша карьера? Как вы заинтересовались датамайнингом?
— С детства у меня была склонность к математике, очевидно унаследованная от папы, крупного математика Ильи Пятецкого-Шапиро. Живя в Москве, я учился в известной Второй математической школе, принимал участие в математических олимпиадах — но поскольку перенял от папы лишь малую часть математического таланта, то уже в школе понял, что чистая математика не для меня. Я открыл для себя компьютеры в 1974 году, на первом курсе в Технионе, когда эмигрировал в Израиль, и сразу заинтересовался ими. Меня особенно увлекали вопросы искусственного интеллекта. Первую интересную программу я написал в 1974 году на языке АПЛ — она была предназначена для игры в «морской бой». Сыграв с ней одну партию, я безоговорочно уступил своей же программе. Желание продолжать игру исчезло — зато усилилось желание писать программы. Потом была учеба в аспирантуре в США, тоже с концентрацией на задачах искусственного интеллекта. Темой диссертации стало приложение искусственного интеллекта к работе с базами данных.