Чтение онлайн

на главную

Жанры

Эксперт № 19 (2013)

Эксперт Эксперт Журнал

Шрифт:

Data science требует видеть в данных отображение реальных процессов и уметь вычленять закономерности. Например, при панике, связанной с птичьим гриппом, карту его распространения построила компания Google, весьма далекая от медицины. Она обработала данные запросов о симптомах на разных стадиях развития болезни, что помогло ответить на вопросы, когда, где и в каком количестве люди заболеют.

Рентабельные головоломки

Пока анализ больших массивов данных стал неотъемлемой частью операционной деятельности в немногих отраслях, таких как телекоммуникации, интернет-реклама, социальные сети, страхование. «На наших технологиях моделируется геном человека, на них же работают, например, Skype, NYSE, NASDAQ, Euronext, T-Mobile, Fox Interactive Media. Но это все уникальные клиенты, тиражными пока стали лишь решения для работы с большими данными для сотовых операторов и банков. И те и другие работают на массовых рынках в условиях очень жесткой конкуренции, что вынуждает постоянно искать

новые решения для сохранения доходности. Например, на основе данных об абонентах, их звонках, местоположении можно легко построить профиль каждого клиента, его реальную социальную сеть. Это помогает формировать программы лояльности, защиты от оттока клиентов, подбора оптимальных продуктов», — объясняет Сергей Золотарев , руководитель направления «Большие данные» в «EMC Россия и СНГ».

По оценке IDC, в 2012 году объем рынка систем хранения данных составил 8,6 млрд долларов, при этом за год в мире было сгенерировано 2,43 зеттабайта информации, что в два раза больше, чем в 2010 году (1,2 Зб). И перспективы у рынка заманчивые: «В корпоративной практике пока используется лишь 15–20 процентов доступных данных, прежде всего те, что имеются в табличной форме. Остальное — неструктурированные данные, но именно они растут в мире опережающими темпами. Среди них много информационного мусора: фото, видео, не применимые в бизнес-практике. Но важную часть неструктурированных данных составляют цифровые следы деятельности электронных устройств. Каждое из них имеет свой протокол работы и формат log-файла, что затрудняет их анализ. Но из них можно извлечь рациональное зерно», — считает Сергей Золотарев.

Действительно, устройства, незаметно окружившие нас, способны рассказать намного больше, чем может представить себе незадачливый обыватель. Например, многое можно вычислить, имея лишь доступ к показателям обычных квартирных счетчиков электричества и воды. Этого достаточно не только для того, чтобы узнать, сколько людей живет в квартире и когда их не бывает дома (уже одно это может заинтересовать многих — от воров до проповедников). По данным этих двух счетчиков можно диагностировать диарею и запоры, уровень дохода, бессонницу и телевизионные пристрастия.

Но пока рано ждать от жэков событийно обусловленной доставки слабительных и свежей прессы по технологии «точно в срок». Хотя технических проблем с использованием больших данных нынче нет даже в среднем бизнесе. Стопором является нехватка кадров и непонимание руководством компаний возможностей их применения. На большинстве российских рынков еще не настолько сильна конкуренция, чтобы data science стала фактором выживания для многих. Но ситуация быстро меняется. «Когда два года назад я рассказывал о больших данных, то видел серьезный скепсис. Российские компании считали это уделом западных интернет-гигантов. Сейчас уже вся тройка сотовых операторов, крупнейшие банки и телеком-компании либо уже внедрили, либо внедряют подобные решения. Это как с визитом к стоматологу: пугает, но, как ни откладывай, жизнь заставит, — убежден Сергей Золотарев. — Рынок больших данных начинался с закрытых решений — “черных ящиков” для клиента, включающих в себя как железо, так и софт. На наш взгляд, будущее за открытыми платформами, которые могут быть развернуты на любом стандартном сервере. Кроме того, меняется сама парадигма работы с данными. Прежде в фокусе внимания были приложения, выполняющие какую-то одну законченную функцию, но из-за этого компания оказывалась вооружена рядом несовместимых программ, а передача данных из одной в другую, например чтобы сопоставить геолокационные данные клиента с историей его покупок, оказывалась затруднительной. В ближайшее время стоит ожидать серьезного прорыва по мере перехода к парадигме, ориентированной на хранение и организацию данных. Подбор конкретного специализированного приложения становится вторичным».

Мнение о том, что большие данные — это адронный коллайдер и интернет-гиганты, все еще распространено. Хотя данные для анализа можно найти и в небольшом магазинчике. «Веб-мастерам давно известны “тепловые карты” сайтов, позволяющие оптимизировать удобство пользовательского интерфейса. Но эта история была перенесена и в офлайн. Почти каждый торговый центр сейчас оснащен камерами слежения. Был написан софт, распознающий передвижение покупателей и составляющий карты их движения с учетом времени, которое они провели у каждой полки, — в итоге получаются “тепловые карты” торгового зала. Пропустив через этот софт сотни гигабайт видеозаписей, можно выявить “слепые зоны” магазина, временные закономерности, а также оценить эффективность изменений в выкладке товара, — рассказывает Андрей Себрант. — Истории о том, что неявные данные будут неожиданным образом интерпретироваться для предложения новых товаров клиентам, будут только множиться. По мере того как мы все больше оцифровываем нашу жизнь, офлайновые магазины научатся вести себя так же адаптивно, как и веб-страницы, меняя выкладку по дням и часам. Этот мир, возможно, консерваторам будет не очень приятен — слишком адаптивные системы многих пугают».

Большие данные идут к вам

Легендой о точном попадании стала история про американскую школьницу, которой местная торговая сеть присылала скидочные купоны на детскую одежду и кроватки. Ее отец устроил скандал, но потом ему пришлось извиниться перед торговцами. Оказывается, он не

знал о предстоящем пополнении семейства. Зато торговцы по перемене вкусов покупательницы могут предсказать не только беременность, но и примерные сроки рождения ребенка.

Не каждому хочется оказаться в прицеле таргетирования. Поэтому регулярно в общественном поле возникают скандалы с очередным нарушением приватности. И чаще всего в фокусе гнева оказываются интернет-компании, собирающие информацию о посещении сайтов при помощи специальных log-файлов — куков. «Куки имеют давнюю офлайновую предысторию. Только в России не особо вдумчивые торговые сети пытаются использовать карты лояльности именно для поддержания лояльности, рассчитывая, что скидки в пять процентов будет достаточно для удержания клиентов. Во всем остальном мире карточки постоянных покупателей появились как инструмент сбора информации и отслеживания поведения клиентов. Database marketing возник еще в 70–80-е годы прошлого века, когда интернета не было, для оптимизации работы крупных торговых сетей. Но весь анализ куков аналогичен математике, связанной с отслеживанием карт лояльности. Например, стиранию куков в браузере соответствует потеря карты в офлайновом мире. Именно из-за вытеснения конкурирующими методами по мере распространения оплаты банковскими картами и онлайн-торговли популярность карт лояльности как маркетингового инструмента снижается», — рассказывает Андрей Себрант.

Data science в ее нынешнем виде — лишь временный суррогат, результат технических ограничений. Пока приходится ограничиваться анализом отдельных сегментов и групп, сами методы еще весьма грубы: раз спросив в поисковике про летние шины, приходится наблюдать объявления о них до следующей зимы. Но идеал data science — тотальная слежка и анализ поведения каждого потребителя для манипуляции его выбором.

Наш мир и дальше будет покрываться сенсорами, оцифровывающими нашу жизнь. Вскоре каждый мобильник может оказаться оснащенным датчиками, фиксирующими параметры нашего здоровья: пульс, давление, кожные реакции. Когда это станет стандартом обеспечения здравоохранения и каждый из нас будет включен в постоянный мониторинг, скрыть имитацию оргазма уже не удастся никому. Но куда больше, чем физиология, человека индивидуализируют его тексты и мысли. Если с мыслями работать только учатся, то методы анализа любых по объему массивов текста уже отработаны. В потоке электронных писем пока фильтруют только спам и потенциальных террористов. Министерство внутренней безопасности США даже раскрывает длинный перечень ключевых слов, по которым осуществляется мониторинг интернета: от «Аль-Каиды» и «теракта» до «исламистов» и «свинины».

Скорее всего, культурные нормы, определяющие границы личного, и дальше будут постепенно размываться во благо торжества общества потребления, в котором удастся прогнозировать индивидуальное поведение каждого. Мы уже заплатили приватностью за безопасность и удобство: камеры слежения, мобильные телефоны, банковские карты. С большой вероятностью мы расстанемся и с ее остатками в обмен на здоровье и экономическое благополучие. Ведь тотальный контроль и прогнозирование не только ускорят рост ВВП, но и позволят практически свести на нет структурные кризисы. А самое главное, позволят окончательно выстроить совершенное общество потребления. Безусловно, статистические методы далеко не так совершенны с точки зрения качества прогнозирования, как понимание причинно-следственных связей. Но в чуть более отдаленной перспективе бурный рост нейронаук сможет компенсировать этот недостаток, даже если не удастся смоделировать работу мозга, — первые попытки читать мысли уже можно считать удачными.

В марте 2012 года администрация Барака Обамы объявила о программе поддержки исследований и разработок в области Big Data стоимостью более чем 200 млн долларов, приходящихся на Национальный научный фонд, Национальный институт здоровья, министерство обороны и энергетики, Геологическую службу США. В числе поддержанных — проект создания открытого доступа к 1000 расшифрованных геномов общим объемом 200 терабайт.

График 1

Общий объем цифровых данных в мире

График 2

Доля автоматически сгенерированных данных

Зачем бомбят Сирию

Геворг Мирзаян

Уничтожив сирийский конвой и военные объекты, Израиль не стремится к войне с Сирией: Тель-Авив желает победы обеим сторонам конфликта

Фото: AP

Израиль и Сирия пребывают на грани войны. Причиной обострения стала серия авиаударов, которые в начале мая Израиль нанес по сирийской территории. 3 мая был атакован конвой, предположительно перевозивший груз иранских ракет Fateh-110 в Ливан через Сирию. А 5 мая удару подверглись окрестности Дамаска — самолеты израильских ВВС уничтожили военный центр под столицей и несколько других армейских объектов. «Итогом израильского нападения стала смерть множества мучеников (по последним данным, до 300 человек. — Эксперт” ), большое количество раненых сирийских граждан, полное разрушение военных объектов, а также гражданских районов, расположенных рядом с ними», — заявил официальный Дамаск. Внешние источники утверждают, что в число жертв попали и иранские военные советники (причем находились они именно на объектах, а не в конвое).

Поделиться:
Популярные книги

Совок 5

Агарев Вадим
5. Совок
Фантастика:
детективная фантастика
попаданцы
альтернативная история
6.20
рейтинг книги
Совок 5

Тринадцатый II

NikL
2. Видящий смерть
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Тринадцатый II

Крестоносец

Ланцов Михаил Алексеевич
7. Помещик
Фантастика:
героическая фантастика
попаданцы
альтернативная история
5.00
рейтинг книги
Крестоносец

Идеальный мир для Лекаря 14

Сапфир Олег
14. Лекарь
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 14

Кодекс Крови. Книга V

Борзых М.
5. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга V

Ты предал нашу семью

Рей Полина
2. Предатели
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Ты предал нашу семью

Авиатор: назад в СССР 11

Дорин Михаил
11. Покоряя небо
Фантастика:
альтернативная история
5.00
рейтинг книги
Авиатор: назад в СССР 11

Менталист. Революция

Еслер Андрей
3. Выиграть у времени
Фантастика:
боевая фантастика
5.48
рейтинг книги
Менталист. Революция

Лорд Системы

Токсик Саша
1. Лорд Системы
Фантастика:
фэнтези
попаданцы
рпг
4.00
рейтинг книги
Лорд Системы

Без шансов

Семенов Павел
2. Пробуждение Системы
Фантастика:
боевая фантастика
рпг
постапокалипсис
5.00
рейтинг книги
Без шансов

Болотник 2

Панченко Андрей Алексеевич
2. Болотник
Фантастика:
попаданцы
альтернативная история
6.25
рейтинг книги
Болотник 2

Стеллар. Трибут

Прокофьев Роман Юрьевич
2. Стеллар
Фантастика:
боевая фантастика
рпг
8.75
рейтинг книги
Стеллар. Трибут

Краш-тест для майора

Рам Янка
3. Серьёзные мальчики в форме
Любовные романы:
современные любовные романы
эро литература
6.25
рейтинг книги
Краш-тест для майора

Подаренная чёрному дракону

Лунёва Мария
Любовные романы:
любовно-фантастические романы
7.07
рейтинг книги
Подаренная чёрному дракону