Кибервойны ХХI века. О чем умолчал Эдвард Сноуден
Шрифт:
В самом деле, определение через большие затраты и трудность обработки может указывать не только на специфические характеристики данных, но и на неэффективность применяемых технологий. По сути, это определение ничего не говорит о том, чем Большие Данные отличаются от просто данных. Казалось бы, штука эта безобидная и носит исключительно академический характер. Однако, на практике это не так. Когда лица, принимающие решения, возможно и не обладающие глубокими профессиональными познаниями, но в подавляющем числе наделенные недюжинным здравым смыслом, встречаются с подобными определениями, у них возникает подозрение, что они имеют дело с очередной маркетинговой уловкой. Суть этой уловки
Чтобы разобраться с тем, что такое Большие Данные и в чем принципиальная новизна их технологий, надо для начала отследить время возникновения термина. Сам по себе термин «Большие Данные» появился пять лет назад после публикации специального выпуска ведущего американского научного журнала Nature, целиком посвященного этой теме. Затем тема, как по команде, была растиражирована сначала специализированными IT-изданиями, а затем подхвачена элитными СМИ, типа Foreign Affairs, Wall Street Journal и т. п.
Что же произошло пять лет назад? Есть ли какие-то документальные доказательства, что мы имеем дело с чем-то принципиально новым, а не с хорошо продуманной маркетинговой кампанией по принуждению правительств и корпораций к покупке нового, дорогостоящего софта? Ведь таких примеров в истории IT-индустрии было немало. В данном случае твердые документальные доказательства перехода некоего Рубикона имеют место быть.
Во-первых, он связан с достижением интернетом уровня контентной зрелости и переходом в фазу ярко выраженного экспоненциального развития. Эта фаза получила название «информационный взрыв». Примерно, с 2008 года объем информации, вновь генерируемой в сети, стал удваиваться в течение примерно полуторадвух лет. На сегодняшний день можно привести следующие ключевые характеристики информационного взрыва.
По данным компании Cisco, объем сгенерированных данных в 2012 году составил 2,8 зеттабайт и увеличится до 40 зеттабайт к 2020 г. Примерно треть передаваемых данных составляют автоматически сгенерированные данные, т. е. управляющие сигналы и информация, характеризующие работу машин, оборудования, устройств, присоединенных к интернету, или к интернету вещей. Причем с каждым годом доля интернета вещей или как его сегодня еще называют «интернета всего» растет в общем объеме мировых информационных потоков. На 40 % ежегодно увеличивается объем корпоративной информации, передаваемой и хранящейся в сети интернет.
Число пользователей интернета в мире к концу 2013 года составило 2,7 млрд. человек, или 39 % населения земли, а к 2016 году эта доля составит 65–75 % населения по данным Центра новостей ООН. Как ожидается, количество корпоративных пользователей интернета во всем мире увеличится с 1,6 миллиарда в 2011 году до 2,3 миллиарда в 2016 году.
Во-вторых, примерно в этот период времени появились и стали доступны для корпоративных пользователей принципиально новые IT-решения, позволяющие в режиме реального времени обрабатывать практически безразмерные массивы данных самого различного формата. Причем эти решения сразу же стали реализовываться не только как программные платформы, устанавливаемые на серверы, но и как облачные вычисления, где от организации не требовалось наличия дорогостоящей инфраструктуры компьютерного железа.
В-третьих, к концу нулевых годов западные, прежде всего, американские поведенческие и когнитивные науки, с одной стороны получили широкое признание бизнес-сообщества и государств, а с другой — из фазы исследований и разработок перешли в стадию производства эффективных технологий. Косвенным показателем этого процесса стал тот факт, что в течение нулевых годов три виднейших представителя поведенческих наук: Д. Канеман, Дж. Акерлоф и Р. Шиллер получили Нобелевские премии по экономике. Экономика была выбрана лишь потому, что Нобелевских премий в сфере наук о человеке просто не существует.
Теперь давайте вдумаемся, чем же, по сути, является интернет. Причем без разницы, о каком интернете мы говорим — об интернете людей или об интернете вещей. Не надо обладать глубокими техническими знаниями, чтобы понять, что фактически интернет является хранилищем, своеобразным архивом следов человеческой деятельности. Причем, не только той деятельности, которая реализована в конкретных поступках, действиях, событиях, но и архивом намерений, мнений, мыслей и отношений. Не зря автор знаменитых бестселлеров Маршалл Смит уподобил интернет толще земли, в которой можно обнаружить след доисторического животного, умершего миллионы лет назад. По сути, в интернете ничего не исчезает. Даже популярные в постсноуденов-скую эпоху различного рода сервисы удаления аккаунтов и других следов пребывания в сети, удаляют лишь те следы, которые доступны для наблюдения простыми пользователями, не вооруженными специальными программами, доступными для корпораций и государств.
Соответственно формирование огромного, постоянно пополняющегося архива поведенческой активности самых различных субъектов, от отдельных государств и огромных компаний до небольших групп и отдельных индивидуумов собственно и послужило базисом появления Больших Данных. C тех пор направление Больших Данных стало ведущим в сфере информационных технологий.
Анализ накопленного за последние годы опыта применения технологий Больших Данных позволяет выделить несколько ключевых черт, отличающих Большие Данные от всех других информационных технологий. К ним относятся:
• во-первых, огромные массивы разнородной информации о процессах, явлениях, событиях, объектах, субъектах и т. п., пополняемые непрерывно в режиме он-лайн. Согласно имеющейся статистике 60 % этой информации носит неструктурированный, в основном текстовой характер и 40 % составляет структурированная, или табличная информация. В последние годы в общем объеме Больших Данных постоянно нарастает доля информации структурированного характера, поступающей от вещей, соединенных с интернетом — от холодильника до городской системы регулирования светофоров и т. п.;
• во-вторых, специально спроектированные программные платформы, где Большие Данные любого объема могут храниться в удобном для вычислений виде. Особо надо подчеркнуть, что эти архивы отличаются от привычных баз данных, которые приспособлены только для структурированной или табличной информации. Отличительной чертой этих хранилищ является то, что структурированная и неструктурированная информация могут обрабатываться совместно, как единое целое;
• в-третьих, наличие различного рода математического, прежде всего, статистического инструментария для обработки Больших Данных и получение результатов в виде, понятном для человека. Причем, при анализе Больших Данных используются не только традиционные методы математической статистики, но и алгоритмы распознавания образов, нейронные сети, построенные на основе аналогии с нервной системой и т. п.