Чтение онлайн

на главную - закладки

Жанры

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
Шрифт:

В начале главы объясняется, что такое «большие данные». Далее приведены соображения о том, чем они могут быть полезны организации.

Что такое «большие данные»?

Однозначного определения понятия «большие данные» не существует, однако можно сослаться на два описания сути этой концепции, с которой согласится большинство людей. Первое определение предложил Мерв Адриан из компании Gartner [2] в статье для журнала Teradata Magazine в первом квартале 2011 года: «Большие данные – это данные, сбор, управление и обработку которых невозможно осуществить с помощью наиболее часто используемых аппаратных сред и программных инструментов в течение допустимого для пользователя времени» {1} .

Другое хорошее определение появилось в докладе McKinsey Global Institute [3] в мае 2011 года: «Большие данные – это наборы данных, размеры которых выходят за пределы возможностей по сбору, хранению, управлению и анализу, присущих обычному программному обеспечению базы данных» {2} .

2

Gartner – исследовательская и консалтинговая компания, специализирующаяся на рынках информационных технологий. Прим. ред.

1

Адриан М. Большие данные (Big Data) [Электронный ресурс] // Teradata, 1:11. URL: www.teradatamagazine.com/v11n01/Features/Big-Data/. Здесь и далее прим. авт.

3

McKinsey Global Institute – американская глобальная консалтинговая фирма. Прим. ред

2

Большие данные: следующий рубеж инноваций, конкуренции и эффективности (Big Data: The Next Frontier for Innovation, Competition, and Productivity) // McKinsey Global Institute, май 2011 года.

Из этих определений следует, что то, что считается большими данными, будет изменяться по мере развития технологий. То, что когда-то было «большими данными», или то, что считается «большими данными» сегодня, будет отличаться от «больших данных» завтрашнего дня. Некоторых настораживает этот аспект понятия больших данных. Приведенные определения подразумевают, что суть больших данных может отличаться в зависимости от отрасли или даже организации, если существует значительная разница в возможностях инструментов и технологий. Мы обсудим это более подробно в этой главе в разделе «Сегодняшние большие данные отличаются от завтрашних больших данных».

В докладе McKinsey отмечены несколько интересных фактов, которые дают представление об объеме существующих сегодня данных.

• За $600 сегодня можно купить диск, способный вместить всю музыку мира.

• Каждый месяц через сеть Facebook пользователи обмениваются 30 миллиардами фрагментов информации.

• В среднем компании пятнадцати из семнадцати отраслей промышленности Соединенных Штатов имеют больше информации, чем Библиотека Конгресса США {3} .

3

Большие данные: следующий рубеж инноваций, конкуренции и эффективности (Big Data: The Next Frontier for Innovation, Competition, and Productivity) // McKinsey Global Institute, май 2011 года.

Слово «большие» характеризует не только объем

Хотя понятие «большие данные» подразумевает наличие большого количества данных, оно не относится только к объему данных. Большие данные характеризуются возросшей скоростью их передачи, сложностью и разнообразием по сравнению с источниками данных прошлого.

Понятие «большие данные» подразумевает не только их объем. Согласно Gartner Group, слово «большие» относится и к некоторым другим характеристикам источника больших данных {4} . Это не только возросший объем, но и возросшая скорость передачи и разнообразие источников. Такие факторы, разумеется, усложняют работу с большими данными, поскольку вам приходится иметь дело не просто с большим количеством данных, а с тем, что они поступают к вам очень быстро, в сложных формах и из разнообразных источников.

4

«Большие данные» – большие возможности (CEO Advisory: “Big Data” Equals Big Opportunity) // Gartner, 31 марта 2011 года.

Легко понять, почему большие данные сравнивают с приливной волной и почему ее приручение – настоящий вызов! Методы, процессы и системы анализа, внедренные в организациях, будут использоваться до предела, а возможно, и сверх предела. Необходимо разработать дополнительные методы и процессы анализа на базе обновленных технологий и методов для того, чтобы эффективно анализировать большие данные и действовать на основании полученных результатов. Мы коснемся всех этих тем в данной книге, чтобы продемонстрировать целесообразность укрощения больших данных.

Что важнее: «большие» или «данные»?

А теперь устроим небольшую викторину! Остановитесь на минуту и попробуйте ответить на следующий вопрос, прежде чем читать дальше: что является самым важным в понятии «большие данные»: 1) слово «большие», 2) слово «данные», 3) оба слова или 4) ни одно из них? Задумайтесь об этом на минуту и, определившись с ответом, переходите к следующему абзацу. Мысленно проиграйте музыку, которую включают в игре, пока участники думают.

Теперь проверим, правы ли вы. Правильный ответ – вариант 4). В термине «большие данные» ни одну из составных частей нельзя считать важнейшей. Важнее всего то, как организации используют большие данные. Анализ больших данных, производимый вашей организацией, в сочетании с действиями, предпринимаемыми для улучшения вашего бизнеса, – вот что имеет значение.

Наличие большого источника данных само по себе не является дополнительной ценностью. Возможно, ваши данные больше, чем мои. Кого это волнует? На самом деле наличие любого набора данных, вне зависимости от размера, само по себе не добавляет какой-либо ценности. Собранные, но не используемые данные имеют не большее значение, чем старый хлам, хранящийся на чердаке или в подвале. Данные не имеют значения до тех пор, пока не будут помещены в контекст и использованы. Мощь больших данных, как, впрочем, любого источника данных, заключается в том, что с ними делают. Как они анализируются? Какие действия предпринимаются на основании полученных результатов? Как эти данные используются для совершенствования бизнеса?

Вокруг больших данных поднята такая шумиха, что многие полагают: только благодаря большому объему, скорости передачи и разнообразию они важнее всех других. Это не так. Как мы увидим далее в этой главе (в разделе «Большая часть больших данных не имеет значения»), в больших данных доля бесполезного или малозначимого контента намного выше, чем в любом привычном источнике данных. Когда вы отберете действительно нужную вам информацию, источник больших данных может показаться вам не таким уж большим. Но это ничего не значит, поскольку после обработки данных их объем не имеет значения. Важно то, что вы будете делать с полученными результатами.

Дело не в объеме данных, а в способе их использования!

Значимость большим данным придает вовсе не то, что они большие, и даже не то, что они представляют собой данные. Важно то, как вы анализируете и применяете эти данные для развития своего бизнеса.

Что делает большие данные интересными для вас и вашей организации? Вовсе не то, что они «большие». Самое интересное связано с новыми мощными средствами их анализа. Об этом и поговорим.

Чем большие данные отличаются от традиционных данных?

Большие данные отличаются от традиционных данных рядом важных характеристик. Не каждый источник больших данных имеет все перечисленные особенности, однако большинству свойственно следующее.

Во-первых, большие данные часто автоматически генерируются машиной без участия человека. Традиционные источники данных всегда предполагают присутствие человека. Возьмем, к примеру, розничные или банковские транзакции, записи с содержанием телефонных звонков, доставку товаров или выставление счетов на оплату. Все эти действия подразумевают присутствие человека, который способствует созданию данных. Кто-то должен внести деньги, сделать покупку, позвонить по телефону, отправить посылку или сделать платеж. В каждом случае частью процесса создания новых данных остается человек, совершающий какие-либо действия. С большими данными дело обстоит иначе. Многие источники больших данных генерируются вообще без взаимодействия с человеком, например встроенный в двигатель датчик генерирует данные, даже если никто его об этом не просит.

Поделиться:
Популярные книги

Пустоцвет

Зика Натаэль
Любовные романы:
современные любовные романы
7.73
рейтинг книги
Пустоцвет

Сумеречный Стрелок 2

Карелин Сергей Витальевич
2. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный Стрелок 2

Лорд Системы 8

Токсик Саша
8. Лорд Системы
Фантастика:
фэнтези
попаданцы
рпг
5.00
рейтинг книги
Лорд Системы 8

Безымянный раб [Другая редакция]

Зыков Виталий Валерьевич
1. Дорога домой
Фантастика:
боевая фантастика
9.41
рейтинг книги
Безымянный раб [Другая редакция]

Курсант: Назад в СССР 4

Дамиров Рафаэль
4. Курсант
Фантастика:
попаданцы
альтернативная история
7.76
рейтинг книги
Курсант: Назад в СССР 4

На границе империй. Том 6

INDIGO
6. Фортуна дама переменчивая
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
5.31
рейтинг книги
На границе империй. Том 6

Стрелок

Астахов Евгений Евгеньевич
5. Сопряжение
Фантастика:
боевая фантастика
постапокалипсис
рпг
5.00
рейтинг книги
Стрелок

Заход. Солнцев. Книга XII

Скабер Артемий
12. Голос Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Заход. Солнцев. Книга XII

Последняя Арена 2

Греков Сергей
2. Последняя Арена
Фантастика:
рпг
постапокалипсис
6.00
рейтинг книги
Последняя Арена 2

Мастер 2

Чащин Валерий
2. Мастер
Фантастика:
фэнтези
городское фэнтези
попаданцы
технофэнтези
4.50
рейтинг книги
Мастер 2

Проклятый Лекарь IV

Скабер Артемий
4. Каратель
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Проклятый Лекарь IV

Сумеречный стрелок 7

Карелин Сергей Витальевич
7. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный стрелок 7

Предатель. Цена ошибки

Кучер Ая
Измена
Любовные романы:
современные любовные романы
5.75
рейтинг книги
Предатель. Цена ошибки

Идеальный мир для Лекаря 5

Сапфир Олег
5. Лекарь
Фантастика:
фэнтези
юмористическая фантастика
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 5