Чтение онлайн

на главную - закладки

Жанры

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
Шрифт:

Далее компания наладила долгосрочный процесс сбора и загрузки веб-данных. Важно то, что они даже не начинали работу со всем потоком данных. Представьте, какую прибыль они получат в будущем, когда приступят к более глубокому анализу этих данных! Сотрудники организации, с самого начала увидев реальные достижения, сохраняют высокую мотивацию, поскольку они уже оценили мощь даже самого простого использования данных. А главное, дальнейшие усилия уже оплачены!

Большая

часть больших данных не имеет значения

Дело в том, что большая часть больших данных вообще не имеет значения. Неожиданно, не так ли? Однако так быть не должно. Мы уже упоминали, что поток больших данных подразумевает большой объем, скорость передачи, разнообразие и сложность. Большая часть содержимого потока данных не будет отвечать поставленным целям, а некоторая его часть вообще не будет иметь какого-либо значения. Укрощение больших данных похоже не на закачку воды в бассейн, а скорее на питье воды из шланга: вы отхлебываете только то, что вам нужно, а остальному позволяете течь мимо.

В потоке больших данных есть информация, которая имеет долгосрочное стратегическое значение; некоторые данные пригодны только для немедленного и тактического использования, а часть данных вообще бесполезна. Самое главное в процессе укрощения больших данных – определить, какие фрагменты относятся к той или иной категории.

Примером могут служить метки радиочастотной идентификации (RFID), речь о которых пойдет в главе 3 . Они размещаются на палетах с товарами в процессе их перевозки; если это дорогие товары, метками помечают каждый из них. Со временем станет правилом помечать метками отдельные товары. Сегодня в большинстве случаев это связано с большими затратами, поэтому метки ставятся на каждой палете. Такие метки упрощают процесс отслеживания местоположения палет, позволяют определить, где они загружаются, разгружаются и хранятся.

Представьте себе склад с десятками тысяч палет. На каждом из них находится RFID-метка. Каждые 10 секунд считывающие устройства опрашивают склад: «Кто здесь?» Каждая палета отвечает: «Я здесь». Посмотрим, как в этом случае можно использовать большие данные.

Палета прибывает сегодня и сообщает: «Это палета 123456789. Я здесь». Каждые 10 секунд в течение следующих трех недель, пока находится на складе, палета будет снова и снова сообщать: «Я здесь. Я здесь. Я здесь». По завершении каждого опроса следует проанализировать все ответы на предмет изменения статуса палеты. Таким образом, можно

подтвердить то, что изменения были ожидаемыми, и принять меры, если палета неожиданно изменила статус.

После того как палета покинула склад, она больше не отвечает на запрос считывающего устройства. После подтверждения того, что отбытие палеты было ожидаемым, все промежуточные записи с ответом «я здесь» не имеют значения. По-настоящему важны только дата и время появления палеты на складе, а также дата и время ее отбытия. Если между этими датами прошло три недели, то имеет смысл сохранить только две временные метки, связанные с прибытием и отбытием палеты. Ответы, полученные с интервалом в 10 секунд, говорящие: «Я здесь. Я здесь. Я здесь», не имеют какой-либо долгосрочной ценности, однако собрать их было необходимо. Необходимо было проанализировать каждый ответ в момент его создания, однако долгосрочной ценности они не имеют, поэтому их спокойно можно удалить после отбытия палеты.

Будьте готовы отбросить данные

Одна из главных задач при укрощении больших данных – определить фрагменты, которые имеют ценность. Большие данные содержат информацию, пригодную для долгосрочного стратегического применения; данные, которые могут использоваться в краткосрочной перспективе, а также данные, которые вообще ничего не значат. Удаление множества данных может показаться странным, однако при работе с большими данными это в порядке вещей. Вам потребуется время, чтобы к этому привыкнуть.

Если необработанные большие данные можно сохранить в течение некоторого периода, это позволит вернуться к ним и извлечь дополнительные данные, пропущенные при первоначальной обработке. Хороший пример такого подхода – процесс отслеживания веб-активности. Большинство сайтов используют метод, основанный на тегах: необходимо заранее определить текст, изображения или ссылки, взаимодействие пользователей с которыми требуется отслеживать. Теги, которые не видны пользователю, сообщают о его действиях. Поскольку данные поступают только об элементах, содержащих тег, большая часть информации не учитывается. Проблема может возникнуть, если по каким-то причинам не выполняется запрос на тегирование нового рекламного изображения, в результате чего упускается возможность проанализировать взаимодействие с ним. Это изображение должно быть помечено тегом, прежде чем пользователь его увидит. Можно добавить тег и позже, однако в этом случае собираться будут только данные, полученные после добавления тега.

Конец ознакомительного фрагмента.

Поделиться:
Популярные книги

Магия чистых душ

Шах Ольга
Любовные романы:
любовно-фантастические романы
5.40
рейтинг книги
Магия чистых душ

Здравствуй, 1985-й

Иванов Дмитрий
2. Девяностые
Фантастика:
альтернативная история
5.25
рейтинг книги
Здравствуй, 1985-й

Месть бывшему. Замуж за босса

Россиус Анна
3. Власть. Страсть. Любовь
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Месть бывшему. Замуж за босса

Безымянный раб

Зыков Виталий Валерьевич
1. Дорога домой
Фантастика:
фэнтези
9.31
рейтинг книги
Безымянный раб

Действуй, дядя Доктор!

Юнина Наталья
Любовные романы:
короткие любовные романы
6.83
рейтинг книги
Действуй, дядя Доктор!

#Бояръ-Аниме. Газлайтер. Том 11

Володин Григорий Григорьевич
11. История Телепата
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
#Бояръ-Аниме. Газлайтер. Том 11

Невеста вне отбора

Самсонова Наталья
Любовные романы:
любовно-фантастические романы
7.33
рейтинг книги
Невеста вне отбора

Темный Патриарх Светлого Рода 3

Лисицин Евгений
3. Темный Патриарх Светлого Рода
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Темный Патриарх Светлого Рода 3

Черный Маг Императора 13

Герда Александр
13. Черный маг императора
Фантастика:
попаданцы
аниме
сказочная фантастика
фэнтези
5.00
рейтинг книги
Черный Маг Императора 13

Воин

Бубела Олег Николаевич
2. Совсем не герой
Фантастика:
фэнтези
попаданцы
9.25
рейтинг книги
Воин

Барон не играет по правилам

Ренгач Евгений
1. Закон сильного
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Барон не играет по правилам

Провинциал. Книга 4

Лопарев Игорь Викторович
4. Провинциал
Фантастика:
космическая фантастика
рпг
аниме
5.00
рейтинг книги
Провинциал. Книга 4

Возвращение Безумного Бога 4

Тесленок Кирилл Геннадьевич
4. Возвращение Безумного Бога
Фантастика:
фэнтези
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Возвращение Безумного Бога 4

Измена. Мой заклятый дракон

Марлин Юлия
Любовные романы:
любовно-фантастические романы
7.50
рейтинг книги
Измена. Мой заклятый дракон