Чтение онлайн

на главную

Жанры

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
Шрифт:

Далее компания наладила долгосрочный процесс сбора и загрузки веб-данных. Важно то, что они даже не начинали работу со всем потоком данных. Представьте, какую прибыль они получат в будущем, когда приступят к более глубокому анализу этих данных! Сотрудники организации, с самого начала увидев реальные достижения, сохраняют высокую мотивацию, поскольку они уже оценили мощь даже самого простого использования данных. А главное, дальнейшие усилия уже оплачены!

Большая

часть больших данных не имеет значения

Дело в том, что большая часть больших данных вообще не имеет значения. Неожиданно, не так ли? Однако так быть не должно. Мы уже упоминали, что поток больших данных подразумевает большой объем, скорость передачи, разнообразие и сложность. Большая часть содержимого потока данных не будет отвечать поставленным целям, а некоторая его часть вообще не будет иметь какого-либо значения. Укрощение больших данных похоже не на закачку воды в бассейн, а скорее на питье воды из шланга: вы отхлебываете только то, что вам нужно, а остальному позволяете течь мимо.

В потоке больших данных есть информация, которая имеет долгосрочное стратегическое значение; некоторые данные пригодны только для немедленного и тактического использования, а часть данных вообще бесполезна. Самое главное в процессе укрощения больших данных – определить, какие фрагменты относятся к той или иной категории.

Примером могут служить метки радиочастотной идентификации (RFID), речь о которых пойдет в главе 3 . Они размещаются на палетах с товарами в процессе их перевозки; если это дорогие товары, метками помечают каждый из них. Со временем станет правилом помечать метками отдельные товары. Сегодня в большинстве случаев это связано с большими затратами, поэтому метки ставятся на каждой палете. Такие метки упрощают процесс отслеживания местоположения палет, позволяют определить, где они загружаются, разгружаются и хранятся.

Представьте себе склад с десятками тысяч палет. На каждом из них находится RFID-метка. Каждые 10 секунд считывающие устройства опрашивают склад: «Кто здесь?» Каждая палета отвечает: «Я здесь». Посмотрим, как в этом случае можно использовать большие данные.

Палета прибывает сегодня и сообщает: «Это палета 123456789. Я здесь». Каждые 10 секунд в течение следующих трех недель, пока находится на складе, палета будет снова и снова сообщать: «Я здесь. Я здесь. Я здесь». По завершении каждого опроса следует проанализировать все ответы на предмет изменения статуса палеты. Таким образом, можно подтвердить то, что изменения были ожидаемыми, и принять меры, если палета неожиданно изменила статус.

После того как палета покинула склад, она больше не отвечает на запрос считывающего устройства. После подтверждения того, что отбытие палеты было ожидаемым, все промежуточные записи с ответом «я здесь» не имеют значения. По-настоящему важны только дата и время появления палеты на складе, а также дата и время ее отбытия. Если между этими датами прошло три недели, то имеет смысл сохранить только две временные метки, связанные с прибытием и отбытием палеты. Ответы, полученные с интервалом в 10 секунд, говорящие: «Я здесь. Я здесь. Я здесь», не имеют какой-либо долгосрочной ценности, однако собрать их было необходимо. Необходимо было проанализировать каждый ответ в момент его создания, однако долгосрочной ценности они не имеют, поэтому их спокойно можно удалить после отбытия палеты.

Будьте готовы отбросить данные

Одна из главных задач при укрощении больших данных – определить фрагменты, которые имеют ценность. Большие данные содержат информацию, пригодную для долгосрочного стратегического применения; данные, которые могут использоваться в краткосрочной перспективе, а также данные, которые вообще ничего не значат. Удаление множества данных может показаться странным, однако при работе с большими данными это в порядке вещей. Вам потребуется время, чтобы к этому привыкнуть.

Если необработанные большие данные можно сохранить в течение некоторого периода, это позволит вернуться к ним и извлечь дополнительные данные, пропущенные при первоначальной обработке. Хороший пример такого подхода – процесс отслеживания веб-активности. Большинство сайтов используют метод, основанный на тегах: необходимо заранее определить текст, изображения или ссылки, взаимодействие пользователей с которыми требуется отслеживать. Теги, которые не видны пользователю, сообщают о его действиях. Поскольку данные поступают только об элементах, содержащих тег, большая часть информации не учитывается. Проблема может возникнуть, если по каким-то причинам не выполняется запрос на тегирование нового рекламного изображения, в результате чего упускается возможность проанализировать взаимодействие с ним. Это изображение должно быть помечено тегом, прежде чем пользователь его увидит. Можно добавить тег и позже, однако в этом случае собираться будут только данные, полученные после добавления тега.

Конец ознакомительного фрагмента.

Поделиться:
Популярные книги

Пустоцвет

Зика Натаэль
Любовные романы:
современные любовные романы
7.73
рейтинг книги
Пустоцвет

Сумеречный Стрелок 2

Карелин Сергей Витальевич
2. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный Стрелок 2

Лорд Системы 8

Токсик Саша
8. Лорд Системы
Фантастика:
фэнтези
попаданцы
рпг
5.00
рейтинг книги
Лорд Системы 8

Безымянный раб [Другая редакция]

Зыков Виталий Валерьевич
1. Дорога домой
Фантастика:
боевая фантастика
9.41
рейтинг книги
Безымянный раб [Другая редакция]

Курсант: Назад в СССР 4

Дамиров Рафаэль
4. Курсант
Фантастика:
попаданцы
альтернативная история
7.76
рейтинг книги
Курсант: Назад в СССР 4

На границе империй. Том 6

INDIGO
6. Фортуна дама переменчивая
Фантастика:
боевая фантастика
космическая фантастика
попаданцы
5.31
рейтинг книги
На границе империй. Том 6

Стрелок

Астахов Евгений Евгеньевич
5. Сопряжение
Фантастика:
боевая фантастика
постапокалипсис
рпг
5.00
рейтинг книги
Стрелок

Заход. Солнцев. Книга XII

Скабер Артемий
12. Голос Бога
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Заход. Солнцев. Книга XII

Последняя Арена 2

Греков Сергей
2. Последняя Арена
Фантастика:
рпг
постапокалипсис
6.00
рейтинг книги
Последняя Арена 2

Мастер 2

Чащин Валерий
2. Мастер
Фантастика:
фэнтези
городское фэнтези
попаданцы
технофэнтези
4.50
рейтинг книги
Мастер 2

Проклятый Лекарь IV

Скабер Артемий
4. Каратель
Фантастика:
попаданцы
аниме
5.00
рейтинг книги
Проклятый Лекарь IV

Сумеречный стрелок 7

Карелин Сергей Витальевич
7. Сумеречный стрелок
Фантастика:
городское фэнтези
попаданцы
аниме
5.00
рейтинг книги
Сумеречный стрелок 7

Предатель. Цена ошибки

Кучер Ая
Измена
Любовные романы:
современные любовные романы
5.75
рейтинг книги
Предатель. Цена ошибки

Идеальный мир для Лекаря 5

Сапфир Олег
5. Лекарь
Фантастика:
фэнтези
юмористическая фантастика
аниме
5.00
рейтинг книги
Идеальный мир для Лекаря 5