Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации
Шрифт:
Теперь попробуем провести анализ приведенных графиков с точки зрения машины. Компьютер не сможет изучать графики визуально, как это делаем мы, потому что у него нет глаз. Он поведет себя как незрячий человек, ощупает всю поверхность графика и таким образом разыщет максимум. На первый взгляд такой способ выглядит трудозатратным. Но представьте, что нужно предсказать чистую прибыль не по двум параметрам (количество бутылок и их объем), а по десяти:
1. Количество бутылок.
2. Объем одной бутылки.
3. Температура бутылки.
4. Толщина стенки бутылки.
5. Прочность крышки.
6. Время суток, когда была совершена продажа.
7. Размер скидки.
8. Возраст покупателя.
9. Пол покупателя.
10. Наличие шляпы на голове покупателя.
Для проведения анализа
У вас могут возникнуть вопросы: «Погодите, каким образом связаны одиннадцатимерный график, на котором представлены различные параметры йогурта, и машинное обучение? В предыдущем примере компьютер обучали, показывая ему фотографии собак, а теперь кто, кого, чему и как учит? Как на этом сделать прибыль?» Чтобы ответить на них, надо разобрать данные, касающиеся параметров йогурта подробнее. Компания методично собирала эти данные, экспериментируя с размерами упаковки и продавая разные ее варианты в различных магазинах разным покупателям и в разное время. Несложно догадаться, что фирма не смогла бы проверить все возможные комбинации полученных данных, то есть перебрать все значения параметров, чтобы как можно точнее описать «изгибы» одиннадцатимерного графика и определить максимальные значения прибыли. В результате у них получился график с «пропусками», то есть с областями, в которых отсутствовали данные. К примеру, компании совсем не удалось получить информацию о продаже йогурта вечером покупателю в шляпе. Это не значит, что такой продажи не было или не могло бы быть. Просто именно для этого сочетания значений параметров нет данных. И как же в таком случае быть? Вот тут-то и вступает в дело «машинное обучение» или «искусственный интеллект».
Натренированную на данных машину можно попросить предсказать значение прибыли в точке пропуска на графике, то есть в области, для которой данные еще не были получены экспериментальным путем. В нашем случае запрос к машине на предсказание будет звучать так: «Сколько бы заработала компания, если бы продала йогурт покупателю в шляпе вечером?» В ответ компьютер выдаст нам точное число, полученное из имеющихся в распоряжении данных. Это произойдет невзирая на то, что в действительности подобная ситуация еще никогда не случалась. Так компания сэкономит значительные средства на проведении реальных экспериментов с разными типами упаковок йогурта и не только.
Заполнение машиной пропущенных значений на одиннадцатимерном графике отчасти можно сравнить с ремонтом лоскутного одеяла с помощью заплаток. Сначала изучают края дыры, определяют, какой формы заплатка требуется. Затем «пробел» латают. После этого график можно считать более-менее полным. Однако нужно понимать, что если дырки в графике слишком большие, то есть реальных данных очень мало, то предсказания будут неточными. Это как невозможно подобрать нужный лоскут для ремонта, если дыра огромного размера, иначе будет нарушен рисунок. В таком случае, увы, придется покупать новое одеяло. Поэтому никогда не выкидывайте данные, накапливайте их для обучения компьютеров. Чем больше данных, тем меньше потребность в заплатках. А значит, точнее предсказания.
Возможно, иллюстрация с йогуртом показалась кому-то из читателей несколько надуманной. Приведу реальный пример, касающийся больших данных, чтобы доказать, что это совсем не так. Обратимся к открытому соревнованию Concrete compressive strength [3] , в рамках которого специалисты по данным должны были определить состав самого твердого бетона. Участникам предоставили частичную информацию, в которой содержались сведения относительно прочности образцов в зависимости от соотношения различных компонентов и параметров. Всего было шестнадцать переменных:
3
Соревнование по поиску формулы самого твердого бетона .
1. Количество цемента.
2. Количество доменного шлака.
3. Количество золы.
4. Количество воды.
5. Количество «суперпластификатора».
6. Плотность пластификатора.
7. Количество крупного заполнителя.
8. Количество мелкого заполнителя.
9. Количество компонента MixtureMeasurement9.
10. Количество компонента SSL9000.
11. Значение параметра O2_purityscore.
12. Количество компонента F192.
13. Оценка по шкале TysonScore.
14. Площадь бетона.
15. Возраст бетона.
16. Влажность бетона.
Производитель бетона собирал данные, изучая имеющиеся у него образцы, и пытался найти такое соотношение ингредиентов, при котором прочность была бы максимальной. Очевидно, что если бы компания решила действовать путем «перебора» всех возможных соотношений, то у нее не хватило бы ни денег, ни времени (продолжительности жизни сотрудников), чтобы протестировать все возможные комбинации. Для решения именно таких задач и предназначено машинное обучение. Созданный на основе собранных данных алгоритм способен предсказывать значения для «пробелов», благодаря чему можно получить результаты тех экспериментов, которые еще не проводились в реальности, то есть спрогнозировать будущее. К примеру, если компания-производитель бетона спросит: «Какова будет прочность, если использовать в два раза больше золы?», то машина ответит что-то вроде: «Прочность упадет на 26.7 %». Так фирма может проводить миллионы экспериментов в день, не тратя на это ни копейки. Действуя подобным образом, рано или поздно компания обязательно найдет лучшее соотношение компонентов для создания самого прочного и дешевого бетона.
Как вывести компанию из убытков
В предыдущих главах мы выяснили, как можно увеличить прибыль, используя большие данные и машинное обучение для предсказания результатов экспериментов. Но для того чтобы эти большие данные вообще появились и сохранялись в процессе каждого бизнес-процесса, необходимо специальным образом организовать все информационные потоки в компании. Самое время перейти к обсуждению масштабной и фундаментально важной для больших данных темы – цифровизации как комплекса действий, направленных на перевод львиной доли или всех процессов в организации с бумажных носителей в «цифру». Простыми словами, как всю ту информацию, которую раньше сотрудники компании записывали на бумаге, перенести в компьютеры.
На первый взгляд кажется, что цифровизация поможет «заработать больше» компаниям лишь в том случае, если они и так хорошо себя чувствуют и находятся «на плаву». Но это неверно. Благодаря цифровизации можно вытянуть убыточный бизнес на уровень самоокупаемости. К сожалению, многие руководители и топ-менеджеры за ежедневной рутиной и миллионом сиюминутных дел не видят этой возможности. При этом их конкурентами являются компании с молодыми собственниками, которые буквально весь бизнес строят в цифре, в принципе не используя бумажные документы. Они делают это с момента создания своей компании, потому что знают, что иначе не смогут минимизировать расходы и выйти на самоокупаемость. Современные фирмы поступают таким образом даже в том случае, если у них нет конкурентов на рынке и на текущий момент они являются монополистами. Эта цифровизация внедряется совершенно осознанно, методично и последовательно, если необходимо, то даже насаждается насильно, вопреки воле некоторых менеджеров и сотрудников. Потому что если не сделать этого сразу, в дальнейшем, когда на рынок придут конкуренты и начнут забирать часть прибыли, а дела у компании, соответственно, станут хуже, уже невозможно будет быстро переучить всех и перейти на «цифру».