Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData, Штольц Евгений

Машинное обучение на практике – от модели PyTorch до Kubeflow в облаке для BigData

на обложку

Штольц Евгений

Шрифт:

* Машинное обучение – с помощью статистических методов по указанным признакам (фичам) система находит правила. Сами фичи должен определить эксперт предметной области из всех имеющихся параметров данных, то есть выделить из сотни или тысячи параметров данных важные, например, столбцы в таблице базы данных. Это сложная задача, так как факторов для разных групп может быть переменное число и определить все группы и для них все факторы – крайне трудоёмкий процесс. При этом излишек факторов вносит шум в результат

предсказания. Современные нейронные сети превосходят для большинства случаев статистические по вероятности;

* Нейронные сети позволяют самим выбрать признаки, но для этого требуется гораздо больше данных, обычно больше миллиона экземпляров. Эти данные требуются, чтобы пройти через все её слои и на последующих слоях усилить важность нужных признаков и уменьшить не важных.

Этапы эволюции нейронных сетей:

* 1950-е годы – исследование мозга и его имитирование;

* 1960-е годы – собеседник ELIZA (1956 год) на общие вопросы, генетические алгоритмы основанные на переборе всех возможных изменений и выбора лучшего;

* 1970-е годы – экспертные системы основанные на правилах и данных от экспертов, например MYCIN и DENDRAL;

* 1980-е годы – коммерческое внедрение экспертных систем;

* 2010-е годы – решение подготовленных задач нейронными сетями и статистическими алгоритмами;

* 2010-е годы – глубокое обучение в соревнованиях с человеком и реальном мире (автопилотах, переводчиках, ассистентах).

Последние годы:

* 1994 год – выигрыш Chinook в шашки у чемпиона мира,

* 1997 год – выигрыш Deep Blue в настольную игру шахматы у чемпиона мира,

* 2005 год – беспилотные автомобили на площадках (соревнование DARPA Grand Challenge),

* 2011 год – IBM Watson выиграла в телевизионной игре Jeopardy,

* 2012 год – Google X Lab распознаёт цветные изображения животных,

* 2016 год – Google Translate основан на нейронных сетях, выигрыш Google DeepMind AlphaGo у чемпиона мира по Go,

* 2017 год – выигрыш у чемпионов в коллективную 3D игру Dota2,

* 2018 год – беспилотные такси Alphabet Waymo на общих дорогах в Аризоне,

* 2019 год – победа Libratus чемпионов в покер,

* 2020 год – чат-бот на GPT-3 был не распознан собеседниками в социальной сети, видео-интерьвью с авотаром я не отличил от естественного,

* 2021 год – OpenAI Codex создаёт программы по детальному описанию задачи на естественном языке.

Достижения последнего времени:

* распознавание речи по движению губ;

* выигрыши в в 2D игры и 3D игры;

* выигрыши в настольные игры: шахматы, Go;

* синхронный перевод в Skype: разговор между людьми без знания языков друг друга;

* автопилот в автомобилях;

* FindFace распознаёт лица;

* описание изображение текстом

и наоборот.

Достижения на 2019 год:

* чтение по губам лучше профессионала (DeepMind Lip Reading);

* изображения: фотореалистичная генерация изображений (Google bigGAN), трансформация видео (NVIDEA vid-to-vid), создание изображений по макетам (NVIDEA gauGAN), обучение беспилотников по виртуальным маршрутам (NVIDEA Drive);

* текст: GPT, BERT, BART, T5, ELMo и другие архитектуры развиваются, расширяют свою сферу применения, эволюционируют;

* звук: умные колонки, с умением автоответчика вести разговор;

* соревнования: AlphaZero обыграла чемпионов в Go и шахматы, другие сети обыграли в StartCraft, Dota-2, покер;

* медицина: визуализация снимков;

* автоматизация: AliBaba автоматизировала Ханджоу (светофоры, инфраструктура), Google автоматизировал охлаждение своих Data центров, автопилоты и другие Edge AI;

* доступность: дообучение готовых моделей в Cloud.

Достижения на 2020 год:

* Intel создал нейроморфную машину Loihi с 1024 нейронами и IBM TrueNorth с миллионом нейронов;

* модель MuZero сама учится играть в неизвестные ей игры (Atari + Go + шахматы + японские шахматы) без начальных знаний, обучающих партий людей и программ и выигрывает у узкоспециализированной AlphaZero, традиционных программ Stockfish и людей в шахматы;

* модель mT5 обучена на более 100 языках для переводов;

* GPT-3 и ruGPT умеют писать программы;

* Модель GPT-3 написала передовицу для газеты Гардиан;

* Модель NVidia StyleGAN2 генерирует правдоподобные лица людей.

Достижения на 2021 год:

* создание ML с несколькими навыками, таких как GPT-3;

* генерация изображения по текстовому описанию: нейронная сеть OpenAI DALL-E (GPT-3 13 + автоинкодер) от OpenAI;

* генераторы музыки: Pod Music Transformet (нотная модель), OpenAI Jukebox (звуковая модель: голос и музыка);

* нейронная сеть создаёт Atari игры по образцу;

* OpenAI Codex создаёт программы по детальному описанию задачи на естественном языке.

Но, в 2021 году более интересны проекты, которые имеют применение нейронных сетей в бизнесе:

* генерация генотипа человека для обхода закона о запрете экспериментов над необезличенным генотипом;