Яндекс.Книга, Соколов-Митрич Дмитрий Владимирович

Яндекс.Книга

на обложку

Соколов-Митрич Дмитрий Владимирович

Шрифт:

— А как вообще работает «Яндекс. Перевод»?

— Раньше машинный перевод строился на модели «смысл-текст»: возьмем любой язык, переведем его слова в универсальный над-язык смыслов, а потом переведем эти смыслы в слова другого языка — и получим переведенный текст. Такая модель доминировала в 70–80-е годы и автоматизировалась в 90-е. Все переводы 90-х годов построены на этой идеологии. В 2000-х появился поиск, и стало понятно: чтобы перевести текст, вообще не обязательно понимать смысл. Человечество столько всего уже напереводило, что вероятность найти в сети два аналогичных текста на разных языках достаточно велика. Как определить, что это одинаковые тексты? Очень просто. В них много одинаковых слов. Если в документе из 1000 слов 800 представляют собой словарные пары, то, скорее всего, это перевод с одного языка на другой. И дальше уже можно разбивать тексты на абзацы, на предложения и как-то с этим работать. То есть машина переводит не словами,

а готовыми кусками, машина на это способна. На самом деле если подумать, то такой метод перевода даже больше соответствует тому, как человек в реальной жизни учится языку в детстве. Ведь мы едва ли рассуждаем в терминах «смысл-текст», когда нам говорят, например: «Возьми грушу». Но перевод — это всего лишь один пример прорыва машинного обучения на больших объемах данных.

— Хотелось бы еще…

— Другой пример, когда машина способна действовать лучше человека, — это распознавание письменного текста. Есть такая российская международная компания ParaScript, она, в частности, занимается распознаванием рукописного текса. Ее софт присутствует сегодня почти в любом приборе, которым мы пользуемся. Лет десять назад ParaScript получила задачку распознавать текст на конвертах для американской почты. У почты США тогда были гектары сортировочных бараков, где сидели тетеньки, читали конверты и раскладывали их по адресам. Ребята из ParaScript пришли и сказали: давайте мы вам это безобразие ликвидируем — 10 процентов экономии нам. И с 2002 по 2007 год они оптимизировали американскую почту, получали огромные деньги. Потом, правда, деньги им платить почти перестали, так как нечего стало экономить. Машина стала распознавать рукописный текст лучше, чем человек. Сейчас это направление шагнуло еще дальше. Появились технологии распознавания музыки, голоса, предметов на экране камеры. Машина уже способна отличить, например, котенка от шарика. А это уже шаг в сторону роботов-навигаторов, благодаря которым машины даже без водителя будут понимать, куда ехать.

— Кажется, я перестал понимать, какое все это имеет отношение к «Яндексу».

— «Яндекс» умеет работать с большими объемами данных. И это наше базовое умение, наш ежедневный хлеб. Я просто привел примеры того, как машины учатся на больших объемах данных и в конце концов делают что-то лучше людей. Дело идет к тому, что на этом направлении случится примерно такая же революция, как в эпоху индустриализации, когда машины стали заменять человеческую физическую силу. Экскаватор копает быстрее, чем человек лопатой, а мы лопатой копаем быстрее, чем руками, — это нормально. Лифт нас поднимает на двадцатый этаж, мы к этому привыкли, нам не кажется, что машины нас поработили. То же самое сейчас начинается в области замены человеческой головы. Машины будут лучше нас переводить, распознавать и делать еще много чего.

— И этот процесс возглавят компании, которые сейчас занимаются поиском?

— По всей видимости, да. Потому что именно поисковые технологии сидят сегодня на больших объемах данных и умеют с ними работать.

— Вы говорите о больших объемах данных как о полезных ископаемых.

— Это почти не является преувеличением. Большие массивы информации в совокупности с технологиями их обработки — это огромный возобновляемый ресурс.

— Илья Сегалович как-то сказал, что «Яндекс» всего лишь монетизирует математику. Мне тогда эта фраза показалась красивой метафорой, но я не представлял себе, что ее можно понимать буквально. То есть мы можем просто продавать математику, сделать ее одним из самых серьезных источников дохода государства?

— Во всяком случае, для этого у нас сейчас есть все возможности. Поиск оказался на переднем крае всего машинного обучения. А машинное обучение открывает огромные возможности для развития национальных экономик. Похоже, что картинки из фантастических фильмов, когда приборы с тобой разговаривают и тебя понимают, скоро станут явью. Мы спокойно будем относиться к тому, что за нас думают и угадывают наши желания. Это огромная индустрия.

— Если сегодня вам задать тот сакраментальный вопрос Григория Рувимовича: «Каким вы видите свое будущее лет через десять, молодой человек?» — вы ответите, что к тому времени «Яндекс» должен стать одним из мировых гигантов в области обработки данных?

— Во всяком случае, в эту сторону мы сейчас активно копаем. Мы ищем сферы применения своей технологии обработки данных. И видим, что это огромные непаханые поля. Когда-то человечество научилось экономить на замене ручного труда, и случилась промышленная революция. Теперь мы почти научились экономить на замене труда умственного. Что-то огромное из этого обязательно вырастет.

— Ну, а что конкретно вы уже делаете в этом направлении? Может, есть уже первые контракты?

— Да, есть. Пока мы делаем тестовые задачи в самых разных областях. Мы, например, сотрудничаем с Европейским центром ядерных

исследований (ЦЕРН) — это та структура, которая занимается большим адронным коллайдером. Они используют наш MatrixNet для анализа распада мезонов. Что касается сотрудничества с бизнесом, то тут, к сожалению, мы не имеем права называть контрагентов, но можем называть области применения. Так, мы сотрудничаем с банками в области антифрода (борьба с мошенничеством при помощи пластиковых карточек). Сегодня, например, банки вынуждены отказывать в транзакциях владельцам карт, которые приезжают из США в Европу и пытаются там ими расплачиваться. Глупая система видит в этих действиях признаки мошенничества. Количество отказов — до 30 процентов. Если снизить его хотя бы до 25 процентов, это огромные миллиарды. А если мы кому-то экономим миллиарды, значит мы сами зарабатываем сотни миллионов. Другой пример. У мобильных операторов куча данных о поведении клиентов, эти данные пока лежат мертвым грузом. А на них можно много чего делать — например, подбирать правильный тариф, чтобы пользователю было удобно и пользователи не уходили. Еще пример. Современные самолеты сегодня оснащены сотнями сенсорных датчиков. Все замеряется, пишется и тоже лежит мертвым грузом. А если на эти данные посмотреть, то выяснится, что с их помощью можно решать много полезных задач. Например, у самолетов 10 процентов простоя из-за несвоевременного подвоза вышедших из строя запчастей. Полетел насос — надо ждать час, пока подвезут новый. А можно научить самолет заранее предугадывать выход детали из строя. И тогда насос привезут заранее, пока самолет еще на подлете, и пассажиры не опоздают.

— Я правильно понимаю, что если таким компаниям, как ваша, не сильно мешать развиваться в этом направлении, то у России есть шанс…

— Да-а!

— …возглавить эту следующую волну развития человечества? Ну, или хотя бы стать одним из государств, которые оседлают эту волну?

— Да-а! Вот… Если говорить торжественно, то именно так. Сегодня на планете не так много мест, где делается наука анализа данных. Если совсем грубо и приблизительно, то это две зоны: Сиэтл — Кремниевая долина и Россия — Израиль. Даже в Юго-Восточной Азии недооценивают это направление. И в Западной Европе пока тишина. Так что вполне возможно, что именно запад Америки и восток Европы станут теми регионами, где сегодня зреет очередной прорыв в развитии человечества, если говорить уж совсем красиво. Именно эти две-три территории могут стать следующими промзонами мира.

— Скажите, а глобальность этой задачи на государственном уровне осознается? Вы чувствуете какие-то сигналы от чиновников, которые отвечают за развитие страны? Мол, давайте, ребята, поднажмите, эх, зеленая, сама пойдет…

— Ох-х-х… Я бы очень хотел, чтобы это было так… Это очень тонкая вещь…

— Ладно, если вещь слишком тонкая, давайте лучше перейдем к следующему вопросу.

— Нет, я на самом деле очень хочу поговорить на эту тему. Потому что сейчас такой момент, очень важный. Понимаете, то, что мы делаем, это прежде всего про людей. Это не добыча нефти и газа, здесь не работают простые решения. Я уже сравнивал этот бизнес с садоводством: если климат хороший, если много солнца, достаточно дождя, то все само растет и цветет. Я, конечно, имею в виду не ту погоду, которая за окном. Тут как раз аналогия обратная. Я иногда шучу, что в России с мозгами всегда было хорошо, потому что климат располагает. За окном холодно и пасмурно, делать особо нечего, поэтому люди занимаются мозговой деятельностью. Плохая погода и армия — две движущие силы развития интеллекта в России.

— А армия-то тут при чем?

— Ну как? Будешь плохо учиться — не поступишь в университет — попадешь в армию. Поэтому многие стремятся получить высшее образование. Но вернемся к той погоде, которая не за окном. Понимаете, людям надо создавать условия. Чтобы они не уезжали в другие страны. Но ведь создать условия — это не просто стены покрасить и кормить булочками. Условия — это нечто большее, и вот за эту часть я переживаю. У нас в «Яндексе» пока — тьфу-тьфу! — все хорошо, люди приходят, им весело, им интересно. Тут критическая масса таких же, как они, есть о кого «потереться». Я люблю говорить, что идеи возникают не в голове, а между головами. Творческим людям нужно видеть приятные лица, встречаться в коридорах, разговаривать — тогда что-то искрит. Но такая «погода» должна быть не только в офисе, она должна быть на улице, вокруг. Люди должны чувствовать, что их работу понимают и уважают. У меня иногда такое ощущение, что сейчас время какое-то предвоенное, отношение ко всему меняется, и не в лучшую сторону (это интервью состоялось в феврале 2014 года, до острой стадии украинского кризиса. — Авт.). Меня это пугает, я волнуюсь. Ведь то, о чем мы сейчас с вами говорили, очень важно. Для экономики, для населения, для страны, для всего — это эпицентр возникновения новой реальности, в России на этом может целая жизнь зародиться. Но я боюсь, что мы имеем и другой шанс — собственными руками лишить себя этого будущего.