Чтение онлайн

на главную - закладки

Жанры

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
Шрифт:

Психология 29-летнего выпускника университета

Поскольку мы, очевидно, не имели достаточно времени для завершения задачи своими силами, было ясно, что нужно объединить усилия с Google. Но как?

Возможность для этого представилась, когда в 2007 году жену Эреца Авиву Эйден пригласили в Googleplex – штаб-квартиру Google – для вручения награды как одной из женщин, занимающихся компьютерными науками. Эрец отправился с ней и умудрился попасть в кабинет Питера Норвига, знаменитого директора по исследованиям в Google [85] .

85

Информацию об учебном курсе MOOC можно

найти в Introduction to Artificial Intelligence, доступно в сети Интернет:Учебник Норвига: Russell Stuart J., Norvig Peter. Artificial Intelligence: A Modern Approach. Englewood Cliffs, NJ: Prentice Hall, 1995.

Норвиг – пионер в области искусственного интеллекта. Он написал классический учебник по этому вопросу. А когда он говорит, люди его слушают. Например, осенью 2011 года Норвиг и Себастьян Тран организовали первый в мире массовый открытый учебный курс в сети Интернет. Этот курс по вопросам искусственного интеллекта, созданный вместе со Стэнфордским университетом, оказался невероятно популярен – на него записалось свыше 160 000 слушателей. И благодаря ему началась подлинная революция в области высшего образования.

И при всем этом у Норвига довольно неожиданный подход к собраниям и встречам. Он не любит много говорить. По сути, распознать, что скрывается за непроницаемым лицом Норвига, слушающего собеседника, даже сложнее, чем прочитать всю коллекцию книг, отсканированных Google. Затем, через некоторое время, он обычно говорит нечто либо очень глубокомысленное, либо совершенно не связанное с ходом вашего повествования. И только тогда вы понимаете, удалось ли вам его убедить.

Выслушав почти часовую презентацию Эреца, Норвиг наконец раскрыл свои карты. «Все это звучит прекрасно, но как мы сможем это реализовать, не нарушая закона об авторских правах?»

Психология юридического отдела компании из рейтинга Fortune 500

После того как Google в 2004 году публично заявила о своем намерении оцифровать все книги в мире, книгоиздательская отрасль начала – по вполне понятным причинам – нервничать. Что значит для нее, если по изданным книгам можно будет осуществлять поиск в сети Интернет? Каким именно содержимым Google хотела поделиться с аудиторией? И даже если она собиралась соблюдать закон об авторском праве, то как она могла понять, кому именно принадлежат права на ту или иную книгу? Может быть, Google просто поставит с ног на голову всю отрасль, как это сделала Apple с iTunes в области музыки?

Вскоре появились и первые иски. 20 сентября 2005 года организация Authors Guild, представляющая большое количество независимых авторов, подала групповой иск. 19 октября свой собственный иск подала Американская ассоциация издателей, представлявшая интересы крупнейших издателей McGraw-Hill, Penguin USA, Simon & Schuster, Pearson Education и John Wiley. Оба иска заявляли о «широкомасштабном нарушении авторского права». В 2006 году в схватку вступили французские и немецкие издатели, а к марту 2007 года – и конкуренты Google. Томас Рубин, один из старших юристов Microsoft, подготовил ряд заметок, критиковавших усилия Google по оцифровке и утверждавших, что Google «систематически нарушает авторские права» и «лишает людей важнейших стимулов для творчества». Проект Google Books быстро стал одной из самых горячих правовых точек в истории больших данных [86] .

86

«Википедия» внимательно следила за судебными разбирательствами, их непростым и непрерывным потоком. См. Google Book Search Settlement // Wikipedia (23 июня 2013 г.), доступно в сети Интернет:Некоторые юридические аспекты обсуждаются в статье Trigona Giovanna Occhipinti. Google Book Search Choices // Journal of Intellectual Property Law and Practice 6, no. 4 (10 марта 2011 г.). P. 262–273. В более общем виде эта же информация содержится в книге Leaffer Marshall A. Understanding Copyright Law, 5th ed. Albany, NY: Matthew Bender, 2011. Довольно подробная библиография по этому вопросу приведена в работе Bailey Charles W., Jr. Google Books Bibliography // Digital Scholarship, 2011, доступно в сети Интернет:См. комментарии Рубина на сайте Rubin Thomas C. Searching for Principles: Online Services and Intellectual Property // Microsoft,

доступно в сети Интернет: http://goo.gl/GX3CB.

Проблемы Google Books являются предвестником юридических проблем, с которыми совсем скоро столкнутся исследования больших данных. Самые интересные массивы больших данных часто находятся в руках крупных корпораций – аналогов Google, Facebook, Amazon и Twitter во всем мире. Но это еще не значит, что данные им принадлежат. Обычно источником данных оказываются отдельные люди, написавшие книгу, создавшие веб-страницу или сделавшие фотографию. Эти люди сохраняют за собой значительные права на данные – и это вполне нормально, поскольку данные представляют собой их творчество. Права могут принимать форму копирайта, авторского права, прав на интеллектуальную собственность и другие. Поэтому данные не являются ни частными, ни общедоступными. Вместо этого они находятся в зоне общих прав на совместное использование, на ничейной земле, где проживает много миллионов заинтересованных людей, ни одно лицо не имеет полного авторитета, а юридический статус происходящего часто туманен.

Для ученых эта ситуация ведет к полному изменению правил игры. Мы привыкли к миру, в котором мы создаем или получаем данные, а затем анализируем их любым желательным для нас образом. В некоторых случаях ученому может потребоваться одобрение со стороны научного совета по этике. Однако традиционный подход мог сделать незаконным и неэтичным каждое из исследований в области больших данных, упомянутых нами во «Введении», – от произведенного Левином анализа eBay до проведенного Барабаши исследования движений мобильного телефона. В мире больших данных получить все сразу и проанализировать это позднее невозможно ни по практическим, ни по моральным соображениям. Как можно воспользоваться всеми преимуществами больших данных, если их не хотят – или даже не имеют права – передать нам?

Вопрос Норвига заставил нас задуматься над этой важнейшей проблемой.

Большие данные и их большая тень

Если бы мы попросили Google просто передать нам полные тексты всех книг мира, эта просьба повисла бы в воздухе. К счастью, это было не нужно.

Дело в том, что большие данные отбрасывают большие тени. Подобно тому как тень представляет собой темную проекцию реального объекта – визуальную трансформацию, сохраняющую некоторые характеристики изначального объекта, при этом искажающую остальные, тень данных сохраняет часть изначальной информации. Хотя анализ тени представляет собой скорее искусство, а не науку, он крайне важен для успеха при работе с большими данными. Неправильная тень может оказаться этически сомнительной, юридически ущербной и бесполезной с научной точки зрения. Но если вы выберете правильный угол, то, возможно, вам удастся справиться с юридически и этически чувствительными элементами изначального массива данных, сохраняя при этом значительную часть его содержания.

Если вам повезет, создание тени для набора данных становится простым процессом. Например, часто проблема большого массива данных состоит в том, что он придает огласке конфиденциальную и личную информацию. В этом случае можно просто удалить имя человека, связанного с каждой записью. Но такая простая ситуация возникает крайне редко. Проблема состоит в том, что множество больших массивов данных настолько перенасыщено информацией, что при ближайшем рассмотрении имя человека становится лишним. Данные содержат так много определяющих характеристик, что под них часто подпадает один-единственный житель планеты. И в этом случае удаление имени нам мало чем поможет.

Компания America Online усвоила этот печальный урок в 2006 году, когда, пытаясь помочь научным исследованиям, предоставила в открытый доступ поисковые логи более чем 650 000 пользователей [87] . Разумеется, AOL отредактировала их – имена людей были исключены, а идентификатор каждого пользователя был заменен на ничего не значащую цифровую комбинацию. AOL посчитала, что это обеспечит должную степень конфиденциальности пользователей. Однако компания сильно ошиблась.

87

См. Barbaro Michael, Zeller Tom, Jr. A Face Is Exposed for AOL Searcher No. 4417749 // New York Times (9 августа 2006 г.), доступно в сети Интернет:About AOL Search Data Scandal, доступно в сети Интернет: http://goo.gl/6hnfuI.

Поделиться:
Популярные книги

Вперед в прошлое 2

Ратманов Денис
2. Вперед в прошлое
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Вперед в прошлое 2

Главная роль 4

Смолин Павел
4. Главная роль
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Главная роль 4

Крестоносец

Ланцов Михаил Алексеевич
7. Помещик
Фантастика:
героическая фантастика
попаданцы
альтернативная история
5.00
рейтинг книги
Крестоносец

Отмороженный 3.0

Гарцевич Евгений Александрович
3. Отмороженный
Фантастика:
боевая фантастика
рпг
5.00
рейтинг книги
Отмороженный 3.0

Я еще не князь. Книга XIV

Дрейк Сириус
14. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я еще не князь. Книга XIV

Идеальный мир для Лекаря 26

Сапфир Олег
26. Лекарь
Фантастика:
аниме
фэнтези
5.00
рейтинг книги
Идеальный мир для Лекаря 26

Кодекс Крови. Книга IV

Борзых М.
4. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга IV

Снегурка для опера Морозова

Бигси Анна
4. Опасная работа
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Снегурка для опера Морозова

Шериф

Астахов Евгений Евгеньевич
2. Сопряжение
Фантастика:
боевая фантастика
постапокалипсис
рпг
6.25
рейтинг книги
Шериф

Измена. Он все еще любит!

Скай Рин
Любовные романы:
современные любовные романы
6.00
рейтинг книги
Измена. Он все еще любит!

Неудержимый. Книга III

Боярский Андрей
3. Неудержимый
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Неудержимый. Книга III

Чужая семья генерала драконов

Лунёва Мария
6. Генералы драконов
Фантастика:
фэнтези
5.00
рейтинг книги
Чужая семья генерала драконов

Адвокат вольного города

Парсиев Дмитрий
1. Адвокат
Фантастика:
городское фэнтези
альтернативная история
аниме
5.00
рейтинг книги
Адвокат вольного города

Изгой Проклятого Клана. Том 2

Пламенев Владимир
2. Изгой
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
5.00
рейтинг книги
Изгой Проклятого Клана. Том 2