Как музыка стала свободной. Конец индустрии звукозаписи, технологический переворот и «нулевой пациент» пиратства
Шрифт:
К Бранденбургу и Гриллу присоединились ещё четверо исследователей из Фраунгофера. Это Хайнц Герхойзер, руководивший институтской группой изучения аудио; Харальд Попп, специалист по «железу»; Эрнст Эберляйн, эксперт в обработке сигнала; Юрген Херре, выпускник, чьи математические таланты почти равнялись талантам Бранденбурга. Впоследствии они назвали себя «первой шестёркой».
Они начали работать в 1987 году, занявшись созданием коммерческого продукта на основе патента Бранденбурга. Группа определила два направления разработок. Первый: алгоритм сжатия Бранденбурга можно использовать для «потока» (стриминга) музыки — доставки её слушателю с сервера, что предвидел Зайтцер. Второй: алгоритм Бранденбурга для «хранения» музыки, то есть создания музыкальных файлов, которые хранятся на персональном компьютере
Создавалось это очень долго. Компьютерная техника ещё пребывала в ясельном возрасте, большую часть аппаратуры команде приходилось создавать собственными руками. Лаборатория представляла собой море проводов, низкочастотных динамиков, устройств обработки сигнала, проигрывателей компакт-дисков, конвертеров. Алгоритм Бранденбурга надо было внедрять в программу чипа, а процесс этот занимал несколько дней. Как только чип был готов, с его помощью сжимали десятисекундный фрагмент с компакт-диска, потом команда сравнивала звучание. Когда разница была слышна (а поначалу её вообще было невозможно не услышать), они уточняли алгоритм и сжимали заново.
Начинали с верхов, с малой флейты, потом шли вниз, прорабатывая всю гамму. Грилл, с детства одержимый акустикой, сразу понял, что эта технология сжатия очень далека от того качества, которое можно продавать. Алгоритм Бранденбурга создавал целый ряд непредсказуемых помех. Иногда звук получался «мутным», как из-под воды, иногда шипел, как статические помехи в средневолновом радио.
Иногда запись «удваивалась», как будто её наложили дважды. Хуже всего было «пре-эхо» — странный феномен, когда призрак музыкальной фразы появляется за несколько миллисекунд до самой фразы. Математический расчёт Бранденбурга был элегантен и даже очень красив, но он не вполне соответствовал «неправильному» восприятию органов слуха. Чтобы смоделировать человеческое слуховое восприятие, команде учёных требовались люди для тестов, и эти подопытные кролики должны быть обучены различать все ошибки на уровне Грилла. Как только будет создана такая экспертиза, можно проводить тысячи тысяч испытаний: контролируемых, случайных, на «двойном слепом» методе.
В это требующее огромного количества времени дело Грилл погрузился с энтузиазмом. Он обладал, что называется, золотыми ушами: различал микротоны и такие высокие частоты, которые слышат только маленькие дети и собаки. У него был слух, как нюх у парфюмера, и это обострённое чувство позволяло ему выявлять и оценивать определённые чувственные феномены — на самом деле, реалии, другим просто недоступные.
Перед Гриллом стояла задача подобрать материал для теста, и он прочесал всю свою колоссальную коллекцию, отобрав все мыслимые стили музыки: фанк, джаз, рок, ритм-н-блюз, метал, классику, вообще всё, кроме рэпа. Рэп он не любил. Грилл хотел обработать всё алгоритмом Бранденбурга, дабы быть уверенным в том, что он работает в любом случае.
Используя щедрый исследовательский бюджет Фраун гофера, Грилл принялся собирать всякие необычные шумы. Он нашел записи голосов, быстро болтающих, с тяжелым акцентом. Нашел птичьи крики и шум толпы, клацанье кастаньет и расстроенные клавесины. Свой излюбленный экземпляр коллекции он добыт во время поездки в головной офис компании Boeing в Сиэтле — там, в сувенирном магазинчике он нашел сборник аудиосэмплов рёва реактивных двигателей. Также по просьбе Грилла Фраунгофер закупил несколько пар наушников Stax, по тысяче долларов за каждую. Это японского производства «электроакустические ушные динамики» размером с кирпич, которым ещё требовался отдельный усилитель. Штука очень дорогая и крайне непрактичная, но Грилл считал, что она — самое тонкое устройство в истории аудиотехники. Любое звуковое несовершенство в этих наушниках обнаруживалось с предельной ясностью, так что можно было выявлять проблемы и решать их.
Алгоритм сжатия, подобно сокращающемуся лучу света, мог нацеливаться на разные размеры конечного файла [8] . Сжатые вполовину, файлы звучали пристойно. В четверть — ок, нормально. В марте 1988 года Бранденбург «изолировал» запись соло фортепиано, а потом запрограммировал такой большой коэффициент сжатия, на который только мог решиться: то есть вот этот безумный 1/12 от CD, придуманный Зайтцером. Файл получился полным ошибок. Бранденбург потом говорил, что пианист звучал «как пьяный». Но, несмотря на это, такой вот опыт непростого прослушивания придал ему уверенности — он впервые понял, как можно достичь цели, поставленной Зайтцером.
8
Алгоритм Бранденбурга с технической точки зрения работал так: он повторял операцию с источником аудио много раз до тех пор, пока не достигался нужный битрейт. Каждое повторение упрощало информацию, то есть для записи использовалось меньше битов. Для создания mp3 на 128 kbps требовалось больше подходов, чем для 256 kbps, поэтому его качество всегда будет ниже.
С развитием мощностей процессоров, дело пошло быстрее. Год алгоритм Бранденбурга применяли к широкому спектру записанной музыки. Вехой для команды стала «Увертюра 1812 года» Чайковского, следующей — Трейси Чапман, а потом ещё одной — песня Глории Эстефан (Грилл был двинут на «латино»). В конце 1988 года команда совершила первую сделку: доставила mp3-кодировщик первому в истории пользователю mp3 — крошечной миссионерской радиостанции на далёком марианском острове Сайпан.
Однако, один вид аудиозаписей всё ещё не поддавался хорошей оцифровке — то, что Грилл, не слишком хорошо знавший английский, называл «одиноким голосом», имея в виду, конечно, один голос без аккомпанемента. Изолированную человеческую речь невозможно было психоакустически замаскировать. Хаффмановский принцип распознавания тоже не годился, потому что в человеческой речи главное — динамика: взрывные звуки, шипящие, сильный приступ. Алгоритм сжатия Бранденбурга справлялся с симфониями, гитарными соло, артиллерийским орудием, даже с «Оуе mi canto», а с выпуском новостей — всё ещё нет.
Зашедший в тупик Бранденбург начал изолировать сэмплы «одиноких» голосов. Первый — запись трудных диалектов немецкого языка, которые морочили голову инженерам годами. Второй — кусочек вокала Сьюзен Веги, первые такты хита «Tom's Diner». Песню часто играли по радио, так что вы, наверное, помните акапелльное вступление к нему:
Тут-ту-туу-ду
Тут-ту-туу-ду
Тут-ту-туу-ду
Тут-ту-туу-ду.
У Веги очень красивый голос, но в оцифрованном виде он поначалу звучал так, как будто крысы грызут плёнку.
В 1989 году Бранденбург защитил диссертацию, став «доктором философии». Потом он, захватив свои голосовые сэмплы, отправился на работу в лаборатории Белла AT&T в Мюррей-Хилл (штат Нью-Джерси). Там он работал с Джеймсом Джонстоном, специалистом по кодированию голоса. Джонстон и Бранденбург оказались как Ньютон и Лейбниц [9] — независимо друг от друга и практически одновременно они оба нашли одинаковый математический подход к моделированию психоакустики.
9
Подобно Ньютону, Джонстон заявлял, что первым нашёл этот путь, и довольно резковато и упрямо рассказывал о публичной презентации, которую он провёл в 1984 году в Торонто, на которой представил концепцию бесконечного кодирования, предвосхитившую идею Бранденбурга примерно на два года. Но AT&T не осознало ценности его исследований, а Бранденбург подал заявку на патент первым.
Какое-то время они пытались «метить территорию», но потом всё-таки решили объединить усилия. Весь 1989 год в Эрлангене и Мюррей-Хилл параллельно проходили тестовые прослушивания, но американские «кролики» оказались менее терпеливыми, чем немецкие. Прослушав тот крысами обгрызенный четырёхсекундный сэмпл «Tom's Diner» несколько сот раз, добровольные участники эксперимента взбунтовались, и Бранденбургу пришлось прервать эксперимент. Тут, в Нью-Джерси, он слушал Сьюзен Вегу, а в Берлине в это самое время рухнула Стена.