Журнал "Компьютерра" N736
Шрифт:
Но, как вы понимаете, мы живем в правовом государстве. И если в 1937 году вас можно было арестовать и расстрелять только на том основании, что сосед по коммуналке, кажется, слышал, как вы во сне бормотали "Сталин, ты не прав", то сейчас недостаточно лишь записать разговор, состоявшийся между вашей мобилой и ее товаркой на другом конце страны. Необходимо доказать, что в руках эту мобилу держали и слова в микрофон говорили именно вы, а не гопник, пять минут назад выхвативший телефон из ваших рук. Исследование звукозаписей и идентификация по ним говорящего — труднейшая научная задача, которой занимается наука фоноскопия, получившая свое название от латинских слов фоно (звук) и скопус (смотреть). В других источниках ее называют фонографией
Как известно, первый прибор для фиксации звука был изобретен в 1877 году французом Шарлем Кро. Его детище, названное палеофоном, состояло из громадного рупора, собиравшего звук и передававшего его на мембрану, к которой была прикреплена иголка, процарапывающая звуковую дорожку на пластинке, покрытой сажей. К несчастью, даже чих над подобной пластинкой мог привести к фатальным последствиям, и в том же 1877 году Томас Эдисон создал фонограф, где звук наносился иглой уже на фольгу, обернутую вокруг воскового валика. А спустя десять лет появилась возможность не только сохранять, но и многократно воспроизводить без ущерба для носителя, а то и копировать звук, — Эмиль Берлингер запатентовал фонограф, чья игла оставляла глубокие царапины на воске, нанесенном на свинцовую пластину. Затем пластина подвергалась травлению кислотой, разъедавшей свинец в том месте, которое не было покрыто воском. Очистив свинец от остатков воска и кислоты, наши пращуры получали почти полноценную грампластинку, правда, меломану приходилось по совместительству быть культуристом.
Отсюда оставался всего один шаг до выбора более подходящего материала пластинки, и уже в 1907 году звукозаписи стали использовать в качестве вещественных доказательств на судебных процессах в США.
Так продолжалось до тех пор, пока кому-то не пришло в голову опротестовать тот факт, что записана именно его речь, и с той поры ученые исследуют те индивидуальные особенности организма, которые и делают наш голос таким уникальным и неповторимым. Заметное место среди этих ученых занимает Гуннар Фант, в семидесятых годах двадцатого века додумавшийся посадить испытуемых мужчин и женщин в специальное кресло, где они произносили четкие отдельные звуки, а их голосовой тракт при этом фотографировался в рентгеновском излучении. Так медики и сотрудники соответствующих органов узнали механизм произнесения звуков.
Оказалось, что в этом деле участвуют легкие, голосовые связки, язык, зубы и губы, а поскольку каждый из этих органов у человека индивидуален, то и их совокупное участие в процессе позволяет получить уникальный для каждого человека результат. Однако общие закономерности все же имеются. Попробуйте, например, произнести звук "У", а затем сразу "И". В первом случае язык будет глубоко во рту, а во втором — окажется вплотную к зубам. А вот при произнесении звука "Э" язык будет находиться примерно в среднем положении.
Теперь произнесите "У" и сразу "А". В первом случае рот почти полностью закрыт (поэтому звук "У" назы вается закрытым), а во втором — открыт. В среднем положении мы произносим звук "О".
Таким образом, легкие дают нам воздух, голосовые связки формируют из него некую несущую частоту, называемую частотой основного тона, а язык и губы формируют конечные звуки. В процессе участвуют даже верхние и нижние зубы. Поэтому произнесение звонких согласных детям и старикам дается труднее, чем глухих.
Поскольку получаемый таким образом звук — это волна, которая накладывается на другую волну — тот самый основной тон, формируемый легкими и голосовыми связками, то наступают моменты, когда эти волны входят в резонанс.
В это мгновение индивидуальные особенности человеческого организма выражены наиболее ярко. Звуковая частота, на которой происходит совпадение, называется формантой. Качественная звукозаписывающая аппаратура позволяет зафиксировать при произнесении, например, звука "И" до пяти формант.
Сочетание "согласная-гласная-согласная" называется триадой, именно такие сочетания и подвергаются анализу. Точно вымеренная совокупность частот у одинаковых триад будет для каждого человека индивидуальной.
Другими важными индивидуальными характеристиками являются длительность каждого звука, измеряемая в миллисекундах, и амплитуда звуковых колебаний или попросту сила звука, которая выражается в децибелах. Естественно, что, имея в распоряжении достаточно длинную запись и перемерив все эти индивидуальные характеристики для каждого из звуков, мы получим огромное количество цифр, которые и будут характеризовать акустические особенности речи конкретного индивидуума. И если сравнить их с точно такими же, вычисленными для фонограммы, на которой записана речь неизвестного, то мы легко отличим, когда говорит пародист Максим Галкин, а когда актриса, телеведущая и просто манерная женщина Рената Литвинова.
Но на этом наше разбирательство с особенностями звуковой волны не закончено. Пока мы анализировали только звуки, а теперь попробуем прикинуть, что может дать нам звуковая волна в целом. Вопервых, если мы имеем две абсолютно одинаковые фразы, одна из которых сказана неизвестным, а другая подозреваемым, то их, представленных в графическом виде (например, в виде осциллограммы), можно банально наложить друг на друга в любом графическом редакторе. И сравнить. Недостаток этого метода в том, что нужно искать именно одинаковые фразы, причем достаточно длинные, для наглядности. Во-вторых, метод можно усовершенствовать. Мы ведь помним про частоту основного тона, которая формируется легкими и голосовыми связками и которая тоже индивидуальна для каждого человека. Теперь представим звуковую волну в виде кривой на графике, где по оси Х откладывается время, а по оси У — амплитуда колебаний. Продолжая вспоминать школу, прикинем, что для определения площади под этой кривой нужно вычислить интег рал.
При этом большую часть времени звуковая волна, естественно, зависит именно от частоты основного тона, а не от пиковых значений, выдаваемых организмом на ударных гласных. И если добавить к значению интеграла еще и различные параметры, вроде среднего значения компонент амплитудночастотного спектра речи, вариации по времени огибающих спектра речи и коэффициентов кросскорреляции, то результаты подобного интегрального анализа тоже будут строго индивидуальны для каждого человека. И проводить подобный анализ можно на любом по длительности и произвольном по содержанию фрагменте речи.
До сих пор мы говорили только об акустической составляющей звука. А теперь давайте прислушаемся к тому, что, собственно, говорит человек. И здесь мы видим следующие признаки речевого потока в целом:высота голоса, тембр, артикуляция, темп речи, длительность и заполненность пауз, интонация. Можно также рассматривать, имеются ли запинки, общую сложность и грамотность речи. Ясно, что речь академика при таком подходе будет сильно отличаться от речи биндюжника.
Если опуститься на уровень ниже, то можно выделить для анализа признаки фраз и слов. Среди них наиболее показательны особенности синтаксических конструкций (простые или сложные, с повторами или без), употребление пояснений/уточнений, завершенность фраз, употребление нецензурных и вводных слов, просторечная лексика, слова-паразиты, расстановка ударений.