Использование цифровых регистраторов устной речи в уголовном и гражданском судопроизводстве имеет серьезные препятствия, без устранения которых электронные документы с речевой информацией не могут иметь доказательственного значения. Первые результаты изучения данной проблемы показывают, что она имеет комплексный характер и требует разработки как организационно-правовых мероприятий фиксации фонограмм, так и разработки новых экспертных методик их исследования. Именно в данных направлениях проводятся научные разработки Киевского НИИСЭ.
Настоящая статья посвящена отдельным аспектам экспертного исследования цифровых фонограмм и отражает как результаты проводимых НИР так и экспертной практики.
Впервые цифровой диктофон как устройство регистрации и носитель информации поступил в КНИИСЭ на экспертизу более года назад. К тому времени в лаборатории уже были определенные наработки по цифровому монтажу, однако в процессе исследования конкретного диктофона выяснились отдельные обстоятельства, требующие серьезной научной проработки.
Суть проблемы заключается в том, что цифровой диктофон не просто оцифровывает звуковой сигнал, но и применяет к этому сигналу мощный алгоритм компрессии речи. Ряд таких алгоритмов успешно применяется в цифровой связи (в т.ч. GSM телефонии), откуда они и позаимствованы создателями диктофонов. Несмотря на определенные различия, во всех этих алгоритмах заложен единый принцип сжатия: данные о форме сигнала преобразуются в данные некоторой модели речеобразующего тракта человека, т.е. по принципу действия цифровые диктофоны являются вокодерами. Более того: данные, полученные в результате вычислений характеристик речеобразующего тракта, весьма загрублены вследствие приведения их таблицам наиболее распространенных значений то ли обобщенной речи вообще (фиксированные кодовые книги), то ли речи конкретного диктора (адаптивные кодовые книги). Разрядность кодовых книг выбирается минимальной исходя из компромисса между распознаваемостью речи и степенью сжатия. Естественно, при таком преобразовании часть информации безвозвратно теряется. Также очевидно, что трудно ожидать от такого алгоритма передачи акустических сигналов адекватно натуральной речи.
Рассмотрим эти явления на примере диктофонов TOSHIBA DMR SX-1 и 2, как наиболее изученных в лаборатории фоноскопии КНИИСЭ. В этих моделях диктофонов в качестве носителя данных применяются модули флэш-памяти SmartMedia до 16 (SX-1) или 64 (SX-2) мБ. Компрессия речевого сигнала осуществляется по алгоритму, описанному в рекомендациях ITU G.729 (CS-ACELP). Упомянутый стандарт сжатия является одним из наиболее мощных и при минимальном потоке данных обеспечивает вполне удовлетворительное качество разборчивости воспроизводимой речи. Определенным недостатком является несколько чрезмерная ресурсоемкость алгоритма (на момент его разработки ресурсов ПЭВМ, младших Pentium, было недостаточно для работы в реальном времени). Имеется также режим фильтрации входного сигнала, предназначенный для подавления акустических помех от работающей бытовой техники, транспортных средств и т.п. В этом режиме перед применением алгоритма сжатия осуществляется дополнительная входная адаптивная фильтрация сигнала.
Как и вся цифровая техника, эти диктофоны весьма чувствительны к уровню сигнала. Если при нормальном уровне входного сигнала наблюдается достаточно точное восстановление речи, то при пониженном, вследствие некачественного выделения параметров речи и перехода на кодирование только по адаптивной кодовой книге, наблюдаются существенные спектральные искажения, которые впрочем, влияют скорее на узнаваемость, чем на разборчивость речи. Применение входной фильтрации при записи ухудшает качество передачи речи вследствие вносимых при этом существенных спектральных искажений.
Характерной особенностью вокодеров является заполнение пауз т.н. "комфортным" шумом. Эта идея также задействована в данных диктофонах: паузы заполняются шумом, спектральный состав которого близок к белому, а аудиторное восприятие отдаленно напоминает льющуюся воду, или же наводки аналогового сигнала тональной телефонии.
Как и большинство вокодеров, указанный алгоритм сжатия имеет в своем составе детектор "тон-шум". Все известные на сегодняшний день детекторы тона имеют выраженный дефект: ложное детектирование тона в интенсивных шумовых сигналах. Вследствие этого шипящие звуки устной речи и многие акустические сигналы шумового характера "озвончиваются". Также некорректно передаются акустические сигналы, имеющие шумовую основу и незначительные гармонические составляющие. Так, например, в стуке по деревянному столу нереалистично сильно слышны (и, соответственно, видны на сонограмме) резонансные частоты столешницы.
Как видно из вышесказанного, идентификация диктора по физическим признакам речи, диагностика акустического окружения и лингвистический анализ фонетических признаков речи сопряжены с определенными проблемами. Основная из них имеет принципиальный методологический характер, заключающийся в том, что исследованию подлежит синтезированный по кодовой книге речевой сигнал. Без решения вопросов достоверности воспроизводимого сигнала и границ допустимых его искажений перспективы экспертного исследования речевого сигнала не ясны. В настоящее время отрабатываются методы и критерии оценки таких сигналов и проводится научная работа по установлению применимости существующих методик и, соответственно, их адаптации к цифровым диктофонам.
Подобная ситуация складывается и с решением технических вопросов достоверности фонограмм. Традиционные методики исследования на предмет монтажа фонограмм малоприменимы к указанной технике. В первую очередь это связано с тем, что при восстановлении фонограммы с целью сглаживания производится пост-фильтрация восстановленного сигнала. По этой причине, а также вследствие неадекватности передачи импульсных сигналов вмешательство в файлы фонограмм проявляет себя только на контекстно-зависимом уровне. По крайней мере, на настоящий момент выделить какие-либо физические признаки такого вмешательства нам не представилось возможным.
С другой стороны, диктофоны, оснащенные съемными модулями памяти, могут быть исследованы методами компьютерно-технической экспертизы. Изучение особенностей строения файловой системы диктофонов TOSHIBA DMR SX-1 и 2 показало, что файлы, записанные этими диктофонами можно отличить от таковых, записанных на носитель при помощи компьютера. Некоторые особенности проявляются также в работе с каталогами, удалении файлов, форматировании носителя и т.п. В полной мере это может быть использовано в случае, когда диктофон не имеет средств редактирования фонограмм.
Теоретически ничто не мешает исследовать таким образом и диктофоны со встроенными модулями памяти, но это требует создания специальной аппаратуры, что в настоящее время нам не под силу.
Таким образом, в КНИИСЭ сложилась практика совместного исследования цифровых записывающих устройств (кроме диктофонов в практике встречались также MD рекордеры) экспертами фоноскопистами и "компьютерщиками". И, если по мере наработки методик, участие специалистов в области компьютерно-технической экспертизы в идентификационных исследованиях сократится за счет учета особенностей алгоритмов не в конкретных исследованиях, а на уровне методики, то в техническом исследовании их роль похоже закрепится.
Технологичность, простота и постоянное удешевление цифровых регистраторов различной информации (в том числе и речевой) создает предпосылки массового их использования, на основании чего можно полагать, что они все чаще будут попадать в сферу уголовного и гражданского судопроизводства. Поэтому разработка теоретических и практических подходов к экспертному решению указанных проблем является весьма актуальной.
2001