Психоакустическая модель
Добавить в закладки:
Психоакустическая модель — использование феномена восприятия человеком звука, для сжатия информации с потерями при хранении звуковой информации (например, в файлах mp3).
Человеческое ухо воспринимает только достаточно небольшую область спектра и терпимо относится к небольшим искажениям звука.
Поэтому отбрасывая несущественную часть спектра и изменяя при компрессии данные так, чтобы они лучше сжимались и при этом были 'приемлимо похожи на оригинал' можно добиться значительного увеличения коэффициента сжатия данных.
При этом коэффициент сжатия будет тем больше, чем больше приемлимая 'степени искаженности' вопроизводимого после декомпрессии звука по сравнению с оригиналом.
Как и при любом сжатии с потерями, данные после декомпрессии не будут в точности соответствовать оригинальным, однако будут 'похожи' на оригинальные согласно взятому при компрессии математическому критерию 'похожести'.
***********************************
Восприятие и сжатие звука
Автор: Дмитрий Шмунк
Copyright (C) 2000, Дмитрий Шмунк (dmitrijs@qdesign.com)
Все права в отношении данного документа принадлежат автору. Воспроизведение данного текста или его части допускается только с письменного разрешения автора.
Простые методы сжатия
Традиционные методы сжатия без потерь (Huffman, LZW, итд.) обычно плохо применимы для сжатия аудио информации (по тем же причинам что и при сжатии визуальной информации).
Ниже перечислены некоторые методы сжатия с потерями:
Сжатие тишины(пауз) - определяет периоды "тишины", работает аналогично run-length кодированию.
ADPCM - Adaptive Differential Pulse Code Modulation (в русскоязычной литературе применяется термин адаптивная дельта-импульсно-кодовая модуляция (АДИКМ).
Например, стандарт CCITT G.721 -- от 16 до 32 Kbits/sec:
Кодирование разницы между двумя или более последовательными отсчетами; затем разница квантуется --> при квантовании часть информации теряется. Квантование адаптивно (меняет параметры в зависимости от сигнала), в результате меньшее количество бит необходимо для достижения лучшего SNR. Необходимо предсказывать как звук изменится --> сложно
Apple разработал собстенную систему названную ACE/MACE. Сжатие с потерями, пытается предсказать, каково будет значение следующего отсчета. Сжатие порядка 2:1.
Linear Predictive Coding (LPC) - пытается описать сигнал с помощью "речевой модели" и передает параметры модели --> звучит как компьютерно синтезированная речь, 2.4 kbits/sec.
Code Excited Linear Predictor (CELP) - тоже самое что и LPC, однако дополнительно передает ошибку квантования (используя предопределенный набор "кодовых слов") --> телефонное качество при 4.8 kbits/sec.
Методы сжатия, основанные на психоакустике
Представители: MPEG layers 2, MPEG layer 3 (MP3), AAC (Advanced audio coding), TwinVQ, Ogg Vorbis, и др.
Алгоритм кодека использующего психоакустику обычно состоит из следующих шагов:
Обсчет психоакустической модели (маскирования).
Разделение сигнала на частотные подполосы (FFT, DCT/MDCT, FilterBanks, и т.д.).
Квантование сигнала в подполосах в соответствии с результатами психоакустической модели. Возможно использование одного квантового уровня. сразу для нескольких входных значений (векторное квантование - Vector Quantization) - TwinVQ.
Некоторые факты о восприятии звука
Частотный спектр воспринимаемый человеком (примерно) от 20 Hz до 20 kHz, наибольшая чувствительность в диапазоне от 2 до 4 KHz.
Динамический диапазон (от самых тихих воспринимаемых звуков до самых громких) около 96 dB (более чем 1 к 30000 по линейной шкале).
Общеизвестно, что человек в состоянии различить изменение частоты на 0.3% на частоте порядка 1kHz.
Если два сигнала различаются менее чем на 1дб по амплитуде - они трудноразличимы. Разрешение по амплитуде зависит от частоты и наибольшая чувствительность наблюдается в диапазоне от 2 до 4 KHz.
Пространственное разрешение (способность к локализации источника звука) - до 1 градуса.
Звуки различной частоты распространяются в воздухе с разной скоростью. В результате высокочастотная часть спектра от источника находящегося на удалении от слушателя несколько запаздывает.
Человек не в состоянии заметить внезапное исчезновение высоких частот, если оно не превышает порядка 2ms.
Некоторые исследования показывают, что человек в состоянии ощущать частоты выше 20kHz. С возрастом частотный диапазон сужается.
Речь
Частотный спектр, несущий информацию в человеческой речи: от 500 Hz до 2 kHz
Низкие частоты - басы и гласные
Высокие частоты - согласные
Лучшее сжатие речи достигается с использованием параметрических кодеров (LPC, CELP, и пр.), пытающихся представить речь как набор параметров некоторой речевой модели. Кодеки общего назначения (MPEG и др.), как правило, дают худшее сжатие.
Устройство уха
В общем случае ухо - нелинейная система и не может быть точно описано с помощью только линейных элементов (таких как фильтры и линии задержки). Как побочный результат нелинейности может проявляться, например, следующий эффект: при подаче двух тонов с частотой 1000 и 1200Hz может также быть слышен третий тон с частотой 800Hz. Однако в интересующем нас диапазоне амплитуд нелинейность достаточно слаба и ей обычно пренебрегают.
Строение
Ухо состоит из трех частей: ушной раковины (также называемой внешним ухом), среднего уха и внутреннего уха - улитки. Проходя через различные части уха звук претерпевает изменения.
Одна из функций внешнего уха (ушной раковины) - улучшение локализации источника звука в пространстве. Благодаря ее несимметричной форме АЧХ сигналов приходящих из разных точек пространства изменяется по разному. Ушная раковина может влиять лишь на сигналы с длинной волны, сопоставимой с размерами уха (>3kHz). Внешний ушной канал резонирует на частоте около 2kHz , что дает повышенную чувствительность в данном диапазоне.
Среднее ухо выполняет роль гидравлического усилителя. Так как в улитке находится жидкость а снаружи; - воздух, то необходимо согласование сопротивления среды. Среднее ухо также защищает от низкочастотных звуков чрезмерной амплитуды.
Внутреннее ухо - улитка. В развернутом виде будет представлять из себя трубочку, с постепенно уменьшающимся к одному из концов диаметром. Улитка выполняет роль частотного анализатора. Внутри улитки находятся до 4000 нервных окончаний. Различные области улитки входят в резонанс при подаче сигнала определенной частоты.
Восприятие в зависимости от частоты
Так как нейрон может возбуждаться не чаще чем 500 раз в секунду, то для получения информации о более высоких частотах слуховой аппарат человека прибегает к некоторым "ухищрениям":
На частотах до 500 Hz --> колебания непосредственно переходят в нервные импульсы.
Примерно до 1.5кГц проблема решается подключением одновременно до 3 нейронов к одному нервному окончанию. Нейроны в данном случае возбуждаются последовательно, один за другим и, соответственно, помогают улучшить частотное разрешение в 3 раза.
На более высоких частотах регистрируется лишь амплитуда сигнала.
Таким образом бинауральный слух, играющий большую роль в локализации источника звука, лучше всего развит на частотах меньших 1.5кГц. Выше этой частоты источником информации о местоположении служит лишь разница амплитуд сигнала для левого и правого уха. Это делает возможным применение при кодировании режимов Joint Stereo - запоминается либо информация для суммы правого и левого каналов и их разница, со значительно меньшей точностью (Mid/Side coding), либо вообще запоминается лишь амплитуда сигнала (Intensity coding).
Психоакустика
Критические полосы (Critical Bands)
Человеческая система восприятия звука имеет ограниченное, зависящее от частоты разрешение. Равномерное, с точки зрения восприятия человеком измерение частоты может быть выражено в единицах ширины Критических Полос.
Их ширина менее 100 Hz для нижних слышимых частот, и более 4 kHz для наиболее высоких. Весь частотный диапазон может быть разделен на 25 критических полос.
Новый отсчет частоты был назван барк (bark, after Barkhausen):
1 Барк = ширина одной критической полосы
Для частот <> 500 Hz: 9 + 4log2(частота / 1000) Барк.
Чувствительность человеческого уха в зависимости от частоты
Эксперимент: Слушатель в тихой комнате. Повышаем громкость тона частотой 1 kHz до уровня когда он становится слышимым. Изменяя частоту тона получим:
Частотное(параллельное) маскирование
Вопрос: Взаимодействуют ли звуковые рецепторы друг с другом ?
Эксперимент: Воспроизводим тон частотой 1 kHz (маскирующий сигнал), с фиксированной громкостью (60 dB). Воспроизводим тестовый (маскируемый) тон с различной громкостью (скажем с частотой 1.1 kHz), и повышаем его уровень до тех пор пока он не становится слышимым.
Изменяем частоту тестового тона и рисуем границу слышимости:
Повторяем эксперимент для различных частот маскирующего сигнала:
Частотное маскирование с частотной шкалой выраженной в Барках:
Временное(последовательное) маскирование
Если мы слышим громкий звук, который внезапно прекращается, требуется некоторое время чтобы услышать более тихий тон.
Эксперимент: Воспроизводим 1 kHz маскирующий тон на уровне 60 dB, и тестовый тон с частотой 1.1 kHz на уровне 40 dB. Тестовый тон не слышен (он замаскирован).
Отключаем маскирующий тон, затем, после небольшой задержки отключаем тестовый тон.
Уменьшаем время задержки до тех пор пока тестовый тон еще слышен (например 5 ms).
Повторяем используя различную громкость тестового тона и получаем:
Общий эффект от частотного и временного маскирования:
Транзиентные сигналы
Представленная выше теория маскирования верна в случае рассмотрения квазистационарных, медленно меняющихся по амплитуде и частотным характеристикам сигналов. В случае же рассмотрения сигналов с резко меняющимися параметрами (транзиентные сигналы) она неприменима.
Ухо в данном случае невозможно описать с помощью линейной системы. Теоретически обоснованных подходов для описания восприятия в данном случае автору не известно. Можно описать лишь несколько хорошо известных эффектов проявляющихся при кодировании данных сигналов:
Пре-эхо (pre-echo, ringing). Возникает перед резкими увеличениями амплитуды сигнала (атаками). При кодировании с недостаточным временным разрешением (и выделением недостаточного количества бит при квантовании) часть сигнала предшествующая атаке существенно искажается шумом квантования. Так как существует эффект пре-маскирования, то некоторое искажение допустимо, однако оно должно быть достаточно коротким по времени. Некоторые исследования показывают, что время пре-маскирования уменьшается с увеличением частоты сигнала.
Речевой сигнал. Голосовые участки речевого сигнала являются по своей природе часто идущими атаками с быстрым затуханием (pitched signals):
Стандартная психоакустическая модель маскирования сигналов в данном случае выдает завышенные пороги слышимости (из-за недостаточного временного разрешения) и, как результат, становится слышимым шум квантования.
Ссылки
Audio Compression - с этой странички переведен раздел психоакустика.
Human audio perception: masking - более подробное описание эффектов маскирования.
GSM 6.10 описание и исходники GSM кодека.
Каталог ссылок на различные ресурсы по MPEG аудио.
SQAM Sound Quality Assesment Material - критический аудио-материал. Использовался при тестировании MPEG кодеров, при сжатии проявляется большее количество искажений, чем при использовании обычных записей.
Copyright © 2000-2003 WebSound.Ru
***********************************************
Психоакустика
[править]
Материал из Википедии — свободной энциклопедии
Психоаку́стика — наука, изучающая психологические и физиологические особенности восприятия звука человеком.Содержание [убрать]
1 Предпосылки
2 Пределы восприятия звука
3 Что мы слышим
4 Эффект маскировки
4.1 Одновре́менная маскировка
4.2 Вре́менная маскировка
4.3 Постстимульное утомление
5 Фантомы
6 Психоакустика в программном обеспечении
7 См. также
8 Ссылки
[править]
Предпосылки
Во многих приложениях акустики и обработки звуковых сигналов необходимо знать, что люди слышат. Звук, который образуют волны давления воздуха, может быть точно измерен современным оборудованием. Однако понять, как эти волны принимаются и отображаются в нашем головном мозге — задача не такая простая. Звук это непрерывный аналоговый сигнал, который (в предположении, что молекулы воздуха бесконечно малы) может теоретически переносить бесконечное количество информации (может быть бесконечное число частот, содержащих информацию об амплитуде и фазе).
Понимание процессов восприятия позволит учёным и инженерам сосредоточиться на возможностях слуха и не учитывать менее важные возможности других систем. Важно также отметить, что вопрос «что человек слышит» не только вопрос о физиологических возможностях уха, но во многом также вопрос психологии, чёткости восприятия.
[править]
Пределы восприятия звука
Человеческое ухо номинально слышит звуки в диапазоне от 16 до 20 000 Гц. Верхний предел имеет тенденцию снижаться с возрастом. Большинство взрослых людей не могут слышать выше 16 кГц. Ухо само по себе не реагирует на частоты ниже 20 Гц, но они могут ощущаться через органы осязания.
Частотное разрешение звука в середине диапазона около 2 Гц. То есть изменение частоты более чем на 2 Гц ощущается. Однако есть возможность слышать ещё меньшую разницу. Например, в случае, если оба тона приходят одновременно, в результате сложения двух колебаний возникает модуляция амплитуды сигнала с частотой, равной разности исходных частот. Этот эффект известен также как биение.
Диапазон громкости воспринимаемых звуков огромен. Наша барабанная перепонка в ухе чувствительна только к изменению давления. Громкость звука принято измерять в децибелах (дБ). Нижний порог слышимости определён как 0 Дб, а определение верхнего предела слышимости относится скорее к вопросу, при какой громкости начнётся разрушение уха. Этот предел зависит от того, как долго по времени мы слушаем звук. Ухо способно переносить кратковременное повышение громкости до 120 дБ без последствий, но долговременное восприятие звуков громкостью более 80 дБ может вызвать потерю слуха.
Более тщательные исследования нижней границы слуха показали, что минимальный порог, при котором звук остаётся слышен, зависит от частоты. Этот график получил название абсолютный порог слышимости. В среднем, он имеет участок наибольшей чувствительности в диапазоне от 1 кГц до 5 кГц, хотя с возрастом чувствительность понижается выше 2 кГц.
Кривая абсолютного порога слышимости является частным случаем более общих — кривых одинаковой громкости. Кривые одинаковой громкости — это линии, на которых человек ощущает звук разных частот одинаково громкими. Кривые были впервые получены Флетчером и Мэнсоном (H Fletcher and W A Munson), и опубликованы в труде «Loudness, its definition, measurement and calculation» в J.Acoust. Soc Am.5, 82-108 (1933). Позже более точные измерения выполнили Робинсон и Датсон (D W Robinson and R S Dadson «A re-determination of the equal-loudness relations for pure tones» in Br. J. Appl. Phys. 7, 166—181 ,1956). Полученные кривые значительно различаются, но это не ошибка, а разные условия проведения измерений. Флетчер и Мэнсон в качестве источника звуковых волн использовали наушники, а Робинсон и Датсон — фронтально расположенный динамик в безэховой комнате.
Измерения Робинсона и Датсона легли в основу стандарта ISO 226 в 1986 г. В 2003 году стандарт ISO 226 был обновлён с учётом данных, собранных из 12 международных студий.
Существует также способ восприятия звука без участия барабанной перепонки — так называемый микроволновый слуховой эффект, когда модулированное излучение в микроволновом диапазоне (от 1 до 300 ГГц) воздействует на ткани вокруг улитки, заставляя человека воспринимать различные звуки.
[править]
Что мы слышим
Человеческий слух во многом подобен спектральному анализатору, то есть, ухо распознаёт спектральный состав звуковых волн без анализа фазы волны. В реальности фазовая информация распознаётся и очень важна для направленного восприятия звука, но эту функцию выполняют ответственные за обработку звука отделы головного мозга. Разница между фазами звуковых волн приходящих на правое и левое ухо позволяет определять направление на источник звука, причём информация о разности фаз имеет первостепенное значение, в отличие от изменения громкости звука воспринимаемого разными ушами. Эффект фильтрации передаточных функций головы также играет в этом важную роль.
[править]
Эффект маскировки
В определённых случаях один звук может быть скрыт другим звуком. Например, разговор на автобусной остановке может быть совершенно невозможен, если подъезжает шумный автобус. Этот эффект называется маскировкой. Говорят, что слабый звук маскируется, если он становится неразличимым в присутствии более громкого звука.
Различают несколько видов маскировки:
По времени прихода маскирующего и маскируемого звука:
одновре́менное (моноуральное) маскирование
вре́менное (неодновременное) маскирование
По типу маскируещего и маскируемого звуков:
чистого тона чистым тоном различной частоты
чистого тона шумом
речи чистыми тонами
речи монотонным шумом
речи импульсными звуками и т. п.
[править]
Одновре́менная маскировка
Любые два звука при одновременном прослушивании оказывают влияние на восприятие относительной громкости между ними. Более громкий звук снижает восприятие более слабого, вплоть до исчезновения его слышимости. Чем ближе частота маскируемого звука к частоте маскирующего, тем сильнее он будет скрываться. Эффект маскировки не одинаков при смещении маскируемого звука ниже или выше по частоте относительно маскирующего. Более низкочастотный звук сильнее маскирует высокочастотный.
[править]
Вре́менная маскировка
Это явление похоже на частотную маскировку, но здесь происходит маскировка во времени. При прекращении подачи маскирующего звука маскируемый некоторое время продолжает быть не слышимым. В обычных условиях эффект от временной маскировки длится значительно меньше. Время маскировки зависит от частоты и амплитуды сигнала и может достигать 100 мс.
В случае, когда маскирующий тон появляется по времени раньше маскируемого, эффект называют пост-маскировкой. Когда маскирующий тон появляется позже маскируемого (возможен и такой случай), эффект называют пре-маскировкой.
[править]
Постстимульное утомление
Нередко после воздействия громких звуков высокой интенсивности у человека резко снижается слуховая чувствительность. Восстановление обычных порогов может продолжаться до 16 часов. Этот процесс называется «временный сдвиг порога слуховой чувствительности» или «постстимульное утомление». Сдвиг порога начинает появляться при уровне звукового давления выше 75 дБ и соответственно увеличивается при повышении уровня сигнала. Причём наибольшее влияние на сдвиг порога чувствительности оказывают высокочастотные составляющие сигнала.
[править]
Фантомы
Иногда человек может слышать звуки в низкочастотной области, хотя в реальности звуков такой частоты не было. Так происходит из-за того, что колебания базилярной мембраны в ухе не являются линейными и в ней могут возникать колебания с разностной частотой между двумя более высокочастотными.
Этот эффект используется в некоторых коммерческих звуковых системах, чтобы расширить область воспроизводимых низких частот, если невозможно адекватно воспроизвести такие частоты напрямую.
[править]
Психоакустика в программном обеспечении
Психоакустические модели слуха позволяют с высоким качеством производить компрессию сигнала с потерей информации (когда восстановленный сигнал не совпадает с исходным), за счет того, что позволяют точно описать, что можно безопасно удалить из исходного сигнала — то есть, без значительного ухудшения качества звука. На первый взгляд может показаться, что вряд ли это позволит обеспечить сильное сжатие сигнала, однако программы, использующие психоакустические модели позволяют добиться уменьшения объемов файлов с музыкой в 10—12 раз, и при этом разница в качестве будет не очень значительна.
К таким видам компрессии относятся все современные форматы сжатия звука:
MP3
Ogg Vorbis
WMA
AAC
Musepack
ATRAC используется в формате MiniDisc и в некоторых портативных MP3-плеерах Sony
Musicam (используется для цифрового аудиовещания в некоторых странах)
[править]
См. также
Восприятие
Ощущение
[править]
Ссылки
Основы психоакустики. Слуховая маскировка
Основы психоакустики. Слуховые пороги
Это незавершённая статья по психологии. Вы можете помочь проекту, исправив и дополнив её.
Это незавершённая статья по физиологии. Вы можете помочь проекту, исправив и дополнив её.
***********************************************
Психоакустическая модель
Блок психоакустической модели ПАМ управляет квантованием и кодированием, определяя параметры выполняемых при этом операций так, чтобы обеспечить наименьшую заметность искажений, создаваемых квантованием (шумов квантования). В стандартах MPEG-1,2 предусмотрены 2 варианта ПАМ, отличающиеся числовыми параметрами.
Одним из факторов, учитываемых в ПАМ, является различная чувствительность слуха на разных частотах. Кроме того, алгоритм работы ПАМ учитывает явление маскирования (или маскировки) одних звуков другими. Чтобы выполнить распределение битов, в блоке ПАМ анализируется спектр исходного звукового сигнала (не разложенного на поддиапазоны). Для этого в блоке БПФ производится быстрое преобразование Фурье участков этого сигнала по 512 (Layer I) или по 1024 (Layer II и Layer III) отсчетов, после чего вычисляются спектр мощности звукового сигнала и величины звукового давления в каждом частотном поддиапазоне.
Затем анализируются тональные (синусоидальные) и нетональные составляющие звукового сигнала, определяются локальные и глобальный пороги маскировки и вычисляются отношения сигнал/маскирующий сигнал для всех поддиапазонов, на основании которых производится распределение битов по поддиапазонам (Layer I и Layer II) или выбор параметров обработки коэффициентов МДКП (Layer III).
В тех поддиапазонах, в которых искажения звука, вызываемые квантованием, менее заметны для слушателя или маскируются большим уровнем сигнала в других поддиапазонах, квантование делается более грубым, т.е. для этих поддиапазонов выделяется меньше битов. Для полностью маскируемых поддиапазонов битов совсем не выделяется. Благодаря этому удается существенно уменьшить количество передаваемой информации при сохранении достаточно высокого качества звука.
Как уже отмечалось, ширина поддиапазонов одинакова. Например, если частота дискретизации равна 44,1 кГц, то каждый поддиапазон имеет ширину 690 Гц. В то же время ширина так называемого критического диапазона частот (critical band), в котором маскирование сказывается существенно, зависит от положения этого диапазона на оси частот. На частотах порядка 100 Гц ширина критического диапазона около 50 Гц, а на частотах порядка 10 кГц - почти 1,5 кГц. Поэтому разделение сигнала на одинаковые частотные поддиапазоны неоптимально с точки зрения получения наилучшего качества звука, хотя и наиболее удобно для реализации.
На уровне Layer III сигнал каждого поддиапазона проходит МДКП, каждый коэффициент которого представляет частотную составляющую. Всего таких составляющих 18 в каждом поддиапазоне. Шаг по оси частот, таким образом, уменьшается в 18 раз, т.е. до примерно 38 Гц при частоте дискретизации 44,1 кГц. Это меньше ширины самого узкого критического диапазона. В пределах одного частотного поддиапазона блоки коэффициентов МДКП (scalefactor bands) могут квантоваться по-разному, что позволяет более точно учесть маскирование на разных частотах. Это позволяет говорить об увеличении разрешения по частоте в 18 раз, достигаемом на Layer III.
Еще одно усовершенствование, введенное на Layer III - итерационный алгоритм распределения битов. Этот алгоритм предусматривает многократное определение параметров квантования и величин искажений, вносимых квантованием, с целью получения наилучшего качества воспроизводимого звука при заданной степени сжатия.
**********************************************
Комментариев нет:
Отправить комментарий