Форматы представления аудиофайлов
В этом разделе речь пойдет о цифровых форматах, хранящих звук файлов. Иначе говоря, - о хранении оцифрованного звука. Напряжение, передаваемое по телефонным каналам и несущее звук, представляет собой аналоговый сигнал достаточно сложной формы. Чтобы преобразовать такой сигнал в цифровую форму, необходимо выполнить последовательно две операции: дискретизацию и квантование.



Частоту дискретизации определить достаточно просто. В соответствии стеоремой Котельникова частота дискретизации должна быть вдвое больше максимальной частоты спектра звукового сигнала. Принятая в настоящее время частота дискретизации для аудио-CD составляет 44100 Гц, т. е. максимальная воспроизводимая частота звукового спектра составляет 20050 Гц, что превышает диапазон звуков, воспринимаемых ухом человека. Это обеспечивает идеальное звучание таких устройств. Частота дискретизации в телефонных сетях составляет 8000, что более чем в два раза превышает полосу пропускания телефонного канала, равную 3000 Гц.
Количество уровней или разрядность квантования характеризует точность передачи уровня звукового сигнала. Действительно, при 256 уровнях квантования или представлении уровня звука с помощью 8 бит информации, величина погрешности квантования равна половине расстояния между соседними уровнями, так как к именно с этой точностью значение электрического напряжения может быть преобразовано в цифровой код (притом условии, что наименьшему уровню сигнала, обозначенному min на рис. 3.4

отнесено к одному из двух соседних уровней, между которыми находится реальное значение сигнала. Сказанное иллюстрируется рис. 3.4

Закодированные описанным способом цифровые аудиоданные характеризуются значительной избыточностью, т. е. они могут быть упакованы, а затем восстановлены без всякой потери качества. Однако применение для сжатия цифрового аудио архиваторов обычного типа, таких как ARJ или ZIP, позволяет сжать исходный файл приблизительно лишь на 20%, т. е. оно неэффективно.
Основная идея сжатия аудиосигнала с потерями - пренебрежение теми фрагментами звука, которые лежат вне пределов восприятия человеческого уха. Первая такая возможность определяется маскирующим эффектом, в соответствии с которым сильные звуки приводят к невосприимчивости уха к слабым в том же самом частотном диапазоне. Поэтому слабые звуки можно кодировать с малым количеством уровней, в результате чего сокращается количество информации, используемое при кодировании звука.
Далее, весь частотный диапазон делится на подполосы, каждая из которых обрабатывается отдельно, причем маскирующий эффект используется как внутри каждой подполосы, так и между ними, т. е. очень мощный звук в одной из подполос приводит к маскированию во всех остальных. Затем используются особенности психоакустической модели человеческого слуха, в соответствии с которой тщательно сохраняются звуки хорошо воспринимаемых частот и удаляются звуки тех частот, которые не воспринимаются.
Для стереозвучания используется дополнительный прием, связанный с тем, что стереоэффект воспринимается человеком только в области средних звуковых частот. Поэтому сигнал низких и высоких частот передается в монофоническом звучании.
Наконец, используются специальные алгоритмы сжатия, основанные на высокой предсказуемости звукового сигнала, т. е.
большом значении его коэффициента автокорреляции. Все перечисленные выше методы и алгоритмы позволяют получить десятикратный и более высокий коэффициент сжатия практически без потери качества звучания, что реализуется в формате МРЗ, разработанном

Для воспроизведения звуковых файлов

Из форматов звуковых файлов следуетупомянуть AU для UNIX-подобных систем и платформ, WAV - стандарт звуковых файлов для операционной системы Windows, AIFF - стандарт звуковых файлов для платформы Apple Macintosh и MIDI (Musical Instrument Digital Interface) - формат электронных музыкальных инструментов. Кратко остановимся на каждом из них.

частота дискретизации и разрядность квантования, число звуковых каналов и метод кодирования. Наиболее распространенные файлы этого формата носят подзаголовок p-Law, рассчитанные на один звуковой канал с полосой 8000 Гц. Подзаголовок p-Law означает преобразование значений линейного квантования в логарифмическую шкалу значений, которая производится в соответствии с уравнением:

где Y? - значение в логарифмической шкале, m - исходное квантованное значение, mp - максимальная величина последнего значения, ? - постоянное значение, величина которого определяет область, в которой обеспечивается наиболее высокое качество звучания.
В формате AU наряду с 8-разрядным логарифмическим кодированием, предусмотрена возможность представления 16-разрядного линейного стереозвука, имеющего частоту дискретизации 22050 и 44100 Гц.

Формат WAV поддерживает также ряд дополнительных блоков данных. К ним относят дополнительную информацию о сжатых звуковых данных. В частности, фирма IBM зарегистрировала специальные коды форматирования для сжатия в формате u-Law. Специальный блок позволяет помечать определенные позиции в потоке звуковых данных, что дает возможность синхронизировать звуковой ряд с видеорядом. Предусмотрены также блоки для размещения дополнительной текстовой информации.


3.5.