ГОСТ Р 53556.0-2009 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Основные положения.

ГОСТ Р 53556.0-2009 Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Основные положения.

ГОСТ Р 53556.0-2009

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Звуковое вещание цифровое

КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ

Часть III (MPEG-4 AUDIO)

Основные положения

Digital sound broadcasting. Coding of sound broadcasting signals with redundancy reduction for transfer on digital communication channels. Part III (MPEG-4 audio). Main positions

ОКС 33.170

Дата введения 2013-09-01

Предисловие

1 РАЗРАБОТАН Федеральным государственным унитарным предприятием "Ленинградский отраслевой научно-исследовательский институт связи" (ФГУП "ЛОНИИС")

2 ВНЕСЕН Техническим комитетом по стандартизации ТК 480 "Связь"

3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 15 декабря 2009 г. N 840-ст

4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009* "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио"

5 ВВЕДЕН ВПЕРВЫЕ

6 ПЕРЕИЗДАНИЕ. Июль 2020 г.

Правила применения настоящего стандарта установлены в ". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)

Введение

Комплекс стандартов ГОСТ Р 53556 "Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio)" состоит из 11 отдельных взаимосвязанных стандартов, перечень которых приведен ниже, разработанных на базе международного стандарта ИСО/МЭК 14496-3:2009 "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио".

В перечень стандартов, входящих в состав национального стандарта ГОСТ Р 53556 "Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio)", входят следующие стандарты:

"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Основные положения";

"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Общие требования к кодированию";

"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Кодирование речевых сигналов с использованием гармонических векторов (HVXC)";

"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Кодирование речевых сигналов с использованием линейного предсказания (CELP)";

"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Основные методы кодирования звуковых сигналов (GA): усовершенствованное аудиокодирование (ААС), взвешивающее векторное квантование (TwinVQ), побитовое арифметическое кодирование (BSAC)";

"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Структурированное кодирование звуковых сигналов (SA)";

"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Интерфейс преобразования текста в речь (TTSI)";

"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Параметрическое кодирование звуковых сигналов (HILN)";

"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Методы кодирования MPEG-1/2 аудио в MPEG-4. Основные технические требования";

1 Область применения

Настоящий стандарт предназначен для применения при проектировании, вводе в эксплуатацию и техническом обслуживании каналов и трактов звукового вещания, организованных в цифровых системах передачи с цифровой обработкой сигналов по системе MPEG-4, организуемых в наземных и спутниковых линиях на магистральной, внутризоновых и местных сетях связи.

2 Термины, определения и сокращения

В настоящем стандарте применены следующие термины с соответствующими определениями:

2.1 адаптивное предсказание: Предсказание, в котором оценка производится с учетом спектральных характеристик дискретизируемого сигнала.

2.2 анимация: В MPEG-4 - метод кодирования синтетических объектов, заключающийся в однократной передаче базового статического объекта и досылке сообщений, описывающих динамические изменения объекта.

2.3 анимация лица (facial animation; FA): Динамические изменения лица.

2.4 анимации параметры (animation parameters; АР): Другие параметры анимации.

2.5 арифметическое кодирование: Кодирование без потерь, ставящее в соответствие передаваемой последовательности символов определенный узкий интервал чисел в пределах от 0 до 1.

2.6 аудио: Звук (звуковой).

2.7 байт: Единица двоичной информации, равная 8 бит.

2.8 бит: Единица двоичной информации, соответствующая передаче 0 или 1.

2.9 буфер: Устройство памяти большой емкости, позволяющее записывать и хранить большой объем данных.

2.10 векторное кодирование: Метод кодирования, при котором по каналу передается адрес в кодовой книге блока, наиболее близкого к передаваемому.

2.11 взвешивающее векторное квантование с чередованием и преобразованием областей (transform domain weighted interleave vector quantization; TwinVQ): Инструмент универсального звукового кодирования TwinVQ, в котором используется кодирование спектральных коэффициентов с использованием векторного квантования.

2.12 виртуальный: Нереальный, воображаемый, мнимый.

2.13 виртуальные кодовые книги (virtual codebooks; VCB): В книгах определены значения спектральных величин, при выходе за пределы которых под влиянием ошибок последние могут быть определены и скрыты.

2.14 волновые таблицы (wavetables): Таблицы, используемые при выборке отсчетов и синтезе музыки в формате цифровых интерфейсов музыкальных инструментов (MIDI).

2.15 восходящий поток (upstream): Цифровой поток от приемных терминалов к передающему серверу (поток от сервера - нисходящий).

2.16 выход за пределы (escape): Выход за пределы максимальных значений в виртуальных кодовых книгах для различных диапазонов масштабных коэффициентов спектральных данных.

2.17 гармоники и одиночные линии плюс шум (harmonics and individual lines plus noise; HILN): Алгоритм параметрического кодирования на очень низких скоростях в MPEG-4.

2.18 генератор комфортного шума (comfort noise generator; CNG): Блок генерации фонового шума в паузах разговора в телефонии.

2.19 группа экспертов по движущимся изображениям (moving pictures expert group; MPEG): Группа экспертов, сформированная в 1988 г. ИСО и МЭК для выработки стандарта цифрового сжатия движущихся изображений и звуковых сигналов.

2.20 двоичный формат звуковой сцены (audio binary format for scenes; AudioBIFS): Набор инструментов для композиции звуковых объектов в диалоговых сценах.

2.21 двоичный формат описания сцен (binary format for scene; BIFS): Двоичный формат описания сцен (MPEG-4).

2.22 двунаправленное предсказание: Метод кодирования, использующий предсказание "вперед" (по предыдущим кадрам) и "назад" (по последующим кадрам).

2.23 декодер: Устройство, преобразующее сигнал в первоначальную форму, которую он имел до прохождения через кодер.

2.24 демультиплексор: Устройство, распределяющее потоки данных из единого цифрового потока на множество потоков к приемникам.

2.25 дескриптор паузы (silence insertion descriptor; SID): Идентификатор (описатель, признак) передаваемого кадра тишины.

2.26 детектор голосовой активности (voice activity detector; VAD): Устройство, определяющее наличие речевого сигнала или фоновых шумов.

2.27 дискретизация: Операция построения дискретного сигнала по заданному аналоговому сигналу.

2.28 дискретный сигнал: Сигнал, принимающий конечные значения в некоторые дискретные моменты времени и не определенный в другие моменты времени.

2.29 дуплексный канал: Двунаправленный канал, в котором передача информации происходит в обоих направлениях одновременно.

2.30 защита от ошибок (error protection; ЕР): Свойство метода передачи (кодирования) обнаруживать (исправлять) ошибки в цифровом потоке каналов передачи.

2.31 импульсно-кодовая модуляция: Метод модуляции, заключающийся в дискретизации, квантовании и цифровом кодировании исходного сигнала.

2.32 интернет: В широком смысле - соединение сетей через маршрутизаторы (interworking); в более узком смысле - глобальная сеть обмена информацией, возникшая в результате объединения национальных, региональных и континентальных сетей.

2.33 интерфейс: Точка соединения (стык) между двумя взаимосвязанными системами.

2.34 канальное кодирование: Преобразование исходной цифровой последовательности в сигнал, пригодный для передачи по каналу связи.

2.35 категория чувствительности к ошибкам (error sensitivy categories; ESC): Признак, определяющий чувствительность к ошибкам разных частей закодированной информации.

2.36 квантование: Замена непрерывного интервала значений сигнала конечным множеством значений.

2.37 код Хаффмана: Один из кодов с переменной длиной слова, используемый в цифровом сжатии.

2.38 кодек: Совокупность кодера и декодера.

2.39 кодер: Устройство, преобразующее исходный сигнал в соответствии с заданным алгоритмом.

2.40 кодирование методом линейного предсказания (linear predictive coding; LPC): При кодировании этим методом по линии связи передаются вместо параметров речевого сигнала параметры некоторого фильтра, в определенном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра.

2.41 кодирование речевых сигналов с использованием гармонических векторов (harmonic vector excitation coding; HVXC): Инструмент кодирования речевых сигналов HVXC.

2.42 кодирование с переменной длиной слова: Техника кодирования, присваивающая словам с наибольшей вероятностью появления более короткие кодовые комбинации, а более редким символам - более длинные.

2.43 кодирование с межкадровым предсказанием: Метод кодирования, при котором по каналу передается разница между текущим кадром и кадром, предсказанным в кодере.

2.44 кодирование с преобразованием: Способ кодирования, при котором набор статистически зависимых отсчетов во временной области преобразуется в набор независимых коэффициентов при ортогональных базисных функциях в спектральной области.

2.45 кодовые неприоритетные слова (non-PCW): Кодовые слова, заполняющие промежутки между приоритетными кодовыми словами.

2.46 кодовые слова приоритетные (priority codawords; PCW): Кодовые слова, которые могут быть декодированы независимо от любой ошибки в других кодовых словах.

2.47 композиция звуковая: Создание единой звуковой дорожки из нескольких звуковых подпотоков, нескольких звуковых объектов, объединенных общим замыслом, идеей, местом расположения и т.п.

2.48 контент: Содержание, продукт творческой деятельности создателей мультимедийной продукции.

2.49 копирование спектральной полосы (spectral band replication; SBR): Метод передачи при кодировании, в котором передается только малое число данных, представляющих параметрическое описание высокочастотной части спектра. При декодировании в верхнюю полосу копируется нижняя; при этом вносятся изменения в соответствии с переданными параметрами для верхней полосы.

2.50 корректирующий код: Код, исправляющий ошибки благодаря введению некоторой избыточности в передаваемое сообщение.

2.51 линейное предсказание с кодовым возбуждением (code excited linear prediction; CELP): Инструмент кодирования речевых сигналов CELP.

2.52 маршрутизатор (router): Сетевой процессор, соединяющий каналы передачи данных без их обработки.

2.53 маскирование: Психоакустическое явление, заключающееся в невосприимчивости уха к слабым звукам в присутствии близких по частоте и времени более сильных звуков.

2.54 масштабируемость: Способность кодера и декодера формировать и обрабатывать упорядоченный набор из нескольких цифровых потоков.

2.55 международный фонетический алфавит (international phonetic alphabet; IPA): Система знаков для записи транскрипции на основе латинского алфавита. Разработан и поддерживается Международной фонетической ассоциацией.

2.56 модуль прерывистой передачи (discontinuous transmission; DTX): Модуль, который передает сигнал в периоды речевой активности одним способом, а в паузах - другим, значительно менее затратным.

2.57 MPEG алгоритмы кодирования; MPEG: Комплекс алгоритмов кодирования, разработанный группой экспертов по движущимся изображениям - MPEG-1, MPEG-2, MPEG-4 и т.п.

2.58 мультимедиа: Комплексное представление информации с использованием текста, графики, изображения, анимации и звука.

2.59 мультиплексор: Устройство, объединяющее потоки данных от источников в единый цифровой поток.

2.60 неравная защита от ошибок (unequal error protection; UEP): Метод защиты от ошибок, при котором к разным частям потока применяются разные методы в соответствии с их чувствительностью к ошибкам.

2.61 нисходящий поток: Поток от сервера к клиентам интерактивного канала взаимодействия.

2.62 обратная адаптация распределения битов: Способ распределения битов, при котором одинаковые расчеты выполняются и в кодере, и в декодере.

2.63 обратный канал: Восходящий поток интерактивного канала взаимодействия.

2.64 перемежение: Чередование. Перестановка местами соседних символов в последовательности некоторым детерминированным образом - последовательным или псевдослучайным.

2.65 переупорядочивание кодовых слов Хаффмана (huffman codaword reordering; HCR): Инструмент защиты от ошибок в MPEG-4 для ААС, при котором определяются и используются приоритетные и неприоритетные кодовые слова.

2.66 перцептуальный: Предоставленный непосредственному восприятию, наблюдению.

2.67 побитовое арифметическое кодирование (bit-sliced arithmetic coding; BSAC): Арифметическое кодирование с нарезанием бит (инструмент универсального звукового кодирования BSAC).

2.68 порог маскирования: Граница восприятия вблизи маскирующего тона.

2.69 потоковая передача данных: Метод последовательной передачи данных, при котором данные размещаются в полезной части пакета и могут быть дополнительно описаны в заголовке пакета.

2.70 предсказание: Оценка значения текущего отсчета сигнала на основе одного или нескольких предшествующих отсчетов.

2.71 преобразование текста в речь (text-to-speech; TTS): Метод и интерфейс преобразования текста в речь при кодировании в MPEG-4.

2.72 профиль: Конфигурация, совокупность используемых средств и инструментов обработки цифрового потока, определяющая, какие из этих инструментов используются вместе для различных приложений.

2.73 прямая адаптация распределения битов: Способ распределения битов в кодере, при котором кодер производит все расчеты и посылает результаты декодеру.

2.74 прямая передача потока (direct stream transfer; DST): В MPEG-4 - это инструмент кодирования звука без потерь.

2.75 психоакустическая модель слуха: Устройство в кодере цифрового сжатия звукоданных, вычисляющее пороги маскирования при различных комбинациях воздействующих сигналов.

2.76 реверсивное кодирование с переменной длиной (reversible variable length coding; RVLC): Инструмент защиты от ошибок в MPEG-4 для усовершенствованного звукового кодирования (ААС).

2.77 саундтрек: Звуковая дорожка - запись музыкального оформления какого-либо материала, например фильма, мультфильма или компьютерной игры; означает также оригинальную звуковую дорожку отдельно от того материала, к которому был написан.

2.78 сервер: Компьютер или другое устройство, подключенное к сети и предоставляющее определенные услуги другим устройствам в сети - клиентам.

2.79 сеть: Совокупность транспортных потоков, передаваемых в единой системе доставки.

2.80 синусоидальное кодирование (sinusoidal coding; SSC): Инструмент параметрического кодирования в MPEG-4.

2.81 старший значащий бит (most significant bit; MSB): Разряд двоичного слова с наибольшим весом.

2.82 структурированное аудио (structured audio; SA): В MPEG-4 - это инструмент синтеза, обеспечивает общие способы описания и нормативного создания синтетического звука, такие как SAOL, SASL и волновые таблицы MIDI.

2.83 структурированный оркестровый язык (structured audio orchestra language; SAOL): В MPEG-4 - язык описания музыкальных звуков.

2.84 структурированный партитурный язык (structured audio score language; SASL): В MPEG-4 - язык описания партитуры музыкальных инструментов, составляющих звуковой объект.

2.85 тип объекта: В MPEG-4 - параметр, определяющий структуру цифрового потока для одиночного объекта.

2.86 универсальный звук (general audio; GA): Принятая в MPEG-4 совокупность алгоритмов кодирования широкого круга звуковых объектов, базирующаяся на ААС.

2.87 упреждающая коррекция ошибок (forward error correction; FEC): Метод коррекции ошибок в MPEG-4.

2.88 уровень обработки звуковых данных (layer): Алгоритм, использующийся при обработке звуковых данных; определяется степенью сжатия и сложностью кодера и декодера.

2.89 усовершенствованное звуковое кодирование (advanced audio coding; ААС): Улучшенное звуковое кодирование - алгоритм цифрового сжатия звуковых сигналов.

2.90 устойчивость к ошибкам (error resilient; ER): Свойство метода передачи (кодирования) поддерживать допустимое качество передачи (воспроизведения) при наличии ошибок в канале передачи.

2.91 формат загружаемых звуков уровня 2 (downloaded sounds level 2; DSL-2): Формат по стандарту ассоциации изготовителей MIDI DSL-2, в котором используются волновые таблицы.

2.92 формат звукового потока с низкой избыточностью (low overhead audio stream; LOAS): Формат, обеспечивающий малые издержки и описанный в MPEG-4.

2.93 формат звукового транспортного мультиплексирования с низкой избыточностью (low-overhead MPEG-4 audio transport multiplex; LATM): Формат MPEG-4, обеспечивающий малые издержки уплотнения и механизма транспортирования в аудиоприложениях, которые не требуют сложного кодирования.

2.94 формат интерфейса доставки мультимедиа (delivery multimedia integration framework; DMIF): Формат, описывающий возможности транспортного уровня и связи между транспортом, мультиплексором и функциями демультиплексора в кодерах и декодерах.

2.95 циклический избыточный код (cyclic redundancy check; CRC): Код, используемый в методе обнаружения ошибок в передаваемом сообщении, заключающемся в сравнении остатков от деления блоков кодовой последовательности на фиксированный делитель, производимого на передающей и на приемной стороне.

2.96 цифровое аудиовещание (digital audio broadcasting; DAB): Звуковое вещание, при котором используются цифровые технологии.

2.97 цифровой интерфейс музыкального инструмента (musical instrument digital interface; MIDI): Формат для записи, передачи и синтеза музыки, разработанный ассоциацией изготовителей MIDI.

2.98 цифровое кодирование: Замена квантованных значений сигнала набором двоичных символов.

2.99 цифровое сжатие: Процесс устранения избыточности из передаваемого цифрового сообщения.

2.100 цифровой сигнал: Сигнал, принимающий в дискретные моменты времени дискретные значения, выражающиеся двоичными числами.

2.101 элементарный поток (elementary stream; ES): Последовательность данных, которая исходит из источника и приходит через один канал к одному получателю.

2.102 ДИКМ: Дифференциальная импульсно-кодовая модуляция.

3 Общие положения

3.1 Обзор содержания стандарта

Комплекс стандартов ГОСТ Р 53556 является новым видом звукового стандарта, который интегрирует много различных аспектов звукового кодирования: естественный звук - с синтетическим звуком, низкую скорость передачи данных - с высококачественной передачей звука, речь - с музыкой, комплексные саундтреки - с простыми и традиционный контент - с контентом интерактивной и виртуальной реальности. Стандартизируя индивидуально-сложные инструменты кодирования и новую, гибкую оболочку для звуковой синхронизации, смешивая их с загруженной компоновкой телевизионной программы, таким образом в стандарте MPEG-4 аудио создана новая технология для нового, интерактивного мира цифрового звука.

Данный стандарт не предназначен для функционирования отдельного приложения, например телефонной связи в режиме реального времени или высококачественного звукового сжатия. ГОСТ Р 53556 - стандарт, применимый к каждому приложению: использование звукового сжатия, синтеза, манипуляции, или воспроизведение звука. Отдельные стандарты, входящие в комплекс взаимосвязанных стандартов, определяют современные инструменты кодирования в нескольких областях. Однако ГОСТ Р 53556 - больше чем только сумма его частей, поскольку инструменты, описанные здесь, интегрированы с остальной частью стандарта MPEG-4. При этом появляются новые возможности для аудиокодирования, основанные на объектах, так называемое объектное кодирование, интерактивная звуковая система, использование динамических звуковых дорожек и других видов новых средств массовой информации.

Так как в системе кодирования звуковых сигналов используется набор отдельных инструментов, то для охвата потребности широкого диапазона приложений необходима функциональная совместимость систем, которые приведены в ГОСТ Р 53556. Например, система речевой связи в режиме реального времени, использующая набор инструментов кодирования речи MPEG-4, может использовать инструментальные средства совместно с другими системами, которые работают в различных областях, но используют тот же самый инструмент - с индексацией голосовой почты и информационно-поисковой системой.

3.2 Концепция стандарта

ГОСТ Р 53556 не стандартизирует методы кодирования звука. Выбор лучшего метода создания полезных битовых потоков возлагается на авторов контента. В связи с несовершенством современных методов автоматического преобразования естественного звука в синтетический или мультиобъектный непосредственные решения принимаются в интерактивном режиме. Этот процесс похож на современные методы создания звуковых дорожек (основанных на формате MIDI [1] и многоканальном объединении).

Полная версия документа доступна с 20.00 до 24.00 по московскому времени.

Для получения доступа к полной версии без ограничений вы можете выбрать подходящий тариф или активировать демо-доступ.

Теги документа

гост кодирование гост цифровые сигналы