ГОСТ Р 53556.0-2009
НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ
Звуковое вещание цифровое
КОДИРОВАНИЕ СИГНАЛОВ ЗВУКОВОГО ВЕЩАНИЯ С СОКРАЩЕНИЕМ ИЗБЫТОЧНОСТИ ДЛЯ ПЕРЕДАЧИ ПО ЦИФРОВЫМ КАНАЛАМ СВЯЗИ
Часть III (MPEG-4 AUDIO)
Основные положения
Digital sound broadcasting. Coding of sound broadcasting signals with redundancy reduction for transfer on digital communication channels. Part III (MPEG-4 audio). Main positions
ОКС 33.170
Дата введения 2013-09-01
Предисловие
1 РАЗРАБОТАН Федеральным государственным унитарным предприятием "Ленинградский отраслевой научно-исследовательский институт связи" (ФГУП "ЛОНИИС")
2 ВНЕСЕН Техническим комитетом по стандартизации ТК 480 "Связь"
3 УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 15 декабря 2009 г. N 840-ст
4 Настоящий стандарт разработан с учетом основных нормативных положений международного стандарта ИСО/МЭК 14496-3:2009* "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио"
5 ВВЕДЕН ВПЕРВЫЕ
6 ПЕРЕИЗДАНИЕ. Июль 2020 г.
Правила применения настоящего стандарта установлены в ". Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе "Национальные стандарты", а официальный текст изменений и поправок - в ежемесячном информационном указателе "Национальные стандарты". В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя "Национальные стандарты". Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет (www.gost.ru)
Введение
Комплекс стандартов ГОСТ Р 53556 "Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio)" состоит из 11 отдельных взаимосвязанных стандартов, перечень которых приведен ниже, разработанных на базе международного стандарта ИСО/МЭК 14496-3:2009 "Информационные технологии. Кодирование аудиовизуальных объектов. Часть 3. Аудио".
В перечень стандартов, входящих в состав национального стандарта ГОСТ Р 53556 "Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio)", входят следующие стандарты:
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Основные положения";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Общие требования к кодированию";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Кодирование речевых сигналов с использованием гармонических векторов (HVXC)";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Кодирование речевых сигналов с использованием линейного предсказания (CELP)";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Основные методы кодирования звуковых сигналов (GA): усовершенствованное аудиокодирование (ААС), взвешивающее векторное квантование (TwinVQ), побитовое арифметическое кодирование (BSAC)";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Структурированное кодирование звуковых сигналов (SA)";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Интерфейс преобразования текста в речь (TTSI)";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Параметрическое кодирование звуковых сигналов (HILN)";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Параметрическое кодирование высококачественных звуковых сигналов (SSC)";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Методы кодирования MPEG-1/2 аудио в MPEG-4. Основные технические требования";
"Звуковое вещание цифровое. Кодирование сигналов звукового вещания с сокращением избыточности для передачи по цифровым каналам связи. Часть III (MPEG-4 audio). Кодирование без потерь информации (DST)".
1 Область применения
Настоящий стандарт предназначен для применения при проектировании, вводе в эксплуатацию и техническом обслуживании каналов и трактов звукового вещания, организованных в цифровых системах передачи с цифровой обработкой сигналов по системе MPEG-4, организуемых в наземных и спутниковых линиях на магистральной, внутризоновых и местных сетях связи.
2 Термины, определения и сокращения
В настоящем стандарте применены следующие термины с соответствующими определениями:
2.1 адаптивное предсказание: Предсказание, в котором оценка производится с учетом спектральных характеристик дискретизируемого сигнала.
2.2 анимация: В MPEG-4 - метод кодирования синтетических объектов, заключающийся в однократной передаче базового статического объекта и досылке сообщений, описывающих динамические изменения объекта.
2.3 анимация лица (facial animation; FA): Динамические изменения лица.
2.4 анимации параметры (animation parameters; АР): Другие параметры анимации.
2.5 арифметическое кодирование: Кодирование без потерь, ставящее в соответствие передаваемой последовательности символов определенный узкий интервал чисел в пределах от 0 до 1.
2.6 аудио: Звук (звуковой).
2.7 байт: Единица двоичной информации, равная 8 бит.
2.8 бит: Единица двоичной информации, соответствующая передаче 0 или 1.
2.9 буфер: Устройство памяти большой емкости, позволяющее записывать и хранить большой объем данных.
2.10 векторное кодирование: Метод кодирования, при котором по каналу передается адрес в кодовой книге блока, наиболее близкого к передаваемому.
2.11 взвешивающее векторное квантование с чередованием и преобразованием областей (transform domain weighted interleave vector quantization; TwinVQ): Инструмент универсального звукового кодирования TwinVQ, в котором используется кодирование спектральных коэффициентов с использованием векторного квантования.
2.12 виртуальный: Нереальный, воображаемый, мнимый.
2.13 виртуальные кодовые книги (virtual codebooks; VCB): В книгах определены значения спектральных величин, при выходе за пределы которых под влиянием ошибок последние могут быть определены и скрыты.
2.14 волновые таблицы (wavetables): Таблицы, используемые при выборке отсчетов и синтезе музыки в формате цифровых интерфейсов музыкальных инструментов (MIDI).
2.15 восходящий поток (upstream): Цифровой поток от приемных терминалов к передающему серверу (поток от сервера - нисходящий).
2.16 выход за пределы (escape): Выход за пределы максимальных значений в виртуальных кодовых книгах для различных диапазонов масштабных коэффициентов спектральных данных.
2.17 гармоники и одиночные линии плюс шум (harmonics and individual lines plus noise; HILN): Алгоритм параметрического кодирования на очень низких скоростях в MPEG-4.
2.18 генератор комфортного шума (comfort noise generator; CNG): Блок генерации фонового шума в паузах разговора в телефонии.
2.19 группа экспертов по движущимся изображениям (moving pictures expert group; MPEG): Группа экспертов, сформированная в 1988 г. ИСО и МЭК для выработки стандарта цифрового сжатия движущихся изображений и звуковых сигналов.
2.20 двоичный формат звуковой сцены (audio binary format for scenes; AudioBIFS): Набор инструментов для композиции звуковых объектов в диалоговых сценах.
2.21 двоичный формат описания сцен (binary format for scene; BIFS): Двоичный формат описания сцен (MPEG-4).
2.22 двунаправленное предсказание: Метод кодирования, использующий предсказание "вперед" (по предыдущим кадрам) и "назад" (по последующим кадрам).
2.23 декодер: Устройство, преобразующее сигнал в первоначальную форму, которую он имел до прохождения через кодер.
2.24 демультиплексор: Устройство, распределяющее потоки данных из единого цифрового потока на множество потоков к приемникам.
2.25 дескриптор паузы (silence insertion descriptor; SID): Идентификатор (описатель, признак) передаваемого кадра тишины.
2.26 детектор голосовой активности (voice activity detector; VAD): Устройство, определяющее наличие речевого сигнала или фоновых шумов.
2.27 дискретизация: Операция построения дискретного сигнала по заданному аналоговому сигналу.
2.28 дискретный сигнал: Сигнал, принимающий конечные значения в некоторые дискретные моменты времени и не определенный в другие моменты времени.
2.29 дуплексный канал: Двунаправленный канал, в котором передача информации происходит в обоих направлениях одновременно.
2.30 защита от ошибок (error protection; ЕР): Свойство метода передачи (кодирования) обнаруживать (исправлять) ошибки в цифровом потоке каналов передачи.
2.31 импульсно-кодовая модуляция: Метод модуляции, заключающийся в дискретизации, квантовании и цифровом кодировании исходного сигнала.
2.32 интернет: В широком смысле - соединение сетей через маршрутизаторы (interworking); в более узком смысле - глобальная сеть обмена информацией, возникшая в результате объединения национальных, региональных и континентальных сетей.
2.33 интерфейс: Точка соединения (стык) между двумя взаимосвязанными системами.
2.34 канальное кодирование: Преобразование исходной цифровой последовательности в сигнал, пригодный для передачи по каналу связи.
2.35 категория чувствительности к ошибкам (error sensitivy categories; ESC): Признак, определяющий чувствительность к ошибкам разных частей закодированной информации.
2.36 квантование: Замена непрерывного интервала значений сигнала конечным множеством значений.
2.37 код Хаффмана: Один из кодов с переменной длиной слова, используемый в цифровом сжатии.
2.38 кодек: Совокупность кодера и декодера.
2.39 кодер: Устройство, преобразующее исходный сигнал в соответствии с заданным алгоритмом.
2.40 кодирование методом линейного предсказания (linear predictive coding; LPC): При кодировании этим методом по линии связи передаются вместо параметров речевого сигнала параметры некоторого фильтра, в определенном смысле эквивалентного голосовому тракту, и параметры сигнала возбуждения этого фильтра.
2.41 кодирование речевых сигналов с использованием гармонических векторов (harmonic vector excitation coding; HVXC): Инструмент кодирования речевых сигналов HVXC.
2.42 кодирование с переменной длиной слова: Техника кодирования, присваивающая словам с наибольшей вероятностью появления более короткие кодовые комбинации, а более редким символам - более длинные.
2.43 кодирование с межкадровым предсказанием: Метод кодирования, при котором по каналу передается разница между текущим кадром и кадром, предсказанным в кодере.
2.44 кодирование с преобразованием: Способ кодирования, при котором набор статистически зависимых отсчетов во временной области преобразуется в набор независимых коэффициентов при ортогональных базисных функциях в спектральной области.
2.45 кодовые неприоритетные слова (non-PCW): Кодовые слова, заполняющие промежутки между приоритетными кодовыми словами.
2.46 кодовые слова приоритетные (priority codawords; PCW): Кодовые слова, которые могут быть декодированы независимо от любой ошибки в других кодовых словах.
2.47 композиция звуковая: Создание единой звуковой дорожки из нескольких звуковых подпотоков, нескольких звуковых объектов, объединенных общим замыслом, идеей, местом расположения и т.п.
2.48 контент: Содержание, продукт творческой деятельности создателей мультимедийной продукции.
2.49 копирование спектральной полосы (spectral band replication; SBR): Метод передачи при кодировании, в котором передается только малое число данных, представляющих параметрическое описание высокочастотной части спектра. При декодировании в верхнюю полосу копируется нижняя; при этом вносятся изменения в соответствии с переданными параметрами для верхней полосы.
2.50 корректирующий код: Код, исправляющий ошибки благодаря введению некоторой избыточности в передаваемое сообщение.
2.51 линейное предсказание с кодовым возбуждением (code excited linear prediction; CELP): Инструмент кодирования речевых сигналов CELP.
2.52 маршрутизатор (router): Сетевой процессор, соединяющий каналы передачи данных без их обработки.
2.53 маскирование: Психоакустическое явление, заключающееся в невосприимчивости уха к слабым звукам в присутствии близких по частоте и времени более сильных звуков.
2.54 масштабируемость: Способность кодера и декодера формировать и обрабатывать упорядоченный набор из нескольких цифровых потоков.
2.55 международный фонетический алфавит (international phonetic alphabet; IPA): Система знаков для записи транскрипции на основе латинского алфавита. Разработан и поддерживается Международной фонетической ассоциацией.
2.56 модуль прерывистой передачи (discontinuous transmission; DTX): Модуль, который передает сигнал в периоды речевой активности одним способом, а в паузах - другим, значительно менее затратным.
2.57 MPEG алгоритмы кодирования; MPEG: Комплекс алгоритмов кодирования, разработанный группой экспертов по движущимся изображениям - MPEG-1, MPEG-2, MPEG-4 и т.п.
2.58 мультимедиа: Комплексное представление информации с использованием текста, графики, изображения, анимации и звука.
2.59 мультиплексор: Устройство, объединяющее потоки данных от источников в единый цифровой поток.
2.60 неравная защита от ошибок (unequal error protection; UEP): Метод защиты от ошибок, при котором к разным частям потока применяются разные методы в соответствии с их чувствительностью к ошибкам.
2.61 нисходящий поток: Поток от сервера к клиентам интерактивного канала взаимодействия.
2.62 обратная адаптация распределения битов: Способ распределения битов, при котором одинаковые расчеты выполняются и в кодере, и в декодере.
2.63 обратный канал: Восходящий поток интерактивного канала взаимодействия.
2.64 перемежение: Чередование. Перестановка местами соседних символов в последовательности некоторым детерминированным образом - последовательным или псевдослучайным.
2.65 переупорядочивание кодовых слов Хаффмана (huffman codaword reordering; HCR): Инструмент защиты от ошибок в MPEG-4 для ААС, при котором определяются и используются приоритетные и неприоритетные кодовые слова.
2.66 перцептуальный: Предоставленный непосредственному восприятию, наблюдению.
2.67 побитовое арифметическое кодирование (bit-sliced arithmetic coding; BSAC): Арифметическое кодирование с нарезанием бит (инструмент универсального звукового кодирования BSAC).
2.68 порог маскирования: Граница восприятия вблизи маскирующего тона.
2.69 потоковая передача данных: Метод последовательной передачи данных, при котором данные размещаются в полезной части пакета и могут быть дополнительно описаны в заголовке пакета.
2.70 предсказание: Оценка значения текущего отсчета сигнала на основе одного или нескольких предшествующих отсчетов.
2.71 преобразование текста в речь (text-to-speech; TTS): Метод и интерфейс преобразования текста в речь при кодировании в MPEG-4.
2.72 профиль: Конфигурация, совокупность используемых средств и инструментов обработки цифрового потока, определяющая, какие из этих инструментов используются вместе для различных приложений.
2.73 прямая адаптация распределения битов: Способ распределения битов в кодере, при котором кодер производит все расчеты и посылает результаты декодеру.
2.74 прямая передача потока (direct stream transfer; DST): В MPEG-4 - это инструмент кодирования звука без потерь.
2.75 психоакустическая модель слуха: Устройство в кодере цифрового сжатия звукоданных, вычисляющее пороги маскирования при различных комбинациях воздействующих сигналов.
2.76 реверсивное кодирование с переменной длиной (reversible variable length coding; RVLC): Инструмент защиты от ошибок в MPEG-4 для усовершенствованного звукового кодирования (ААС).
2.77 саундтрек: Звуковая дорожка - запись музыкального оформления какого-либо материала, например фильма, мультфильма или компьютерной игры; означает также оригинальную звуковую дорожку отдельно от того материала, к которому был написан.
2.78 сервер: Компьютер или другое устройство, подключенное к сети и предоставляющее определенные услуги другим устройствам в сети - клиентам.
2.79 сеть: Совокупность транспортных потоков, передаваемых в единой системе доставки.
2.80 синусоидальное кодирование (sinusoidal coding; SSC): Инструмент параметрического кодирования в MPEG-4.
2.81 старший значащий бит (most significant bit; MSB): Разряд двоичного слова с наибольшим весом.
2.82 структурированное аудио (structured audio; SA): В MPEG-4 - это инструмент синтеза, обеспечивает общие способы описания и нормативного создания синтетического звука, такие как SAOL, SASL и волновые таблицы MIDI.
2.83 структурированный оркестровый язык (structured audio orchestra language; SAOL): В MPEG-4 - язык описания музыкальных звуков.
2.84 структурированный партитурный язык (structured audio score language; SASL): В MPEG-4 - язык описания партитуры музыкальных инструментов, составляющих звуковой объект.
2.85 тип объекта: В MPEG-4 - параметр, определяющий структуру цифрового потока для одиночного объекта.
2.86 универсальный звук (general audio; GA): Принятая в MPEG-4 совокупность алгоритмов кодирования широкого круга звуковых объектов, базирующаяся на ААС.
2.87 упреждающая коррекция ошибок (forward error correction; FEC): Метод коррекции ошибок в MPEG-4.
2.88 уровень обработки звуковых данных (layer): Алгоритм, использующийся при обработке звуковых данных; определяется степенью сжатия и сложностью кодера и декодера.
2.89 усовершенствованное звуковое кодирование (advanced audio coding; ААС): Улучшенное звуковое кодирование - алгоритм цифрового сжатия звуковых сигналов.
2.90 устойчивость к ошибкам (error resilient; ER): Свойство метода передачи (кодирования) поддерживать допустимое качество передачи (воспроизведения) при наличии ошибок в канале передачи.
2.91 формат загружаемых звуков уровня 2 (downloaded sounds level 2; DSL-2): Формат по стандарту ассоциации изготовителей MIDI DSL-2, в котором используются волновые таблицы.
2.92 формат звукового потока с низкой избыточностью (low overhead audio stream; LOAS): Формат, обеспечивающий малые издержки и описанный в MPEG-4.
2.93 формат звукового транспортного мультиплексирования с низкой избыточностью (low-overhead MPEG-4 audio transport multiplex; LATM): Формат MPEG-4, обеспечивающий малые издержки уплотнения и механизма транспортирования в аудиоприложениях, которые не требуют сложного кодирования.
2.94 формат интерфейса доставки мультимедиа (delivery multimedia integration framework; DMIF): Формат, описывающий возможности транспортного уровня и связи между транспортом, мультиплексором и функциями демультиплексора в кодерах и декодерах.
2.95 циклический избыточный код (cyclic redundancy check; CRC): Код, используемый в методе обнаружения ошибок в передаваемом сообщении, заключающемся в сравнении остатков от деления блоков кодовой последовательности на фиксированный делитель, производимого на передающей и на приемной стороне.
2.96 цифровое аудиовещание (digital audio broadcasting; DAB): Звуковое вещание, при котором используются цифровые технологии.
2.97 цифровой интерфейс музыкального инструмента (musical instrument digital interface; MIDI): Формат для записи, передачи и синтеза музыки, разработанный ассоциацией изготовителей MIDI.
2.98 цифровое кодирование: Замена квантованных значений сигнала набором двоичных символов.
2.99 цифровое сжатие: Процесс устранения избыточности из передаваемого цифрового сообщения.
2.100 цифровой сигнал: Сигнал, принимающий в дискретные моменты времени дискретные значения, выражающиеся двоичными числами.
2.101 элементарный поток (elementary stream; ES): Последовательность данных, которая исходит из источника и приходит через один канал к одному получателю.
2.102 ДИКМ: Дифференциальная импульсно-кодовая модуляция.
3 Общие положения
3.1 Обзор содержания стандарта
Комплекс стандартов ГОСТ Р 53556 является новым видом звукового стандарта, который интегрирует много различных аспектов звукового кодирования: естественный звук - с синтетическим звуком, низкую скорость передачи данных - с высококачественной передачей звука, речь - с музыкой, комплексные саундтреки - с простыми и традиционный контент - с контентом интерактивной и виртуальной реальности. Стандартизируя индивидуально-сложные инструменты кодирования и новую, гибкую оболочку для звуковой синхронизации, смешивая их с загруженной компоновкой телевизионной программы, таким образом в стандарте MPEG-4 аудио создана новая технология для нового, интерактивного мира цифрового звука.
Данный стандарт не предназначен для функционирования отдельного приложения, например телефонной связи в режиме реального времени или высококачественного звукового сжатия. ГОСТ Р 53556 - стандарт, применимый к каждому приложению: использование звукового сжатия, синтеза, манипуляции, или воспроизведение звука. Отдельные стандарты, входящие в комплекс взаимосвязанных стандартов, определяют современные инструменты кодирования в нескольких областях. Однако ГОСТ Р 53556 - больше чем только сумма его частей, поскольку инструменты, описанные здесь, интегрированы с остальной частью стандарта MPEG-4. При этом появляются новые возможности для аудиокодирования, основанные на объектах, так называемое объектное кодирование, интерактивная звуковая система, использование динамических звуковых дорожек и других видов новых средств массовой информации.
Так как в системе кодирования звуковых сигналов используется набор отдельных инструментов, то для охвата потребности широкого диапазона приложений необходима функциональная совместимость систем, которые приведены в ГОСТ Р 53556. Например, система речевой связи в режиме реального времени, использующая набор инструментов кодирования речи MPEG-4, может использовать инструментальные средства совместно с другими системами, которые работают в различных областях, но используют тот же самый инструмент - с индексацией голосовой почты и информационно-поисковой системой.
3.2 Концепция стандарта
ГОСТ Р 53556 не стандартизирует методы кодирования звука. Выбор лучшего метода создания полезных битовых потоков возлагается на авторов контента. В связи с несовершенством современных методов автоматического преобразования естественного звука в синтетический или мультиобъектный непосредственные решения принимаются в интерактивном режиме. Этот процесс похож на современные методы создания звуковых дорожек (основанных на формате MIDI [1] и многоканальном объединении).
Для получения доступа к полной версии без ограничений вы можете выбрать подходящий тариф или активировать демо-доступ.