Joint stereo vs stereo

**Doc66** » 13.04.2010, 00:21

Помогите советом.
Кодируя звуковую дорогу к фильмам никогда не задумывался над вопросом, как кодировать звук? Как Стерео, или как Совмещенное стерео?
В Сети на этот вопрос нет однозначного ответа. Как считаете вы? Спасибо заранее

**66Sick** » 13.04.2010, 01:43

Тоже когда-то задался этим вопросом, погуглил, теперь кодирую только с Joint Stereo))) А почему - не помню/

P.S. Совмещение ников забавное B)

**pmp140** » 13.04.2010, 17:24

В 90-е годы, когда все пользовались энкодером от Fraungopher, алгоритм joint stereo (впрочем, как и алгоритм VBR) были реализованы в этом энкодере ПРЕОТВРАТНО!!! Вместо нормальных полноценных стереодорожек получалась каша с взаимопроникновением каналов друг-в-друга и "перекрученной" фазой сигнала. Поэтому пользователи его так и называли: "Богомерзкий joint stereo". Но на спектрограмме такой сигнал выглядел более "насыщенным" и красивым.

В энкодере lame (особенно последних версий типа 3.98.2 и новее) этот алгоритм улучшили, фактически он стал похож на lossless-алгоритм типа flac , но с преднамеренным ухудшением качества (обрезкой ВЧ выше 165000Гц).

В энкодере lame 3.93.1 алгоритм joint stereo ещё не был "вылизан" до совершенства и на разных стилях музыки выдаёт непредсказуемый результат по качеству, т.е. можно получить как нормаьное стерео-разделение, так и "богомерзкий joint". Поэтому, lame-ры "со-стажем" предпочитают чуть ухудшив спектр сигнала, получить две оригинальные стерео-дорожки, используя ключ -m s

И ещё (цитаты из технической литературы):

***

Существует несколько вариантов записи двухканального звука в MP3.

* Dual Channel. Варианты: Dual Stereo, 2 Channel. Каналы полностью независимы. Каждый использует ровно половину битрейта. Рекомендуется, когда левый и правый каналы несут абсолютно независимую информацию (например, в левом - звуковое сопровождение фильма, а в правом - речь переводчика). Также это бескомпромиссный по качеству вариант для сложных музыкальных произведений на самых высоких битрейтах (320 кбит/с).
* Stereo. В целом аналогично предыдущему случаю - каждый канал кодируется отдельно, но битрейт может расходоваться динамически. То есть, если в какой-то момент времени левый канал несет скудную звуковую информацию, часть его битрейта может быть отдана правому каналу, наполненному сложной музыкальной партией "под завязку". Выбор профессионала на битрейтах порядка 256 кбит/с. Возможно использование режима Stereo и на более низких битрейтах (128-160 кбит/с), особенно это оправдано в случаях заметных фазовых расхождений между каналами, когда Joint Stereo пасует.
* Joint Stereo (MS Stereo). Из стереосигнала выделяется некий средний (Mid) сигнал, кодируемый большей частью битрейта, и разностный между каналами (Side) - для него отводится меньшая часть битрейта. Иногда это очень обоснованный метод, позволяющий максимально эффективно использовать емкость кодированного потока. Однако в случае фазового сдвига между каналами (который чаще всего встречается на оригиналах, изначально записанных на магнитофонную ленту), Joint Stereo MS резко сдает свои позиции - своеобразные фазовые искажения начинают просто резать слух. Вообще, даже при самых благоприятных условиях Joint Stereo, прямо скажем, не улучшает стереопанорамы.
* Joint Stereo (MS/IS Stereo)Еще более упрощенный вариант предыдущего метода. Все также из исходного стереосигнала выделяется средний для обоих каналов. Но в некоторых частотных диапазонах вычисляется уже не разностный сигнал, а просто соотношение мощностей каналов (IntenSive). Это еще больше экономит место, но при этом полностью теряется фазовая информация, так как сигналы обоих каналов приводятся к одной фазе. Рекомендуется использовать в крайне тяжелых условиях низких битрейтов (64-96 кбит/с), в тех случаях, когда можно пожертвовать стереопанорамой в пользу общего качества звука.

Наконец, на низких битрейтах (диапазон 96-128 кбит/с) начинается полный кошмар для уха аудиофила. Режим Joint Stereo, применение которого на данных битрейтах вполне оправдано, приводит либо к фазовым искажениям (своеобразная металлизированная "шепелявость", "мутации звука"), либо к смазанности стереопанорамы вместе с другими артефактами сильной компрессии (неестественность, "роботизированность" звука). При использовании режимов Stereo или Dual Channel на таких низких битрейтах уже элементарно не хватает информационной емкости потока для сохранения более-менее значимых сигналов из исходной записи. В результате качество хуже, чем при использовании Joint Stereo.

***

В GPSYCHO реализован и переменный битрейт (VBR, variable bitrate), и технология mid/side stereo, дающая иногда лучшие результаты, нежели технология объединенного стерео (joint stereo) и другие разработки, такие, как ABR (average bitrate), улучшенная квантизация и т. п.

Сущность технологии переменного битрейта (или VBR) заключается в увеличении битрейта в тех местах, где требуется более точная передача звука, и соответственно в его уменьшении, когда человеческое ухо менее чувствительно к потерям сжатия. При работе VBR указывается наименьший и наибольший битрейт, в рамках которых он будет изменяться при компрессии звука. Битрейт для какого-то определенного участка звука выбирается, естественно, самой программой автоматически. MP3-файл, закодированный с переменным битрейтом, занимает, как правило, меньше места и обладает лучшим качеством, в сравнении с той же композицией, сжатой с постоянным битрейтом.

Технология mid/side stereo дополняет систему объединенного стерео (joint stereo). Без их применения MP3-компрессор использует классическую схему стереосжатия, когда левый и правый канал звука сжимаются раздельно. При joint stereo кодируется общий поток звука для обоих каналов, а затем отдельно записываются различия в звучании правых и левых каналов. Обычно эти отличия минимальны, что позволяет достигать меньшего размера результирующего сжатого файла при сохранении высокого качества. Модель GPSYCHO добавляет технологию mid/side stereo, при которой анализируются не левый и правый канал, а средний и боковой. Для среднего канала отводится больше места, чем для бокового. Если звук имеет небольшие стереовариации, то в боковом канале будет появляться незначительное количество информации и использование mid/side stereo приводит к серьезным выигрышам в объеме сжатия. В противном случае, когда правый и левый канал сильно различаются, в боковом канале аудиопотока будет содержаться большое количество данных, и результат применения mid/side stereo проявится в виде шумов как в левом, так и в правом канале.

***

**Doc66** » 13.04.2010, 17:54

Спасибо за ответы.
Вообщем, использованиеJoint Stereo оправдано на малых битрейтах (96-192) - это основной битрейт, с которым я кодирую рипы. 192 - на музыкальные программы.
Далее, если нужно увеличивать битрейт до 256 - 320, то предпочтительнее Stereo. Я, надеюсь, что понял правильно?

**pmp140** » 15.04.2010, 14:57

2Doc66
На вкус и цвет - все фломастеры - РАЗНЫЕ!
Т.е. лично я кодирую в режиме STEREO, начиная с 192 кбит/с.
Joint Stereo - на малых битрейтах 64-160 кбит/с.

**MelomanTG** » 17.04.2010, 14:20

А я вообще все кодирую на стерео, многие кодируют на VBR. По качеству особых различий не видел... Но предпочтение отдаю стерео.

**RBS_Vader** » 03.12.2013, 02:50

Математически нет разницы. Использую CBR320/JS, а вообще-то, перехожу на FLAC, чего советую всем любителям качества.

**simmons** » 10.12.2013, 03:13

Только не джойнт стерео, это просто какая-то мерзость при увеличении громкости стереопанорама не расширяется как в стерео режиме. Увидеть в данных файла 320 кбпс в мр3 + джойнт стерео - просто дебилизм, зачем кастрировать и поганить ещё звук, если он и так кастрирован в мр3?

**spijet** » 10.12.2013, 06:55

Веселье да и только. "Богомерзким" был сам кодировщик MP3, т.к. Joint Stereo с течением времени не менялся вообще, это две простейшие формулы пересчёта исходных дорожек для увеличения "сжимательности" файла и меньшего (по ситуации) ущерба для звука.

Joint Stereo для самых маленьких: Обозначим буквами "l" и "r" исходные левый и правый каналы, а "L" и "R" - каналы на "выходе", то, что получится при чтении mp3 декодером, так же добавим буквы "m" и "s" для обозначения "серединного" (общего) и "стороннего" (разностного) потоков, используемых в JS.
Получим:
m=(l+r)/2;
s=(l-r)*2;
На выходе:
L=(M*2)+(S/2); Грубо говоря получим (l+r)+(l-r)=2l
R=(M*2)-(S/2); Получим (l+r)-(l-r)=l-l+r+r=2r
На выходе декодера получится L=2l и R=2r, естественно, эти потоки потом делятся на 2, чтобы избежать обрезки при декодировании в integer-PCM.

Примерно так оно работает. Может используются другие коэффиценты, может они используются на других стадиях, может новые версии LAME чередуют блоки stereo и joint stereo, но принцип работы Joint Stereo именно такой.

Т.к. музыка, которую слушает (и делает) человек, не содержит абсолютно разной и несочитаемой информации в левом и правом канале, Joint Stereo отлично работает почти для всего, потому что чем меньше различий между каналами, тем больше битрейта можно безболезненно отдать под общий канал.

**vladj** » 10.12.2013, 12:10

Нехорошо обзывать формат, которым все с удовольствием пользовались на заре, так сказать...Хотя в те дальние времена я предпочитал
жать и слушать в WMA. Формат был выбран после тщательных прослушиваний на хорошей( по тем временам) аппаратуре в компании таких-
же, увлекающихся музыкой, друзей.

**simmons** » 10.12.2013, 12:22

Т.к. музыка, которую слушает (и делает) человек, не содержит абсолютно разной и несочитаемой информации в левом и правом канале, Joint Stereo отлично работает почти для всего, потому что чем меньше различий между каналами, тем больше битрейта можно безболезненно отдать под общий канал.

Ага я ради примера выложу трек Within temptation c битрейтом в 320 кбпс стерео ( в мерзском мр3 :) ) и трек другогй группы в 320 кбпс в джойнт стерео вот и сравнишь и узнаешь как ужасно звучит так как джойнт стерео переносит панораму в центр и приглушает левый и правый канал.
... Может для битрейтов ниже 128 кбпс джойнт стерео является чудом :)

**spijet** » 10.12.2013, 12:35

джойнт стерео переносит панораму в центр и приглушает левый и правый канал

Интересно, а какие параметры кодировщика вы используете?

Я на самодельных конверсиях FLAC->MP3 слышу только общую разницу в громкости (т.к. насильно применяю ReplayGain), а панорама никуда не переносится и ничего не приглушается (кроме того, что попадает под нож lowpass-фильтра, естественно). Откуда я знаю, вдруг вы кодируете с каким-нибудь -q 5 и сверяете на записи, которая была смастерена по принципу "да здравствует Loudness War, мы добавим высоких частот и их гармоник, чтобы было больше 'громкости' и пространства!!". :toothless:

Кстати, Within Temptation этим болеют, сколько я сталкивался с их записями. Может не там смотрел?

Про приглушение левого и правого канала - были конечно эксперименты с многоканальным mp3, но дальше экспериментов дело не дошло, поэтому ваше "приглушает левый и правый канал" мне не совсем понятно. Он у вас всё сразу приглушает? :biggrin:

**simmons** » 10.12.2013, 12:54

я говорю об мр3 скачанных а не кодированных.

**vladj** » 10.12.2013, 13:03

Смешно, а какая разница между ними ? Тем-более конвертят и выкладывают все, кому не лень, с любыми настройками, которые
только взбредут в голову. Сравнить можно только на своём материале, рипнутом со своего CD, сделав свои настройки, имхо.

**simmons** » 10.12.2013, 13:13

естественно (в скачанном флаке) и вот, почему то ни в флаке , ни в обезьяне , ни в огге не встретишь "удивительного" профиля кодирования в джойнт стерео....

**spijet** » 10.12.2013, 13:19

ни в огге

OGG Vorbis, кстати, тоже использует Joint Stereo. :wink:

Сейчас из интереса решил посмотреть на различия между оригиналом и двумя вариантами MP3 (Stereo и Joint Stereo). Как всё закончу - напишу сюда, что наблюдал и дам ссылку на архив со всем тем, что я "нанаблюдал". :think:

**simmons** » 10.12.2013, 13:22

отлично, спасибо

**spijet** » 10.12.2013, 14:54

Ну что ж, весь набор вавок со сравнениями у меня готов.
По результатам могу сказать, что simmons неправ и (по крайней мере в cлучае с выбранной мной песней Wall Of Voodoo - Back In Flesh) Joint Stereo даёт меньше искажений, чем "честный" Stereo.
Под спойлером - скрин RG-сканера Foobar2000 и мои наблюдения.

Много букв!!: Значение Track Gain здесь показывает, насколько была увеличена громкость трека, чтобы он "добрал" 89dB SPL, используемые ReplayGain'ом как "эталон". Track Peak - максимальную амплитуду сигнала в численном эквиваленте.
Таким образом, чем больше Track Gain - тем больше надо усилить сигнал, чтобы его услышать, а это значит, что искажений (т.к записаны там ТОЛЬКО искажения) в этом случае меньше.

Так, мы видим, что разница между оригиналом и MP3 в Joint Stereo (файл bif_aligned_all_orig-js) по амплитуде достигает 0.013 (1.0 - полная шкала, -0.0 "цифровых" dB) и имеет Track Gain +40.13.
А разница между оригиналом и MP3 Stereo имеет пик амплитуды равный 0.016 и Track Gain +39,15.
Track Gain меньше - искажений больше. Получается, что стерео-MP3 "гадит" почти на 1 децибел SPL больше, чем JS.

Теперь пойдём дальше и сравним всё "по частям", ведь у Joint Stereo битрейт между каналами делится не поровну.

Смотрим по списку и видим файлы bif_aligned_mid_orig-*. В них записаны разницы общего (Mid) канала оригинала с таковым у Joint Stereo и просто Stereo соответственно.
На этот раз пик амплитуды в обоих случаях одинаков, но значения Track Gain неравны. Почему так?
ReplayGain считает громкость не исходя из значения амплитуды сигнала, а ориентируясь на психоакустику, в частности на то, какие частоты воспринимаются ухом громче\тише.
То есть, пик у нас в обоих случаях одинаков, но в случае со Stereo присутствует больше "мусора" в спектре, скорее всего в верхних частотах, т.к. они человеком воспринимаются громче.
Отсюда 0.11 дБ разницы, опять в пользу Joint Stereo.

Остались файлы side_*. В них я записал разностные (Side) каналы у всех трёх вариантов (side_orig, side_js, side_st) и разницу Side оригинала и обоих MP3 (side_orig-js, side_orig-st).
И снова победил Joint Stereo, потому что в его случае искажения Side-канала остались на уровне 0.0092, а у Stereo они доросли до 0.010, а по гейну Stereo опять нашумел больше на ~1dB.

Как небольшой бонус, оставил разницу разностных каналов Stereo и Joint Stereo, чтобы посмотреть, как они "гадят" относительно друг друга, но я не знаю, зачем. :D

Если кто-то хочет перепроверить это всё сам, то вот архив с тремя вариантами самой песни и записями всех искажений в 24\44100 (24 бита, чтобы ничего "ценного" не потерялось).
Записи искажений сжаты во FLAC. Если вдруг найдутся те, кто не верит в то, что FLAC сжимает всё без потерь - обязательно скину оригинальные WAV по запросу.

**simmons** » 10.12.2013, 19:01

Спасибо, но помоему речь шла об мр3 а не о флаке или я неправильно понял?

**spijet** » 10.12.2013, 19:19

Вы же сами сказали:

simmons:Только не джойнт стерео, это просто какая-то мерзость при увеличении громкости стереопанорама не расширяется как в стерео режиме. Увидеть в данных файла 320 кбпс в мр3 + джойнт стерео - просто дебилизм, зачем кастрировать и поганить ещё звук, если он и так кастрирован в мр3?

Вот я вам и показал, что Joint Stereo никакая не мерзость, а очень даже приятная и полезная штука.

Добавлено спустя 18 часов 12 минут:
А записи во FLAC для того, чтобы они были не такими огромными как WAV. Но и в MP3 их сжимать не нужно, ведь надо замерить искажения, а не нарастить их.