다채널 서라운드 사운드의 코딩 Part. 1

디지털 오디오 개론 강좌

이번 호와 다음 호에서는 홈시어터 서라운드 사운드를 구현하기 위한 다채널 서라운드 사운드의 코딩 방법, 요소, 기술을 살펴보고, 그중 가장 많이 사용되는 돌비 디지털과 DTS 사운드에 대한 일반적인 이해와 이를 실제로 구현하는 코딩 방법에 대해 알아본다.

1. 다채널 오디오의 코딩 스테레오 2채널 또는 돌비 5.1채널 서라운드와 같은 다채널 오디오에 있어서는 채널 사이에 공통적인 요소가 많이 있다. 이런 성질을 최대한 활용하면 더욱 압축 효율을 향상시킬 수 있다. 하지만 각 채널마다 마스킹 레벨이 다르기 때문에 처리에 있어 상당한 주의를 요하기도 한다. 예를 들어 스테레오 2채널 중 한쪽 채널에 적용하는 마스킹 레벨을 다른 채널에 그대로 적용하면 마스킹이 되지 않거나 과도하게 마스킹 되어 버릴 가능성이 있다. 사람의 귀는 공간적인 위치 파악에 있어서는 꽤 정확한 편이다. 즉, '칵테일 파티 효과'라고도 알려져 있는데, 파티 장소에서 여러 명이 서로 이야기해도 특정한 사람의 목소리를 알아낼 수 있는 능력을 의미한다. 또한 음의 발생 위치를 알아내는데 2kHz 이상의 대역의 음은 임계 대역 안에서 음의 특정한 톤 성분을 통해서라기보다는 음의 톤 성분의 전체적인 형태, 즉 음의 포락선(包絡線, Envelope)을 통해서 알아낸다. 이러한 청각 인지 특성을 최대한 이용해 다채널 오디오 코딩을 한다. 이렇게 할 경우 두 개의 모노 채널을 코딩하는 것보다 대략 제곱근(Root) 정도의 용량 정도로 압축률을 높일 수 있다. 예를 들어 스테레오 2채널의 경우는 모노의 1.4배 정도, 5.1 서라운드 채널의 경우는 2.26배 정도의 용량으로 압축이 가능하다.

그림 1. 스펙트럼 대역 복제 코딩 방법

가장 많이 사용되는 다채널 코딩 기법은 조인트 스테레오(Joint Stereo) 코딩 기법이다. 이는 스테레오 좌•우 2개 채널의 상당 부분이 상호 간에 공통부분과 중복 요소가 많다는 점을 최대한 이용하는 기법이다. 5.1 서라운드 채널의 경우는 전방 좌•우 채널과 후방 좌•우 채널 간에 유사성이 많다는 점을 이용한다. 이들 유사성이 많은 채널들은 대부분 음량이 비슷하고, 소리 성분 및 위상이 비슷한 점이 많다. 이러한 유사성을 채널 간의 상관관계라고 하는데, 이는 시간 도메인에서는 잘 알기 힘들지만 푸리에 변환(Fourier Transform) 등을 통해 주파수 도메인으로 변환해서 주파수에 따른 신호의 세기를 보면 쉽게 파악할 수 있다. 이러한 다중 채널 오디오 코딩에 있어 가장 많이 사용되는 기법은 M/S(Middle/Side) 코딩 기법이다. 이는 스테레오 좌•우 채널의 신호를 더한 것(Middle)과 뺀 것(Side) 신호로 만든다. 즉, M = (L+R)/2, S = (L-R)/2 신호로 만든다. 이렇게 하면 대부분의 음악 신호는 M 쪽으로 모이게 되고, S 쪽의 신호는 양 신호에서 서로 다른 성분만 남게 되고 이쪽 부분의 신호는 그리 많지 않게 된다. 따라서 이쪽 부분에는 양자화 비트를 작게 배정해도 충분히 정보를 전달할 수 있다. 전송이나 저장 과정에서는 이 같은 M/S 신호로 처리하고, 최종 수신단에서 아날로그로 돌리기 이전에 다시 L = M+S, R = M-S의 간단한 식으로 좌•우 신호로 다시 복원할 수 있다. 이렇게 하면 2개의 모노 채널을 별도로 처리하는 것보다 훨씬 효율적으로 압축이 가능하다. 5.1채널 서라운드의 전방 및 후방 좌•우 채널도 위와 같은 방식으로 처리하고, 센터 및 서브우퍼 저음 채널도 필요 시 이와 같이 짝을 지어 조인트 스테레오 코딩 처리를 한다. M/S 코딩 방법 이외에 많이 사용되는 것으로 음압 스테레오 코딩(Intensity Stereo Coding)이라는 방법이 있다. 이는 청각 인지상 고음 대역의 음을 듣는 데는 주로 시간축상의 에너지 분포 형태, 즉 음압(포락선-包絡線, Envelope) 형태로 인지한다는 것에 기초를 둔 코딩 방법으로, 오디오 신호 자체를 코딩하지 않고 전체적인 포락선 형태를 코딩한다. 하나의 음압 스테레오 코딩된 신호는 다른 채널 간에 공유가 가능하다. 다른 채널에 적용할 때는 디코딩 시에 음압의 양만 조절해서 적용하면 되기 때문이다. 이 기법은 특히 음의 공간 정보를 효과적으로 코딩할 수 있어 다중 채널 서라운드에 많이 적용한다.

그림 2. 파라메트릭 스테레오 코딩의 기본 원리
다채널 오디오에 있어 또 다른 압축 기법의 하나는 스펙트럼 대역 복제(SBR : Spectral Band Replication)이라고 하는 기법이다. 이는 오디오 신호의 전체적인 모습이 저역이나 고역 부분이나 크게 다르지 않다는 점에 착안한 방법이다. <그림 1>에서 보는 바와 같이 전송 시에는 일정 주파수 이상의 고역 대역은 제하고, 대신 고역 대역에 대한 관련 정보와 함께 저역 대역 신호를 전송한 다음 디코더에서 고역 대역의 신호는 전송된 고역 대역에 대한 정보를 바탕으로 저역 대역의 신호를 복사해 이어 붙이고, 음압의 강도를 조절해 매끄럽게 이어지도록 하는 방법이다. 저역과 고역 대역을 가르는 주파수는 가용한 비트레이트 양이 많고 적음에 따라 대략 4-12kHz에서 정해진다. 이렇게 해서 대략 30% 정도의 압축 효율을 높일 수 있다. 이 방법은 MP3PRO와 HE-AAC(High Efficiency AAC) 포맷에 사용되고 있다. 하지만 이 방법은 고역대와 저역대의 신호 성분이 많이 다를 경우, 또 급격한 음의 변화가 있는, 즉 과도 상태에 있는 경우는 왜곡에 의한 잡음 발생 확률이 있다.이외에 파라메트릭 스테레오(Parametric Stereo) 코딩(그림 2) 방법도 있다. 이는 좌•우 채널 음의 상관관계를 최대한 이용하는 것으로, 양 채널을 다운 믹스한 모노 채널을 만들고 이와 함께 좌•우 채널의 진폭, 위상 및 특징 점에 관한 정보(파라메트릭 정보라 한다)를 더해서 전송하는 방법이다. 이 파라메트릭 정보의 용량은 2-3kbps 정도 밖에는 되지 않기 때문에 상당한 신호 압축 효율을 얻을 수 있는 방법이다. 유럽의 디지털 오디오 방송의 개정 규격인 DAB Plus와 HE-AAC에 적용하고 있다.

2. AC-3(돌비 디지털) AC-3은 돌비(Dolby) 사가 개발한 다채널 오디오 코덱으로, 영화의 사운드 트랙, 디지털 TV, DVD 및 블루레이 디스크에 이르기까지 넓은 범위에서 사용되고 있다. AC-3 전에 개발된 규격으로 AC(Audio Coding)-1과 AC-2가 있다. AC-1은 스테레오 코덱으로 아날로그형 컴팬딩(Companding : Compressing과 Expanding의 합성어) 기법과 함께 적응형 델타 변조 방법을 사용한 것으로, 청각 인지 코덱은 사용하지 않았다. AC-2는 4개의 싱글 채널 코덱으로 스테레오나 멀티채널에 사용할 수 있도록 했는데, 비교적 복잡하지 않은 시간축 엘리어싱 제거(TDAC : Time Domain Aliasing Cancellation) 트랜스폼 코딩 방법을 사용한 청각 인지형 코덱이다. 채널당 256kbps 정도의 데이터 용량으로 고품질의 오디오를 전달할 수 있도록 했다. 16비트 48kHz의 디지털 입력에 대해 대략 5-6 : 1의 압축비를 제공할 수 있었다. AC-3은 이런 전작의 AC-1, AC-2의 기술적 기반을 바탕으로 영화 사운드에서 적용을 주목적으로 1992년에 소개되었다. 모노 채널에서부터 7.1채널까지의 다양한 멀티채널 서라운드 사운드를 제공할 수 있는 청각 인지 코딩 방법이다. 가장 많이 사용되는 포맷은 5.1채널 서라운드로 주 채널의 주파수 응답은 3Hz-20kHz이며 저주파 채널의 주파수 응답은 3-120Hz이다. 이런 5.1채널에 대한 비트레이트는 압축하지 않을 경우 대략 5Mbps 정도이나 AC-3은 이것을 384kbps 정도로 압축한다. 이것은 13 : 1 정도의 압축비인데, 최소 32kbps에서 640kbps까지의 범위에서 인코딩 시 목적에 따라 압축률을 정할 수 있다. AC-3은 서라운드 사운드의 인코딩에 있어 매트릭스(Matrix) 기법을 사용하지 않고, 각 채널 독자적으로 인코딩하기 때문에 한 채널의 양자화 잡음이 다른 채널로 전이되지 않는다. 또 하나의 특징은 영화 대사를 담당하는 센터 채널에 대해 노멀라이제이션(Normalization) 처리를 하기 때문에 어떤 콘텐츠라도 재생 시의 대사에 대한 음량은 일정하게 유지된다. 또한 다이내믹 범위 조절 기능을 포함하기 때문에 ±24dB 범위 내에서 다이내믹 레인지를 사용자가 원하는 만큼 조절이 가능하다. 이 기능의 대표적인 예가 '심야 모드(Midnight Mode)'라는 것으로, 이를 선택하면 이웃에 방해가 되지 않도록 다이내믹 레인지를 줄여 준다. 특히 AC-3은 다운 믹싱(Down Mixing)을 지원해 5.1 서라운드 채널의 사운드를 제작자가 원하는 대로 스테레오 2채널이나 모노 채널로 디코더에서 다운 믹싱할 수 있도록 하는데, 이에 필요한 데이터를 AC-3 비트 스트림에 같이 전송되도록 되어 있다. 이외에도 시각 장애자 등을 위해 대사의 명료도를 높여 주는 기능이나 감독의 해설(Commentary) 등을 제공하는 등 여러 편리 기능을 갖고 있다.AC-3은 청각 인지 코딩 방법을 사용하면서 각 채널 간의 중복되는 음 성분을 제거했기 때문에 압축 효율이 AC-2보다 뛰어나 192kbps 정도로도 스테레오 2채널에 대해 훌륭한 음질을 내준다. AC-3의 인코딩 및 디코딩 과정은 <그림 3>에서 보는 바와 같다. 다른 MPEG 코딩과는 달리 복합 전•후방 적응형 비트 할당 방법을 사용하기 때문에 비트 할당 루틴이 인코딩뿐 아니라 디코딩 시에도 일어난다. 일단 AC-3은 오디오 신호에 대해서 주파수축상에서 양자화를 해 데이터 압축을 한다. AC-3 인코더는 해석용 필터 뱅크를 사용해 입력되는 PCM 신호를 시간축에서 주파수축으로 바꾸는 트랜스폼 코딩을 하며, 이때 생성되는 주파수 계수는 지수 형태로 표현한다. 즉, 이진수의 형태로 지수(指數, Exponent)와 가수(假數, Mantissa)를 표현하는데, 이는 대체적인 신호의 스펙트럼 형태를 나타내 주기 때문에 스펙트럼 포락선(Envelope)이라고 하며, 이를 통해 비트 할당 루틴에 들어가서 가수에 대해 얼마만큼의 비트를 할당할 것인지 결정하게 된다. 6개의 오디오 블록, 즉 1536개의 오디오 샘플에 대한 비트 정보는 하나의 프레임으로 만들어져 전송되게 된다. 디코딩은 인코딩의 역순으로 진행된다. 디코더는 입력되는 비트 스트림 신호에 동기를 시킨 다음 오차를 점검 및 보정하고 스펙트럼 포락선과 양자화된 가수 데이터를 얻기 위해 디포맷팅한다.비트 할당 루틴을 통해 얻은 결과 값을 가지고 가수 값을 얻고 스펙트럼 포락선을 디코딩해서 지수 값을 얻는다. 최종적으로는 지수와 가수 값을 통해 시간축 정보로 되돌려지고, 이를 통해 PCM 샘플로 변환된다.

1) AC-3 처리 이론
AC-3 인코더의 동작은 상당히 복잡한 편으로, 상당한 최적화 과정이 수행된다. 인코더에서는 먼저 한 블록 512 샘플이 모아지면 직류 값을 제거하기 위해 3Hz 이하의 신호는 제거되고, 중간 대역 통과 필터를 통해 과도(Transient) 상태 인지를 알아낸다. 각 블록은 윈도우를 통해 처리하는데, 필터 뱅크를 통한 다음 TDAC 코덱을 사용해 적응형 트랜스폼 코딩을 한다. 여기서 MDCT 알고리듬을 처리하기 위해 FFT(Fast Fourier Transform)을 하며, 주파수 해상도는 48kHz의 샘플링 주파수를 사용하는 경우 93.75Hz이다. 각 트랜스폼 블록은 오디오 신호의 10.66㎳에 해당한다. 사용하는 윈도우의 형태는 카이저-베셀(Kaiser-Bessel) 변형으로 50%씩 오디오 신호를 중복해서 사용하기 때문에 하나의 PCM 신호는 연속하는 두 개의 트랜스폼 블록에 의해 처리되고, 그 결과는 반으로 나누어져 블록당 256개의 주파수 계수가 나오게 된다. 이와 같이 반으로 나누어지는 과정인 서브 샘플링에 의해 생길 수 있는 엘리어싱은 신호가 다시 복원될 때 서로 상쇄되어 나오지 않도록 설계되어 있다. TDAC 코덱에 대한 입력은 시간축상의 512개의 샘플이며, 출력은 주파수축상의 256개의 주파수 계수이다. 0Hz에서 24kHz의 오디오 대역에 대해서는 50개의 밴드로 나누는데, 임계 대역의 중요도에 따라 밴드 폭을 임계 대역폭의 1.4배에서 3.4배 사이로 결정한다.

그림 3. AC-3의 인코딩 및 디코딩 흐름도
폭발음과 같은 시간축상의 과도 신호는 양자화 과정에서 왜곡되기 쉽기 때문에 인코더에서는 고주파 대역 통과 필터를 사용해 이러한 과도 입력 신호를 알아낸다. 그리고 윈도우 형태를 동적으로 변환시켜 통상의 512 샘플에 적용하는 것을 이의 반인 256 샘플에 적용하는 것으로 바꾼다. 이렇게 해서 시간축상의 분해능을 증가시킬 수 있는데, 이같이 256 샘플에 적용하는 윈도우로 바꿔 출력되는 주파수 계수는 128개가 되는 동시에 시간축상의 해상도는 2배로 증가하게 되어 양자화 잡음이 일시적으로 마스킹 되는 효과를 얻을 수 있다. 이러한 짧은 윈도우의 사용은 주파수 응답 측면에서는 좋지 않지만, 이는 과도 입력에 대해 일시적으로 사용하는 것이고, 과도 입력 자체가 신호의 다른 주파수 신호 성분을 마스킹 시키기 때문에 청감상 문제는 많지 않다. 이와 같이 블록을 신호의 형태에 따라 바꾸어 사용하는 것은 전체적인 처리 과정을 단순화한다. 2개의 짧은 블록의 그룹은 하나의 긴 블록으로 간주하면 되기 때문이다. 주파수 계수는 임계 대역과 비슷하게 처리할 수 있도록 하기 위해 서브 밴드별로 모아진다. 각 주파수 계수는 전술한 바와 같이 지수 형태로 처리하는데, 가수에 대해서는 0에서 16비트까지의 비트가 유동적으로 할당되고, 지수에 대해서는 고정적으로 5비트가 할당된다. 보통 이 둘을 합해 16에서 18비트의 신호로 많이 처리되지만, 경우에 따라서는 24비트로 올라가 정밀도를 높이기도 한다. 여기서 지수 성분은 그 신호의 다이내믹 레인지를 표현하는데, 가수에 대한 스케일 펙터 역할과 함께 신호의 스펙트럼 포락선 형상을 표현해 준다. AC-3에서는 압축률을 높이기 위해 각 샘플에 대해 일일이 지수를 표현하는 대신 시간적으로 또 주파수적으로 인접한 샘플과 지수를 공유하고, 각 샘플은 대표적인 지수와의 차(Difference) 값으로 표현한다. 즉, 스펙트럼 포락선을 나타내는 지수 값은 인접 필터에서 나온 값과의 차이 값만이 코딩된다. 필터의 기울기 값은 최대 12dB/bin이기 때문에 ±2, ±1 및 0의 5개 값으로 차이 값이 표현된다. 즉, 최저주파 대역의 필터에서 나오는 지수 값만 절대 값으로 나오고, 이후의 필터에서 나오는 지수 값은 이전 필터의 값과의 차이만으로 표현하기 때문에 압축률을 높일 수 있는 것이다. 2) AC-3의 비트 할당과 압축 효율 증대 전략
AC-3에서는 압축 효율을 더 한층 높이기 위해 한 오디오 블록에서 각기 다른 지수를 가진 샘플들을 따로따로 모아 사용하는데, 하나의 지수를 1, 2 및 4개의 가수와 공용해서 사용하도록 설계되어 있다. 이러한 그룹들을 D15, D25 및 D45 모드로 나누어 관리하며, 이를 지수 전략(Exponent Strategy)이라고 한다. 이들 그룹은 양자화 잡음을 최소화하면서 압축 효율을 높이는 쪽으로 지수 전략을 구사한다. 구체적으로 D15 지수 전략 그룹은 입력 신호의 변화가 작은 안정적인 구간에 사용하는데, 시간축상에서의 변화가 작은 만큼 주파수상에서의 정밀도는 높다. 3개의 연속되는 지수에 대해 7비트를 사용하기 때문에 하나의 지수당 평균 2.33비트로 압축률이 높아진다. 이 D15 그룹은 신호가 안정적인 경우에 사용하므로 추정치에 대한 코딩의 주기는 길다. 예를 들어 6개의 블록당 한 번씩 추정치에 대한 코딩을 한다면 오디오 샘플당 필요한 지수 값에 대해 0.39비트만이 소요된다. 과도 상태가 입력되는 경우에는 신호 스펙트럼 예측을 더 자주 경신해야 한다. 이를 위해 D25와 D45 모드가 사용된다. D25 모드는 과도 입력이 들어오는 빈도가 높지 않을 경우, 즉 2-3 오디오 블록 사이 정도에서는 신호가 비교적 안정적일 때 사용한다. 시간축상이나 주파수축상에서의 분해능은 중간 정도이고, 지수당 1.17비트가 사용된다. D45 모드는 하나의 오디오 블록 내에서도 과도 입력이 일어나는 경우 사용되며, 시간축상에서 해상도는 높지만 주파수축상에서의 해상도는 떨어진다. 지수당 0.58비트의 데이터 비트율을 가지게 된다. 이러한 지수 전략은 주파수축상에서뿐 아니라 시간축상에서도 적용된다. 일반적으로 입력 신호가 512 샘플 블록 이상으로 안정적인 경우가 많은데, 이때의 스펙트럼 형상도 많은 블록 구간에 있어 비슷한 형태를 보인다. 이러한 점을 이용해 후속되는 블록에 대해 지수 값을 공유해서 비트 소요량을 절감한다. 일반적인 경우 D15 모드로 프레임의 첫 번째 블록이 코딩되고, 나머지 5 블록에 대해서는 이 지수 값이 공유되는데, 이렇게 해서 데이터율을 1/6로 압축이 가능하다 3) AC-3의 멀티채널 코딩
AC-3의 가장 큰 특징은 멀티채널을 효율적으로 하나의 비트 스트림 데이터로 코딩하는데 있다. 이를 위해 인코더는 채널 결합 또는 인지되는 공간적 정확성을 유지하도록 하면서 특정 주파수 대역에 대한 리매트릭싱(Re-Matrixing) 기법을 사용하기도 한다. 채널 결합이란 것은 음압 스테레오 코딩에 기초한 것으로, 2개 이상의 채널에서 고역 주파수 대역의 신호를 하나의 결합 채널로 합하는 것이다. 결합된 하나의 채널 신호는 디코딩 시에 원래의 채널로 되돌리기 위해 필요한 계수와 함께 전송된다. 이들 계수는 결합 채널과 원 채널 간의 스펙트럼 파워 비율을 양자화한 데이터들이다. 이 채널 결합 기법은 사람이 3kHz 이상의 주파수 성분에 대해서는 신호가 들려오는 방향성이 크게 떨어진다는 사실을 이용한 것으로, 상당한 비트 압축 효과를 가진다. 트랜스폼 코딩에서 3kHz 이상의 주파수 계수가 차지하는 비율이 85%이기 때문이다. 이런 채널 결합에 대한 전략은 인코더에서 행해진다. 채널 결합은 일정 주파수 이상에서만 행해지는데, 3kHz 이상에서부터 가능하며, 보통 10kHz에서 많이 한다. 따라서 결합 채널 이외의 다른 채널은 3Hz에서 10kHz까지의 신호에 대해서만 지수와 가수 정보에 대해 비트를 할당해서 전송하고, 그 이상의 주파수 신호는 하나의 결합 채널에 합해져 복원에 필요한 계수와 함께 전송된다. 따라서 각 채널에 10kHz 이상의 신호에 대해서는 생략할 수 있어 전송에 필요한 데이터율을 반으로 줄일 수 있게 된다.

그림 4. 3개 채널에 대한 AC-3 코딩 채널 결합의 예
<그림 4>는 3개 채널에 대한 채널 결합의 예를 보여 준다. 채널을 결합할 때 신호의 상쇄가 일어날 수 있기 때문에 위상을 조정해 이를 방지한다. 3개 채널의 결합 주파수 이상에 대해서 주파수 계수를 더해서 하나의 결합 채널이 만들어 진다. 원래의 채널과 결합 채널의 각 임계 대역 신호의 세기를 계산해 스케일 팩터 등 결합 계수를 생성한다. 임계 대역 결합 전의 원 채널 신호를 결합 채널 신호로 나누어서 스케일 팩터 계수를 만들어 낸다. 이 값은 -132에서 18dB 사이의 값을 갖게 되는데, 그 간격은 0.28 내지 0.53dB이다. 나누어지는 주파수 대역은 최대 18개이지만 보통 14개의 대역으로 나누어진다. 디코딩 시에는 결합 채널의 각 주파수 대역에 대해 이 결합 계수를 곱해 결합 전의 채널에 대한 고역 주파수 대역의 신호를 복원한다.

그림 5. AC-3의 데이터 비트 스트림 구조

그림 6. 돌비 디지털 플러스의 다운 믹싱 기법

AC-3의 인코더는 M/S 코딩과 유사한 리매트릭싱(Re-Matrixing) 기법을 선택적으로 사용 가능하다. 이것은 쌍이 되는 채널들의 신호 상관관계를 이용해 압축 효율을 높이는 것이다. 2개 채널의 신호를 각각 처리하지 않고 합(Sum)과 차(Difference)의 신호로 만드는데, 양 신호에 유사 성분이 많으면 차 신호의 정보가 크게 낮아져 이의 코딩에 필요한 비트 소요가 작게 된다. 이 리매트릭싱 기법은 최대 4개의 주파수 대역에서 선택적으로 적용이 가능한데, 그 주파수 대역은 결합 채널이 시작하는 주파수와 관련된다. 즉, 결합 채널이 사용하는 고역 주파수 대역 이하의 대역에서 이 리매트릭싱 기법을 사용하며, 2채널 스테레오 모드 시에만 적용된다. 4) AC-3의 데이터 비트 스트림 구조
AC-3의 데이터는 <그림 5>에서 보는 바와 같이 프레임에 들어 있다. 각 프레임은 완전히 독립적으로 인코딩된 객체이다. 한 프레임에는 싱크 정보(SI), 헤더, 비트 스트림 정보(BSI), 32㎳에 해당하는 기간 동안의 오디오 정보가 양자화된 주파수 계수 형태로 있고, 보조 필드 및 오차 검출 등을 위한 CRCC 데이터가 들어 있다. 한 프레임은 48kHz의 샘플링 주파수를 사용할 경우 32㎳의 길이이다.싱크 정보 필드에는 16비트의 싱크 워드와 2비트의 샘플링 주파수 정보 및 6비트의 프레임 크기 정보가 들어 있다. BSI 필드에는 코딩 방법, 타임 코드, 저작권 및 언어 등에 관한 정보가 들어 있다. 오디오 블록은 길이가 가변적인데, 6개의 블록으로 구성된다. 하나의 블록에는 256 샘플이 들어가 있으며, 양자화된 가수, 비트 할당 파라미터, 지수 전략, 지수, 그리고 블록 스위치 플랙(Flag), 디더(Dither) 플랙, 커플링 데이터 및 리믹싱 데이터로 구성된다. 프레임 말단에 있는 CRCC는 16비트 크기인데, 선택적으로 SI 헤더 부분에 추가가 되어 오차 정정 기능을 보강할 수 있다. 이 같은 AC-3의 스트림은 ISO/IEC 1318-1의 규격에 의해 MPEG-2 전달 스트림에 의해 전송되는데, 하나 이상의 AC-3 스트림을 실을 수도 있다.

사진 1. 영화필름에서 AC-3 적용 예

5) AC-3의 적용과 확장
AC-3은 일반적으로 돌비 디지털이란 이름으로 더 많이 알려져 있는데, 다양한 용도로 사용이 되고 있다. 가장 큰 용도가 영화의 5.1채널 서라운드 사운드를 전달하는 것이다. 영화관에서 상영하는 필름에는 <사진 1>에서 보는 바와 같이 천공(Perforation) 사이사이의 부분에 광학적으로 새겨져 있다. 옆면에는 일반 아날로그 2채널의 광학 사운드 트랙이 위치한다. 여기에 사용하는 광학 AC-3 트랙의 데이터율은 320kbps이다.돌비 디지털 EX는 돌비 디지털에 후방의 센터 서라운드 채널이 더해진 확장 규격으로, 후방 서라운드의 좌•우측 채널의 신호로부터 매트릭스 형태로 추출된다. 돌비 디지털 플러스는 Enhanced AC-3 또는 E-AC-3으로도 불리는데, 본격적인 확장 규격으로 두 개의 추가 채널을 더해 7.1채널까지 지원하며, 640 kbps 이상의 높은 비트레이트율도 지원하는 동시에 낮은 비트레이트율로 사용할 경우를 위해 스펙트럼 코딩(Spectrum Coding) 기법을 추가했다. 5.1채널 데이터는 기존 기기와의 호환을 위해 AC-3로 코딩되어 있고, 추가적인 2채널은 돌비 디지털 플러스 독자의 형식으로 코딩되어 있다. 기존의 돌비 디지털 디코더는 5.1채널만 재생하고 나머지 2개의 채널은 <그림 6>과 같이 서라운드 채널과 다운 믹스되어 재생된다. 돌비 디지털 플러스를 재생할 수 있는 디코더는 당연히 7.1채널을 재생할 수 있다.

돌비 트루 HD(Dolby True HD)는 비손실 압축 방식이다. 핵심 부분은 AC-3이지만 이와 함께 MLP(Meridian Lossless Packing) 코덱을 사용해 비손실 압축을 실현하고 있다. 24비트와 192kHz의 샘플링 주파수까지 지원한다. 다중 채널 MLP 스트림은 비손실 다운 믹스 기능도 함께 지원한다. 예를 들면 8개 채널의 MLP 스트림은 2개 및 6개의 비손실 다운 믹스 데이터도 함께 갖고 있어 더 적은 채널만을 지원하는 디코더에서도 무손실로 재생할 수 있게 한다. 돌비 트루 HD 신호를 디지털 그대로 전송하기 위해서는 HDMI 1.3 이상을 지원하는 케이블이 필요하다.

이재홍 다른기사 보기

월간 오디오 (2012년 1월호 - 474호)