音声の符号化
2008/05/26
音声デジタル化
MPEG-2 AAC(Advanced Audio Coding)音声符号化方式は、高圧縮かつ高音質を実現しており、5.1サラウンドなどのマルチチャンネルに対応機器しています。
このAACは地上地上デジタル放送の音声のほか、すでに、BSデジタル放送、110度CSデジタル放送の音声符号化方式に採用されるなど、日本のデジタル放送に共通の音声符号化方式となっています。
デジタル音声の温室を確保するためには、サンプリング周波数と量子化ビット数の選定が大切です。デジタル放送では信号帯域幅として20kHzを確保するため、サンプリング周波数は48kHzが用いられています。また量子化ビット数は16ビット以上、とされています。
高能率な符号化方式では、符号化ビットレートが温室を大きく左右しますが、原音との区別がつかない高音質という基準で、2チャンネルステレオで144kbps程度がしようされます。また携帯受信など、ビットレートが十分取れない場合用に32kHzや24kHzのサンプリング周波数も採用されています。
マスキング特性
AAC符号化方式はマスキングの性質をたくみに利用に、符号化の際に出る量しかノイズをまったく聞こえないか、聞こえても非常に少ないように工夫されています。
マスキングは、例えば、駅のプラットホームで普通に話しているときに電車が入ってくると、大きな音のために話がきこえなくなる現象です。
図には、横軸に音の周波数、縦軸にマスキングによってかき消す音に対する、かき消される音の相対的な大きさが表されています。
例えば、大きな音(A)がある場合、(C)(D)の音は聞こえますが、(A)による三角形のマスキングカーブ以下の音(B)は聞き取れません。
大きな音の周波数や信号レベルを変えた場合、マスキングのカーブを左右や上下に並行移動した特性になります。

音声符号化方式
AACによる音声の符号化は、図に示すように、マスキングカーブ計算、MDCT変換、再量子化という3段階の信号処理で構成されます。

まず、一般の音声信号のココの周波数成分をもとに、あとで行う再量子化によって生じる量子化ノイズが聞こえないレベル(マスキングカーブ)を計算します。その計算手順を次に示します。
- 次図のように、音声信号を分析し周波数スペクトルを求めます。
- 周波数成分ごとにマスキングカーブにもとづいて、個々のマスキングレベルを求めます。
- 個々のマスキングレベルと最小可聴限(音が聞こえる最小のレベル)を組み合わせて、図のような音声信号全体のマスキングカーブを求めます。
このマスキングカーブ以下のレベルの信号やノイズは、音声信号自身にマスクされて聞こえません。

次に、入力された音声信号は、約43msの長さで切り出され、MDCT(Modified Discrete Cosine Transform)を用いて再度、周波数スペクトルが計算されます。MDCTは次々に連続して周波数成分を求めるのに適している手法です。
生後に、計算されたMDCT周波数スペクトルは、情報量の圧縮のため粗く再量子化されます。この際、生じる量子化ノイズをマスキングレベル以下に抑えるようびビット数を割り当てることで、音質の劣化なしに符号化を行えるようにしています。
デジタル放送の音声モード
放送される音声のサンプリング周波数は48kHzまたは32kHzです。また、携帯受診など部分受診においては24kHz(ハーフレート)も使用されます。音声モードを下表に示します。モノ、ステレオ、最大5.1チャンネルまでのマルチチャンネルステレオ、2カ国語用の2つのモノ、2つのステレオなどが放送可能になっています。符号化レートは標柱の値を目安として運用されます。

下表には、想定される受信サービスごとに信用できる音声モードを示しています。複数ESモードは2ヶ国語のステレオの場合に利用しますが、固定サービスの場合しか利用できません。デュアルモノはモノの2ヶ国語放送や舞台中継の解説音声などに利用します。

出所:知っておきたい地上デジタル放送(NHK出版)





























