TOP NEXT PREV

3-ANNEX C ( informative )

THE ENCODING PROCESS

3-C.1 Encoder

3-C.1.1 Overview

この付録において、それぞれのレイヤーに適した1つのエンコーダを対応した流れ図を用いて説明する。時節においてサブバンドフィルター解析とレイヤー独自のエンコード技術が議論される。ANNEX D において、すべてのレイヤーに共通な2つの音響心理モデルが議論される。序文にて全体的な原理について議論される。

INTRODUCTION

MPEG-Audioアルゴリズムは音響心理アルゴリズムである。下図は音響心理アルゴリズムの主たる部分を示している。

INTRODUCTION

音響心理エンコーダの主たる4部分は

1) The Filterbank ( フィルターバンク )

フィルターバンクは時間領域-周波数領域変換を行う。MPEG-Audioアルゴリズムでは、2つのフィルターバンクが用いられ、それぞれ時間領域-周波数領域で特定の変換を行う。これらのフィルターバンクは入念に試される(言い換えれば、時間領域と同様に解析領域において多くのサンプルがとられる)。これらのフィルターバンクはエンコーダで最初の周波数分解を行う(デコーダでは合成フィルターが用いられる)。フィルターバンクの出力サンプルは量子化される。

2) Psychoacoustic Model ( 音響心理モデル )

音響心理モデルはフィルターバンクのそれぞれのバンドでの目立つノイズレベルを計算する。このノイズレベルは実際の量子化を決定する為に、ビット・ノイズ割り当て器にて用いられる。3-ANNEX D にて2つの音響心理モデルが議論される。それらはMPEG-Audioアルゴリズムのすべてのレイヤーに用いることができるが、モデルTはレイヤーTとレイヤーUにて用いられ、モデルUはレイヤーVにて用いられる。両方の音響心理モデルにおいて、最終的な出力はそれぞれのバンド(レイヤーT、レイヤーU)または、バンドのグループ(レイヤーV)における信号-マスク比(SMR)である。

3) Bit or Noise Allocation ( ビット・ノイズ割り当て )

割り当て器はフィルターバンクからの出力サンプルと音響心理モデルからのSMRの両方を調べ、、ビットレートの要求とマスキング要求を同時に達成するために、ビット割り当て(レイヤーT、レイヤーU)、ノイズ割り当て(レイヤーV)を調整する。要求されたビットレートにおいて要求された音響心理が達成できないとき、これらの方法の低いビットレートでは、無駄なビットを費やす傾向にある。

4) The bitstream formatter ( ビットストリーム生成器 )

ビットストリーム生成器は、フィルタバンクの量子化出力、ビット割り当て(レイヤーT、レイヤーU)またはノイズ割り当て(レイヤーV)、その他の再度情報要求を入力として、効果的な形式にてそれらを符号化する。レイヤーVにおいてはこの時点でHuffman符号化が施される。

The Filterbank ( フィルターバンク )

レイヤーTとレイヤーUにおいて、32サブバンドフィルターバンクが用いられる。それぞれのサブバンドにおいて12又は36サンプルがグループ化さる。レイヤーVにおいて、フィルターバンクは、6*32または18*32の周波数バンドという信号依存の分解能を持ってる。6*32の周波数サンプルを用いる場合、それぞれの周波数の3セットが別々に量子化される。

Bit or Noise Allocation Method ( ビット・ノイズ割り当て器 )

この付録において2つの異なったビットレート制御方法が説明されている。レイヤーT、Uではそれぞれのサブバンドにおいてそれぞれのサンプル(もしくは複数のサンプル)にビット数を割り当てるという、ビット割り当てである。レイヤーVにおける方法はノイズ割り当てである。、それは、量子化が形式に基づいていて変化し、制御されるべき変数は実際に挿入されるノイズである。どちらの場合でも出力は量子化パラメータと量子化されたサンプル出力であり、それはビットストリーム生成器に与えられる。

Bitstream Formatting ( ビットストリーム生成器 )

ビットストリーム生成器はレイヤーによって異なる。レイヤーT、Uにおいて(レイヤーUで量子化サンプルがグループ化されている場合以外)、それぞれのサブバンドにおいてPCM符号化が用いられる。レイヤーVにおいて、Huffman符号化が量子化周波数サンプルを表すために用いられる。Huffman符号化は、更なる複雑さを代償にして、より効果的なビット列を生成する。

3-C.1.2 Input High-Pass Filter

符号化アルゴリズムは周波数応答を低下させる。アプリケーションにおいて符号化器の入力時にハイパスフィルターを適用することは必須ではないが、薦められている。カットオフ周波数は2〜10Hzであるべきである。

ハイパスフィルターの適用は低サブバンドにおいて不必要に高いビットレートを避け、全体的な品質を向上させる。

3-C.1.3 Analysis Subband Filter

サブバンド解析は信号をサンプリング幅周波数 fs の32分の1という等幅サブバンドに分割する。図3-C.1 "ANALYSIS SUBBAND FILTER FLOW CHART"に、サブバンドフィルター解析の流れ図を示す。サブバンドフィルター解析は以下のステップを持つ。

ANALYSIS SUBBAND FILTER FLOW CHART

図3-C.1 "ANALYSIS SUBBAND FILTER FLOW CHART"

-32の入力サンプルを入力する。

-512要素からなる入力サンプルベクトルX構成する。最も新しいものが位置0になるように、32の音声サンプルを位置0〜31に挿入する。最も古い32アンプルは押し出される。

-表3-C.1 "COEFFICIENTS Ci FOR THE ANALYSIS WINDOW"の係数CをXに乗じる。

-流れ図にある式を用いて64個の数値Yiを計算する。

-行列計算にて32個のサブバンドサンプルSiを計算する。行列計算用の係数は次の式で与えられる。

  Mik = cos [ ( 2i + 1 )( k - 16 ) p / 64 ]  for i = 0 to 31 , k = 0 to 63

3-C.1.4 Psychoacoustic Models

音響心理モデルの2例がAnnex-D "PSYCHOACOUSTIC MODELS" にて報告されている。

3-C.1.4 Encoding

1.Introduction

この節ではレイヤーTのエンコード方法について図3-C.2 "LAYER T,UENCODER FLOW CHART"に基づいて議論する。

LAYERT、U ENCODER FLOW CHART

図3-C.2"LAYERT、U ENCODER FLOW CHART"

2.Psychoacoustic Model

音響心理モデルの計算はAnnex-D clause 3-D.1で述べられているモデルTもしくはAnnex-D clause 3-D.2で述べられているモデルUを用いてなされる。FFTのシフト長は384サンプルである。どちらのモデルもそれぞれのサブバンドにおける信号-マスク比を出力する。

3.Analysis Subband Filtering

サブバンド解析については節3-C.1.3 "ANALYSIS SUBBAND FILTER"にて述べられている。

4.Scalefactor Calculation

それぞれのサブバンドにおけるスケールファクターの計算は12サンプルサブバンドごとになされる。これらの12サンプル中で最大絶対値が求められる。Annex-B、表3-B.1 "LAYERT、U SCALEFACTORS"においてその次に大きな数値がスケールファクターとして用いられる。

5.Coding of scalefactors

3-Annex-B 表3-B.1 "LAYERT、U SCALEFACTORS"中の指標は6ビットで表されている。サブバンドに非零のビットが割り当てられたときにのみ、スケールファクターは伝えられる。

6.Bit Allocation

ビットレートに調整する前に、サンプルをエンコードすることが可能なビット数とスケールファクターを求めなくてはならない。この数値は全有効ビット数”cb” からビット割り当てに必要となるビット数”bbal”と補助データに対して必要とされるビット数”banc”を引くことで求められる。

adb=cd−(bbal+banc)

この結果のビット数がサブバンドとスケールファクターを符号化するために使用可能である。フレームで使用可能なビット数を越えないように調整しながら、フレームのノイズ-マスク比を最小化する手順が原則として用いられる。1サンプルに割り当て可能なビット数は Mpgaudio の節2.4.2.5にある表で見つけることができる。それは、1ビット割り当てを除いた0から15ビットである。表3-B.2 "LAYERUPOSSIBLE QUANTIZATIONS PER SUBBAND"はすべてのサブバンドサンプルを量子化するために必要となるステップ数を示している。