東芝の動画配信ソフトで、最新の動画圧縮・伸張規格であるMPEG-4を使い、移動体通信やインターネット/イントラネットなどで本格的な映像配信を提供することができる。Mobile Motion概要
Producer,Server,Playerの三つの要素から構成されている。映像の配信方法について
- Producerは、MPEG-4ファイルの生成と編集を行う。
- Serverは、エンコーダでエンコードされたMPEG-4コンテンツを格納し、クライアントからの要求にしたがって、コンテンツを配信する。Server形態には、MobileMotion OnDemand Server,MobileMotion Broadcast Server,MobileMotion Live Serverの三種類がある。
- Playerは、クライアントでMPEG-4コンテンツを再生する為のアプリケーションである。
映像の配信方法には、次のようなものがある。その他
- OnDemand配信(pull型)
OnDemand Server から、クライアント個々の要求に応じて、動画を配信する。
- ブラウザから再生したいコンテンツを選択することにより、wwwサーバにmpiファイル(コンテンツの格納されたサーバのIP adressや、ファイル名の記述された中間ファイル)の取得要求をかける。次にwwwサーバでは、クライアントからの要求に対し、mpiファイルをクライアントに送信する。そして、クライアントでは、mpiファイルを解析し、OnDemand Serverへコンテンツの配信要求をかける。するとOnDemand Serverは、クライアントからの要求に対し、コンテンツの配信を開始する。
- Live配信(push型)
Broadcast Serverを使用し、ライブ映像を配信する。
- OnDemand配信との違いは、動画のキャプチャとエンコードを同時に行い、リアルタイムで配信していることである。また、OnDemandは、Videoのように各クライアントが要求して新たに再生するが、Live配信ではTelevisionのように、要求した時に再生されている映像を見ることができる。
- mpiファイルについて
mpiファイルの書式は次のようになっている。xxxxx:OnDemandサーバがインストールされているマシンのIP adressまたはホスト名
mmsph://xxxxx:yyyyy/ondemand?filename
yyyyy:OnDemandサーバの環境ファイル(PullServer.cfg)の[port]パラメータの値
filename:拡張子 .mv4 のコンテンツファイル名
- ライブ配信について
ライブ配信では、Broadcastサーバマネージャにより、Broadcast Serverにライブ番組の登録をする必要がある。その際にコンテンツはリアルタイムエンコーダを指定する。また、番組のIDや名前、エンコーダマシンのホスト名、送出サーバの受信ポート番号なども要求される。
| フェイズ | 符号化ビットレート(目安) | 主なアプリケーション |
|---|---|---|
| MPEG-1 | 1Mbps程度 | ビデオCD |
| MPEG-2 |
4〜10Mbps程度(SDTV) 数十Mbps(HDTV) |
DVD 地上波・BS・CS・ケーブル放送 |
| MPEG-4 |
〜384Kbps(QCIF) 128Kbps〜2Mbps(CIF) 15Mbps程度(SDTV) 38.4Mbps(HDTV) |
TV電話、移動体通信、 インターネット、 放送用途 |
| MPEG−7 | − | EPG、ホームサーバー応用 |
1.ITU−T International Telecommunication Union-Telecommunication Standardization Sector、国際電気通信連合電気通信標準化部門。国連の専門機関であるITUの常設機関で1993年のITUの組織変更でCCITT(国際電信電話諮問委員会)から名称を変更した。ITU−Tでは従来のCCITTの研究対象に加えCCIR(国際無線通信諮問委員会)の無線通信システムの相互接続に関する標準化作業も行うこととなった。ITU−Tには幾つかのSG(Study Group)があるが、この中でSG9はテレビジョンなどの素材伝送や2次分配のための符号化を担当し、SG15はオーディオ・ビジュアル通信のための音声符号化、映像符号化及びそれらのトータルシステムを担当している。
2.ITU−R
International Telecommunication Union-Radiocommunication Sector、国際電気通信連合無線通信部門。ITUの常設機関で1993年のITUの組織変更でCCIRから名称を変更した。 旧CCIRからITU−Tに移管した分野を除いた無線通信の標準化活動などを行っている。ITU−Rにも幾つかのSGがあるが、このうちSG10ではサウンドの放送、SG11ではテレビジョンの放送に関する研究が行われている。
3.ISO/IEC JTC1 SC29
International Organization for Standardization / International Electro-technical Commission Joint Technical Committee 1 Sub Committee 29、国際標準化機構/国際電気標準会議合同技術委員会1専門部会29。ISOとIECで扱うもののうち両機関で重複する分野が生じてきたため1989年共同の技術委員会JTC1が設立された。JTC1の傘下には幾つかのSCがあるが、このうちSC29がマルチメディア符号化標準を担当しており次のWG(Working Group)から構成されている。
(1)WG1
従来のWG9:JBIG(Joint Bi-level Image coding experts Group)とWG10:JPEG(Joint Photographic coding Experts Group)が合併。2値画、カラー静止画の符号化などを担当。
(2)WG11:MPEG(Moving Picture Experts Group)
動画像の符号化などを担当。
(3)WG12:MHEG(Multimedia and Hypermedia information coding Experts Group)
マルチメディア、ハイパーメディア情報オブジェクトの符号化を担当。
MPEG1システム
映像と音声のデータなどからなるアプリケーションをCD-ROMなどのディジタルストレージメディアに記録・再生する場合、映像や音声の符号化されたストリーム(ビット列)と付加データなどのストリームを、同期をとりながら統合化して1本のストリームにする必要がある。MPEG-1システムは任意の数の符号化された映像や音声、付加データなど個別のストリームを多重化し、それぞれの同期をとりながら再生するための方式を規定している。MPEG-1では1本のストリームの中に唯1つのプログラムを構成する。主なアプリケーションとしては、1.5Mbpsまでの転送レートをもつディジタルストレージメディアやコンピュータ・ネットワークなどを想定しており、実用例としてはビデオCDが挙げられる。
多重方式と同期方式
MPEG-1システムではパケットによる多重方式が用いられており、映像・音声・付加データなどの個別のストリーム(elementary_stream)はパケットと呼ばれる単位に分割される。パケットのサイズはアプリケーションにより決めることができる。そして、この映像や音声などのパケットを順次切り換えてつなぎあわせることにより時分割の多重が実現される。パケットにはパケットヘッダが付加され、そこには個別のストリームを識別するコードやパケットのサイズ、同期再生のための時間情報(PTS:Presentation Time Stamp, DTS:Decoding Time Stamp)、その他の制御情報などが記述される。また、パケットを任意の数だけ集めたものをパックと呼ぶ。MPEG-1システムストリームはこのパックが複数個集まって構成される。各パックにはパックヘッダが付加されており、パックの開始コードに続いてSCR(System Clock Reference)と呼ばれる基準時間情報と多重化のビットレート(mux_rate)が記述されている。パックヘッダの後にはシステムヘッダを付加することができ、ここにはストリーム全体のシステムパラメータ(個別ストリームのビットレートやバッファサイズなど)が記述される。このようにシステムストリームがパックを単位に構成されることで、ストリームの途中からの再生が可能となる。
MPEG-1システムの概要
映像と音声を同期再生するためにMPEG-1システムではSTC(System Time Clock)と呼ばれる基準時間が定義されている。MPEG-1システムの復号器は90kHzのSTCを持っていて、符号化した時の基準時間が復号器のSTCで再現されるようにパックヘッダ中のSCRの値が参照される。映像や音声にはそれぞれアクセスユニット(映像は1フレーム(ピクチャ)、音声は1オーディオフレーム)と呼ばれる復号・再生の単位があり、その単位ごとに基準時間のどこで復号し、いつ再生すればよいかを示すタイムスタンプがパケットヘッダのPTS,DTSに記述される。PTSはアクセスユニットを再生する時刻でSTCとPTSが一致したときにアクセスユニットが復号器から出力される。また、MPEG-1ビデオで符号化されたストリームは復号する順序と再生する順序が異なる場合があるため(MPEG-1ビデオ参照)、この場合にはPTSに加えて復号する時刻を示すDTSが付加される。これらのタイムスタンプにより映像と音声を同期再生することができる。
MPEG-2システムはMPEG-1システムと同様に任意の数の符号化された映像や音声、付加データなど個別のストリームを多重化し、それぞれの同期をとりながら再生するための方式を規定している。MPEG-2システムではMPEG-1を含めてさらに広範囲なアプリケーションに対応するために2種類の方式が規定されている。1つはプログラムストリーム(PS : Program Stream)で、MPEG-1と同様に1本のストリームの中に唯1つのプログラムを構成する。プログラムストリームは誤りの発生しない環境でのデータの伝送・蓄積に適用されることを想定しており、冗長度を小さくすることができることからDVDなどの強力な誤り訂正符号を用いたディジタルストレージメディアで使用されている。もう1つはトランスポートストリーム(TS : Transport Stream)で、1本のストリームの中に複数のプログラムを構成することができるので放送などにも対応することができる。トランスポートストリームは放送や通信ネットワークなどデータの伝送誤りが発生する環境に適用されることを想定しており、冗長度はPSよりも大きくなっている。トランスポートストリームは伝送レートが固定の通信路で使用される(プログラムストリームは、可変のレートでも良い)。実用例としてはスカイパーフェクTVやDirecTV、BSディジタル放送、米国のDTVなどが挙げられる。
プログラムストリーム
プログラムストリームはMPEG-1のストリームと類似の構成となっていて、パックの集まりで構成される。パックを構成するパケットは、MPEG-2ではPES(Packetized Elementarty Stream)パケットと呼ばれ、映像や音声などの個別のストリームを分割したものにPESパケットヘッダが付加される。PESパケットヘッダには個別のストリームを識別するコード(stream_id)やパケットのサイズ、PTSやDTSといった同期再生のための時間情報、その他の制御情報など(スクランブルの有無や著作権の有無、CRCの付加などMPEG-1から大幅に拡張されている)が記述される。このPESパケットの構造はトランスポートストリームでも使用されており、プログラムストリームとトランスポートストリームの相互のタイプ変換が可能となっている。
パックの先頭にはパックヘッダが付加され、MPEG-1と同様にSCRやmux_rateが記述されるが、MPEG-2ではパックの長さを調整できるように最大7バイトまでのスタッフィングバイトを付加することができる。また映像と音声を同期再生するためのSTCはMPEG-1では90kHzであったが、MPEG-2ではSTCが27MHzとなっているためSCRは27MHzの精度で表現され、符号化した時の基準時間を復号器のSTCで再現するために参照される。
映像や音声にはそれぞれアクセスユニットと呼ばれる復号・再生の単位があり、その単位ごとに基準時間のどこで復号し、いつ再生すればよいかを示すタイムスタンプがPESパケットヘッダのPTS,DTSに記述される。PTSはアクセスユニットを再生する時刻でSTCとPTSが一致したときにアクセスユニットが復号器から出力される。また、MPEG-2ビデオで符号化されたストリームは復号する順序と再生する順序が異なる場合があるため、この場合にはPTSに加えて復号する時刻を示すDTSが付加される。これらのタイムスタンプにより映像と音声を同期再生することができる。
PSのシステムターゲットデコーダ(P-STD)を下図に示す。入力されたPSはstream_idによりデマルチプレクサ(DEMUX)で映像と音声のデータに分離されそれぞれのバッファに送られる。そしてPTS、DTSの時刻で映像、音声それぞれのアクセスユニット毎に復号が行われ出力される。
プログラムストリームが適用されたDVD-Videoの場合を例に説明を行う。デマルチプレクサ(DEMUX)に入力されるPSのレートは10.08Mbpsとなっている。Video_Bufferの量はMPEG-2-MP@MLで定められている229,376byteと付加バッファ8,192byteの和で、237,568byteとなる。またAudio_Bufferの量は4096byteである。DVDのストリームはこれらのVideo_Buffer、Audio_Bufferがオーバーフローもアンダーフローもしないようにマルチプレクスされる。
バッファには常に一定のレート(10.08Mbps)でデータが入力される。図で平坦になっている部分はAudio_Packがあるなどして、バッファにデータが入力されない部分である。バッファの出力はDTSの時刻にピクチャ単位で一瞬にして抜かれると考える。尚、この図ではパックヘッダ、PESパケットヘッダのイメージは示されていない。
トランスポートストリーム
トランスポートストリーム はトランスポートパケット(TS packet) が複数個集まって構成される。TS packetは188byteの固定長パケットであり、その長さはATMセル長との整合性およびリードソロモン符号などの誤り訂正符号化を行なう場合の適用性を考慮して決定された。TS packetは4byte固定長のパケットヘッダと可変長のアダプテーションフィールド(adaptation field)およびペイロード(payload)で構成される。パケットヘッダにはPID(パケット識別子)や各種のフラグが定義されている。このPIDによりTS packetの種類が識別される。adaptation_fieldとpayloadはどちらかだけが存在する場合と両方が存在する場合があり、その有無はパケットヘッダ内のフラグ(adaptation_field_control)により示される。
adaptation_fieldにはPCR(Program_Clock_Reference)などの情報の伝送およびTS packetを188byte固定長にするためのTS packet内でのスタッフィング機能がある。PCRは27MHzのタイムスタンプで、符号化した時の基準時間を復号器のSTCで再現するためにPCRの値が参照される。MPEG-2のTSでは復号器のSTCはPCRによるPLL機能を持つが、このPLL同期の動作を安定させるためにPCRの送信間隔は0.1ms以下となっている。
映像や音声などの個別ストリームが収められたPESパケットは同じPID番号を持つ複数のTS packetのpayloadに分割して伝送される。またPESパケットの先頭はTS packetの先頭から開始するように入れられる。
トランスポートストリームは複数のプログラムを伝送することができるため、ストリームに含まれているプログラムとそのプログラムを構成している映像や音声ストリームなどのプログラムの要素との関係を表すテーブル情報が規定されている。このテーブル情報はPSI(Program Specific Information)と呼ばれ、PAT
(Program Association Table)、PMT(Program Map Table)など4種類のテーブルが規定されている。PAT、PMTなどのPSIはセクションと呼ばれる単位でTS packetの中のpayloadに配置されて伝送される。PATにはプログラム番号に対応したPMTのPIDなどが記述されており、PMTには対応するプログラムに含まれる映像、音声、付加データおよびPCRのPIDが記述されるので、PATとPMTを参照することによりストリームの中から目的のプログラムを構成するTS packetだけを取り出すことができる。
・高能率符号化
・強力なエラー耐性能力
・マルチメディア対応
ここではMPEG-4の特徴について簡単に説明する。
第1のMPEG-4の基本的な目標は、先程も述べたとおり高能率符号化の追求である。これはTV電話的な使用、特に当時普及の兆しを見せていた移動体通信への応用である。ビデオ符号化では符号化効率改善のために、8×8ブロック動き補償、直接予測、AC/DC予測などの幾つかのツールが加えられた。またスプライトと呼ばれる全く新しい背景合成の手法も考えられた。オーディオ符号化では、従来手法であるMPEG-2 AACに更なる符号化効率の改善がなされた。また用途を限定(例えば音声)し、更なる高能率符号化を達成したCELPのようなものもある。またモデル化による特徴パラメータを符号化するパラメトリック符号化(HVXC、HXLINなど)により、超低ビットレート符号化を達成したものもある。
第2のMPEG-4の特徴はエラー耐性能力の強化である。主要アプリケーションである移動体通信では、データ転送は無線通信によることになり、外部ノイズによるデータ欠損対策が非常に重要となる。MPEG-4で採用された手法は、CRCやリードソロモン符号のようなエラー訂正符号のアプローチではなく、エラー隠蔽の技術であった。ビットストリームにエラーが混入しても、見た目には(あるいは聞いた感じでは)その影響をわからなくする技術である。このために生成ビット長を基準としたパケット分割、データ・パーティショニング、スタッフィング・バイトの改善などが行われた。
第3のMPEG-4の特徴はマルチメディア対応である。これは標準化の途中で爆発的な普及をしたインターネットへの対応であり、時代のマルチメディア化への要求の対応でもある。従来のMPEG-1/2のように自然ビデオ/オーディオなどの単一のメディア(モノメディア)だけを扱うのではなく、MPEG-4ではそれらに加えCG、顔・胴体アニメーション符号化、MIDI、Text-To-Speech(TTS)などの合成ビデオ/オーディオ/音声などの様々なメディア(マルチメディア)を、ひとつの標準の中で同等に扱うことが可能となっている。
またMPEG-4ではシーン全体をシーン記述によって表す。シーンを構成するビデオやオーディオなどの各オブジェクト(AVオブジェクト)に注目し、これらのAVオブジェクトの時間的・空間的関係を木構造で表現する。各AVオブジェクトは独立して符号化され、それぞれに最適な手法を選択できる。またシーン記述を動的に変更することにより、各AVオブジェクトごとの操作/加工もできる。またAVオブジェクトの機能を実現するために、ビデオ符号化では任意形状の画像符号化への対応もされている。
MPEG-4のバージョン1は1999年5月に国際標準化の予定である。また後方互換性を保ちながら、新規ツールを加えるバージョン2への修正も1年後れで予定されている。これら新規ツールはバージョン1でサポートできなかった機能、あるいは符号化効率の大幅な改善が期待されるツールに限定される。
具体的には以下のことを標準化する。
・記述子(Descriptor):属性とその表現値
例:[属性] 色 → [表現値] 赤、青、黄、...
[属性] 形 → [表現値] 四角形、三角形、丸、立方体、球、...
・ 記述スキーマ(Description Scheme):色や形のような単純な属性ではなく、記述子より高位の属性をあらわす。形式的には記述子を組み合わせた構造体が記述スキーマであると考えられる。。
例:"車"という属性は、"色"と"形"の属性を持つ。
・ 記述定義言語(Description Definition Language):
記述スキーマ、記述子を定義するための言語。99年の評価テストの結果をみる限りでは、XMLの拡張の方向で標準化が行われそうである。
今後人々は放送、CATV、インターネット、DVDなどの蓄積メディアetcと、様々な経路を通して簡単にマルチメディア・コンテントを入手できる時代になるだろう。これら膨大なコンテンツは例えばホームサーバのようなシステムに蓄積される。そして気が向いたときに好きなコンテンツを楽しむことができる。コンテンツの数が少ない間は、個人の管理で十分に整理され、目的のコンテンツの探索も容易である。しかしその数が膨大になるにつれ、個人による管理が追いつかなくなる。この時誰しもがホームサーバによりコンテンツが自動的に管理されることを望むであろう。コンテンツの特徴量を抽出し、MPEG-7により属性を記述し、必要時には検索エンジンにより検索することが、ホームサーバには期待される。これが実現されれば、人々はコンテンツの整理という煩わしさから開放され、コンテンツを楽しむことだけに専念できる。このように考えてくると、今後のMPEG-7の役割が大変重要であろうことは想像に難くない。