動画の仕組み

動画とマルチメディアデータ

今回は静止画に続いて、動画のしくみについて説明します。現在コンピュータでは、DVDや動画配信サイトなど、さまざまなタイプでの動画を再生することができます。これらは、再生する手段こそ違うものの、基本な仕組みは一緒です。

マルチメディアデータの仕組み

動画が再生される仕組み

図3-1.フレームレート

最初にコンピュータが動画を再生する仕組みについて説明します。コンピュータが動画を再生する仕組みは、基本的にパラパラ漫画の仕組みと一緒で、一定時間内に高速で画像を切り替えていくことにより、あたかも画像を動いているように見せています。

動画の品質を表す単位として、フレームレートという言葉が用いられます。これは、動画において、単位時間あたりに処理させるフレーム数(静止画像数、コマ数)を表します。単位としてよく用いられるのが、fps(frame per second)という単位で、1秒間に行われる書き換えの回数を表します。(図3-1.)例えば、フレームレートが30fpsの場合、1秒間に30回描画が行われます。

この値が少ないと動きがぎこちなく不自然な動画となり、多いとほどなめらかで自然な動画となります。映画の場合は24fps、テレビやビデオの場合は30fpsが一般的です。

エンコード

では、コンピュータがマルチメディアデータを再生する仕組みにを見てみましょう。動画を含むコンピュータのマルチメディアデータは、一般的にデジタル化され、高度に圧縮されて保存されています。それを再生時に解凍し、再生する仕組みになっています。

コンピュータで動画するさいには、ビデオカメラで動画を撮影するなどの手段を取ります。その際、データを符号化(デジタル化)を行ってデータをデジタルデータとして記憶します。この工程のことを、エンコードと言い、エンコードするハード・ソフトのことはエンコーダーと呼ばれます。ビデオカメラなどの動画を撮影できる機器は、通常内部にこのエンコーダーを内蔵しています。一般に、データをエンコードする過程では、データは圧縮されます。

動画の圧縮の仕組み

では、動画データはどのように圧縮されているのでしょうか?すでに説明した通り、動画の仕組みはパラパラマンガと同じ仕組みで、複数の少しずつ違う絵を切り替えています。このような仕組みの動画データを無圧縮データと呼ぶのですが、この方法は画像のデータが獏大になるという大きな欠点があります。

そこで、画像を記憶する際に、動きのない部分は固定して、動きのある部分だけ描画するといった仕組みが作られました。こうすれば、次の画像(フレーム)は、前の画像との違い(差分)を記録しておけばよいので、その分だけデータは軽くなります。これが、画像データの圧縮(あっしゅく)の仕組みです。

なお、映像の中でキーとなる重要なコマ(フレーム)をキーフレームと言います。キーフレームは通常、シーン変更が生じた場合に挿入されます。このキーフレーム上に、コマごとに違う画像の差文を重ねることにより、映像を作ることができます(図3-2.)これにより、必要な画像の枚数を少なくでき、その分だけデータが圧縮できます。画像のデータフォーマットや圧縮方法がありますが、基本的な考え方はこの通りです。

図3-2.キーフレームによる動画圧縮

デコード

続いて、動画を再生する段階で、符号化されたデーターを元の情報に戻します。この作業をデコードと言います。デコードを行う装置のことを、デコーダと言い、DVDプレイヤーや動画再生ソフトには、このデコーダが組み込まれています。一般にデコーダは、エンコーダによって圧縮されたデータを元のサイズに戻して画面に出力します。

さらに、符号化方式を使ってデータのエンコード(符号化)とデコード(復号)を双方向にできる装置やソフトウェアなどのことをコーデック(Codec)と言います。

ストリーミング

動画やマルチメディアデータは近年、ネット上で再生することが可能になっています。この際、マルチメディアファイルを転送・再生するダウンロード方式を、ストリーミング(Streaming)と言います。

通常、ネットからデータを取得する場合、ダウンロード完了後に開くのが一般的です。しかし、動画のようなサイズの大きいファイルを再生する際にはダウンロードに非常に時間がかかってしまうので、ライブ配信では大きな支障が出ます。

そこで、ファイルをダウンロードしながら、同時に再生をするようにしたのが、このストリーミングです。ストリーミングは、ネット上にストリーミングサーバーと呼ばれるサーバが存在し、そこに対し、データをアップロードし、その画像を様々な端末で再生します。(図3-3.)これにより、ユーザーの待ち時間が大幅に短縮され、ライブチャットなどの技術が簡単に実現できるようになりました。

図3-3.ストリーミング

動画データのフォーマット

一般に動画データは、ファイルとして保存されます。主な動画フォーマットには、以下のものがあります。(表3-1.)

表3-1:主な動画フォーマット
名称 呼称 拡張子 特徴
MOVエムオーブイ.movAppleのマルチメディア技術であるQuickTime(クイックタイム)によって作成された符号化形式を格納するコンテナフォーマットです。MacやiPad,iPhoneなどのApple社製の製品のみならず、Windowsなどでも利用可能です。
AVIエーブイアイ.aviAudio Video Interleaveの略で、AppleのQuickTime(MOV)に対抗するために開発されたWindows標準の動画コンテナフォーマットです。
ASFエーエスエフ.asfAdvanced Systems Formatの略で、Microsoft社が開発したAVIの後継にあたるコンテナフォーマットです。AVIとは異なり、ストリーミングに対応するなどの改良が施されています。
MPEGエムペグ.mpgMoving Picture Experts Groupの略で、ISOの標準化組織の名称をそのまま使ったものです。 ビデオCDなどに使われるMPEG-1、DVDや放送メディアに使用されるMPEG-2、ネットワーク配信や携帯端末向けのMPEG-4などがあります。
WebMウェブエム.webm米GoogleがHTML5の標準を目指して開発しているオープンでロイヤリティフリーな動画コンテナフォーマットです。誰もが利用できる無料で高品質なウェブ向けビデオフォーマットを目的としていています。

音声データ

音声データの仕組み

図3-2.キーフレームによる動画圧縮

次に、動画と密接な関係がある音声データについて説明します。音は空気の振動で発生します。この振動は、波で表すことができ、これを音波と呼びます。この音波が耳の鼓膜を振動させ、それを耳の神経が音の信号として脳に伝えることにより、音が聞こえます。

音声をデジタルデータとして格納するには、一般に音波を電圧で表したものを、デジタルデータに変換します。この過程を、量子化(りょうしか)と言います。(図3-4.)一般に、サウンドデータとは、この量子化したデータのことを指します。音声データは圧縮されずに格納されるか、ファイルサイズを削減するために圧縮して格納されます。

サンプリング周波数とビットレート

音声データを量子化する際に、一定の間隔で音の波形を測定(記録)する「標本化」という作業が必要になります。その標本化の周期のことを、サンプリング周波数(サンプリングレート) と言います。これは、1秒間にサンプリングする回数を表し、単位は「Hz」になります。通常の音楽CDのサンプリング周波数は、44.1KHzです。これは、1秒間に約44回のサンプリングがなされているということを意味します。

もう一つ音質に大きく影響を与えるのが、ビットレートです。ビットレートは、1秒あたりに処理するデータ量を表す単位で、単位は「bps」になります。ビットレートが大きいほど多くの情報を格納できるということで、高音質になります。

音声データのフォーマット

一般に音声データは、ファイルとして保存されます。主な音声データのフォーマットには、以下のものがあります。(表3-2.)

表3-2:主な音声データフォーマット
名称 呼称 拡張子 特徴
WAVウェーブ、ウェブ.wavWindowsで使われる標準音声形式です。圧縮されていないので、CDとほぼ同じ音質です。記録精度は何通りかありますが,良く用いられるのが44.1MHz,16ビットです。
AIFFエーアイエフエフ
アイフ
.aif
.aiff
Apple社が開発した音声ファイルのフォーマットで、Macintoshシリーズの標準音声形式です。圧縮されていないので、CDとほぼ同じ音質です。記録精度は何通りかありますが,良く用いられるのが44.1MHz,16ビットです。
MP3エーエスエフ.asf映像データ圧縮方式のMPEG-1で利用される音声圧縮方式の一つです。音楽CD並の音質を保ったままデータ量を約1/11に圧縮することができます。
WMAダブルエムエー.wmaMicrosoft社が開発した、Microsoft社製品の標準の音声圧縮方式です。ウェブやPCなどで広く普及しています。
AACエーエーシー.aacほかMP3の後継的なフォーマットで、様々な圧縮率において高音質を実現できるようにできています。MPEG-2 の音声圧縮技術を利用しています。