小泉プロジェクトＪＰＥＧについて

JPEGについて

ＪＰＥＧについて

ＪＰＥＧファイルの概要

　ＪＰＥＧは、Joint Photographic Experts Group のことで、この規格を討議したＩＳＯ／ＩＥＣの合同会合の名称であるが、一般にはその規格で記録された画像ファイルのことを指しており、具体的にはＩＳＯ／ＥＣ１０９１８－１（ＪＩＳ　Ｘ４３０１）によるものを指している。ファイル拡張子は通常ｊｐｇやｊｐｅｇである。なお、以下の説明はＪＦＩＦ（Ｊｐｅｇ　Ｆｉｌｅ　Ｉｎｔｅｒｃｈａｎｇｅ　Ｆｏｒｍａｔ）によるものについてのものである。

ＪＰＥＧ（ＪＦＩＦ）では、画像はＹＣｂＣｒ形式（色を輝度、青差分、赤差分で表す方式。ＲＧＢとは計算式により相互に変換できる）で処理、記録される。通常、画像を８×８画素ずつに区画し、前記の各成分値について８×８の区画ごとに（データを間引く場合は複数の区画を纏めて６４個のデータとして）離散フーリエ変換の一種である２次元離散余弦変換（ＤＣＴ）を行い、得られた数値を簡略化処理（量子化）したものを、ハフマン符号（モールス信号のようなものと考えてよいが、０が続く場合の符号もある）によるビット列として画像データとする。

ＪＰＥＧファイルには、データの始まりや終わり、アプリケーションで使用する情報、量子化テーブル、ハフマンテーブル、圧縮データのヘッダー等も、それらを示すマーカとともに記録されている。ＥＸＩＦ情報もこれらのアプリケーション情報として記録されているものである。

ＪＰＥＧは、その処理の過程で画像情報の一部が永久に失われることとなる。このため、ファイルから画像を再生し、それをまたＪＰＥＧファイルとして保存すると、そのたびに画像の劣化が生じるが、画像に標題ではロスレス回転も可能で、この場合は記録されているデータを並び替えるだけなので画像の劣化が生じない。

ＪＰＥＧファイルの記録フォーマット
１．マーカ
　ファイルは２バイトのマーカにより区切られた構成単位からなっている。一部を除きマーカの後には、当該マーカで示される一連のデータが続いており（マーカとそれに続くデータからなる構成単位をマーカ部分列[マーカセグメント]という）、マーカの直後に当該マーカ部分列のサイズ（マーカ自身を除いたバイト数）が２バイトの数値で記録（数値は常にビッグ・エンディアンである）される。マーカには次のようなものがある。

意味	マーカ(HEX)	説明
画像開始(SOI)	FFD8	ファイルは必ずSOIから始まらなければならない。
アプリケーション用(APPn)	FFEn	アプリケーションで使用するデータである。nの例として、n=0:JFIF、n=1:Exif、n=2:MPF、n=13:Adobe等が一般的である。 MPFは、同一ファイルに記録された複数の画像の付属情報を格納したもの。
量子化テーブル(DQT)	FFDB	量子化テーブルは輝度成分用と色差成分用の２種類とすることが多い。
ハフマンテーブル(DHT)	FFC4	ハフマンテーブルは暗号解読表のようなもので、ＡＣ用とＤＣ用各２種類、計４種類使用することが多い。
フレームヘッダ(SOF)	FFCx	画像形式、大きさ等の基本データが記録されるもので、xが0～3は一般方式で0:ベースライン、2:プログレッシブである。xが5～7は差分方式、9～11は算術方式など。
リスタート間隔定義(DRI)	FFDD	スキャンデータにおいて、前データとの差分値を０にリセットする間隔(MCU数)が２バイトで記録される。
コメント(COM)	FFFE	任意のコメントを記述することが出来る。
スキャンヘッダ(SOS)	FFDA	画像のスキャンデータについて、スキャンの範囲等が記録され、この直後に実際のスキャンデータが続く。
リスタートマーカ(RST)	FFDn	スキャンデータ中に、DRIで記された数のMCUデータごとに置かれる。nは0から順に7迄増えるのを繰り返す。
画像終了(EOI)	FFD9	一連の画像データの終了を示す。

（注）SOI、RST、EOIはマーカ単独で使用され、マーカ部分列のサイズなどはない。

２．ＭＣＵについて
　データの間引きがなければ、画像の８×８画素ごとにＹ、Ｃｂ、Ｃｒそれぞれに８×８＝６４個のデータが出来ることになるが、データが間引かれる場合は間引かれた成分のデータが８×８の１ブロックに対して間引かれない成分のデータは複数ブロックになる。このような１かたまりのデータ（横ｍ個×縦ｎ個に１個取るように間引いた場合は８ｍ×８ｎ画素の画像に対応するデータになるわけである。この場合間引かれない成分のデータはｍ×ｎブロックとなる。）をＭＣＵ（最小符号化単位）という。
　画像データはＭＣＵごとにＹ、Ｃｂ、Ｃｒの順に記録される。例えば色差成分が１／２に間引かれている場合では、ＹＹＣｂＣｒＹＹＣｂＣｒＹ・・・のように成分が交互に（インターリーブして）ブロックが記録されるわけである。なお、グレースケールの場合ではＹ成分のみであるから、Ｙ成分のみが連続して（非インターリーブで）記録されることとなる。

３．ＤＣＴについて
　１ブロックの成分値はＤＣＴ変換して係数値を求めるが、ここで係数値も８×８の２次元配置にして考えることとする。元ブロックのデータと変換後の数値はどちらも６４個のデータからなっているがいわばこれは似て非なるものであり、成分値ブロックの例えば（５，２）の値（これは画像の左から６番目、上から３番目のピクセルの輝度又は色差の値である）とＤＣＴ変換後係数値（５，２）の値との間には直接的な対応関係はないことになる。元のブロックの大まかな傾向が変換後係数（０，０）に示され、（７，７）の方向に行くに従って元ブロックの詳細な様子が記述されることになる。前記の「直接的な対応関係がない」というのは、行列式による計算となるので直感的な意味での対応がないということであるが、行列の性質から係数値の配置や符号を換えることで元の数値（成分値、つまり画像のこと）を左右反転させたり９０度傾けたりすることが可能である。
　前記のように変換後係数（０，０）は元ブロックにとって重要な値でこれを「直流係数（ＤＣ）」といい、その他の係数を「交流係数（ＡＣ）」といっている。

４．量子化テーブル
　ＤＣＴ変換された係数値は量子化（特定の定数の整数倍に数値を簡略化すること。元の数値を定数で割ればよい。）により圧縮される。この際に６４個の係数値はそれぞれ違う定数で割った商を記録し、画像に戻すときにはその値に量子化に使用したのと同じ定数をかけて元の係数値（もちろん完全な元数値にはならずにその定数の倍数にしかならないわけである）に戻される。ＪＰＥＧでは量子化に使用した８×８の６４個の定数を量子化テーブルとして画像ファイル中に記録し、画像に戻すときにはその表の数値を使用して係数値を復元する。なお、この数値を大きくしたり小さくしたりすることによって画像の圧縮率を変化させることが出来る。
　量子化テーブルは次の形式で記録される。マーカ２バイト＋セグメント長２バイト［＋量子化数値の精度４ビット＋テーブル番号４ビット＋６４個の量子化数６４バイト］なお、［］の部分は繰り返しが可能であるが、マーカ部分列自体を複数にしてもよい。
　量子化数値の精度は上位４ビットが使用されて、０ならテーブルの数値は１バイトの数値であり、１なら２バイトの数値であるが普通は０である。テーブル番号は下位４ビットが使用され、０から３までの４種類の数値である。量子化の数値は８×８の表のマス目を順に記録するのであるが、一般のように１行目の左から初めて１行目が終わると２行目、次３行目・・・、とはならずジグザグの順となっている。すなわち次の図のようになっている。

５．ハフマンテーブル
　量子化された係数値はハフマン符号化されて記録される。これはいわば符号付き可変ビット数値で、数値のビット数を表すビット（ハフマン符号）とそれに続く数値そのものを表すビット、の連続である。数値部分は、正数は上位ビットの０の連続部分、負数は上位ビットの１の連続部分をそれぞれ除いたビットである。ただし、負数の場合は元の数値から－１した数値とする（そうでないと－１は全てのビットが１となるので具合が悪い）。これにより、数値部分の最上位ビットが１なら正数、０なら負数ということになる。
　ハフマン符号は、モールス信号のようにコードの切れ目を指示しなくても意味がわかるように組み立てられた、ビット列コードである。ハフマンテーブルは、そこで使用されているハフマンコードの種類とその意味を定義したもの（画像ごとに最適化することによりファイルの大きさをより小さくできる）で、その内容は次のとおりである。
　マーカ２バイト＋セグメント長２バイト

　テーブル種別４ビット＋テーブル番号４ビット：上位４ビットはコードの使用対象の種別で、０は直流係数用、１は交流係数用を表す。下位４ビットはテーブル番号で０から３までの４種類の数値である。

　使用するハフマンコードの個数：コードのビット長が１ビットから１６ビットのものがそれぞれ何個かをそれぞれ１バイトの数値で、計１６バイトの数値列。これを基にして計算によりコードを生成可能である。

　それぞれのコードの意味：コードのビット数が少なく、コードを数値と考えたとき小さな数の順にコードを並べた順に、その意味を１バイトの数値で表した数値列。上位４ビットは０の連続数（ランレングス、後記参照）を表し、下位４ビットはコードに続く数値部分のビット数が何ビットかを表す。この数値列の合計バイト数は、前記のコードの個数の１６個の数値の和になる。

　テーブル種別からコードの意味までは繰り返しが可能であるが、マーカ部分列自体を複数にしてもよい。

６．フレームヘッダ
　マーカ２バイトとセグメント長２バイトの後に、標本のビット精度１バイト（普通８である）、画像の高さ２バイト、幅２バイト（いずれもピクセル）、成分数１バイト（カラーは３、グレースケールは１である）と続き、この後に成分数だけ次の内容が繰り返される。
　成分の種類１バイト（Ｙ成分は１、Ｃｂは２、Ｃｒは３）、その成分は１つのＭＣＵの中に８×８のブロックがいくつあるかを上位４ビットに横の個数、下位４ビットに縦の個数を記録した１バイト（その成分が間引きされていれば他のどれかは１×１以外になる）、その成分が使用する量子化テーブル番号（３の量子化テーブルのところで記したテーブル番号のこと）１バイト、の合計３バイト
　最も普通に見られるＪＰＥＧ形式である「ベースライン」方式では、このマーカはＦＦＣ０であり、比較的よく見られる形式である「プログレッシブ」方式ではＦＦＣ２である。

７．スキャンヘッダ
　スキャンヘッダの直後に、実際の画像データであるスキャンが続く。スキャンヘッダとスキャンはベースライン方式では１組だけであるが、プログレッシブ方式では複数となる。
　スキャンヘッダは、マーカ２バイトとセグメント長２バイトの次に、そのスキャンに含まれる成分数１バイト、［成分の種類１バイト（Ｙ成分は１、Ｃｂは２、Ｃｒは３）、上位４ビットでその成分の直流係数に使用するハフマンテーブル番号と下位４ビットで同じく交流係数に使用するハフマンテーブル番号（いずれも５のところで記したテーブル番号のこと）を示す１バイト、の計２バイト］が続き、［］内は成分の数だけ繰り返される。
　その後に当該スキャンが、６４個あるＤＣＴ係数の何番目から何番目（ジグザグ順序）までのものかが、開始番号１バイト、終了番号１バイトの順で記録される。ベースラインの場合には全ての係数が一度にスキャンされるので開始は０、終了は３Ｆとなる。
　一番最後に、そのスキャンデータは元の値から右に何ビットシフトしたものか（２の何乗分の１になっているか）を下位４ビットで、上位４ビットはその成分の該当ＤＣＴ係数の直前のスキャンでの前記下位４ビットの値とする１バイトが来る。ベースラインではこのバイトは常に０である。

８．スキャンデータとリスタートマーカ
　その後にスキャンデータが続く。スキャンデータは連続したビット列で、データはＭＣＵごとに記録され、ＭＣＵの並びは画像の左上から順次右に移動して、右端に来ると次は１つ下の左端から・・・と進む。ＭＣＵ内ではＹ→Ｃｂ→Ｃｒの順に８×８のブロックごとに、４に記したジグザグ順序で記録される。
　データは５のハフマンテーブルのところで記したハフマン符号で記録される。直流係数は値そのものではなく、その成分の直前の直流係数との差（１１ビット以内）が記録される。なお、スキャンの最初は値そのものが記録されるが、そのほかスキャン中にＲＳＴ（リスタートマーカ）が現れたときにも、その次の直流係数は差がリセットされて値そのものが記録される。ＲＳＴがＭＣＵ何個ごとに現れるかはＤＲＩ（リスタート間隔定義）に記されている。ただし、ＤＲＩ、ＲＳＴが無い画像も多い。
　交流係数はその値が０以外のときだけその値（１０ビット以内）が記録される。このとき８×８のブロック内で、直前の０でない交流係数を記録してから又はブロックの初めから今回までに、係数０が何個あったかが同時に記録される。これはハフマンコードの意味には５で記したように「ランレングス」が含まれており、これが前記の０の個数に相当する。０が１５個まではそれぞれに対応するハフマンコードが使用されるが、１６個以上になる場合はランレングス１５で数値ビット数０を意味するコード（ＺＲＬという）を使用して０が１５個あることを記録し、次に残りの０の個数と係数値について記録する。また、ブロックの最後まで０が連続する場合は、ランレングス０で数値ビット数も０を意味するハフマンコード（ＥＯＢという）が記録される。
　スキャンデータの中にＦＦのバイトが生じた場合にはその直後に０のバイトが挿入される。これによりマーカに使用されるＦＦのバイトと区別される。なお、スキャンの最後がバイト長に合わないときはビット１を補って最後のバイトを完成させる。

９．プログレッシブ（段階符号処理）形式の場合
１）特徴
　フレームヘッダマーカがＦＦＣ２のＪＰＥＧ画像は、遅いモデムによる通信（最近ではほとんどみられなくなった）などにより画像を表示するとき、最初に目の粗い画像からだんだん詳細な画像に変わる方式のものであり、６に記したスキャンが複数に分かれていて、これにより少しずつ詳細になるものである。
　スキャンを分ける方式には、記録するＤＣＴ係数を分けて、最初に直流係数や交流係数の初めの方を記録し、後の方の交流係数は後の方のスキャンに記録する方法（周波数選択）と、係数の上位ビットを先に記録して後のスキャンになるに従ってだんだん下位のビットを記録する方法（逐次近似、周波数選択と組み合わせて使用）とがあり、これらを組み合わせたもの（完全段階処理）も多い。なお、逐次近似の２番目以降のスキャンでは１ビットずつのスキャンとなる。逐次近似の場合のスキャンヘッダの最終バイトは、当該成分の最初のスキャンでは、上位４ビットは０で下位４ビットは残りのスキャンの回数となり、最後のスキャンでは上位４ビットは１で下位４ビットは０となる。
２）直流係数
　プログレッシブでは直流係数は単独でスキャン（ヘッダの開始番号、終了番号とも０になる）される。逐次近似を併用する場合の２番目以降のスキャンにおいては、スキャンデータはハフマン符号ではなくビットそのものが順に記録される。
３）交流係数
　交流係数のスキャンは画像成分ごとに別のスキャン（ヘッダの成分数バイトが常に１であり、開始番号は１以上である）となる。ここで使用されるハフマン符号には、スキャンの対象となる係数（バンド、開始番号から終了番号までの係数のこと）の係数値が全て０であるバンドの連続数を表すコード（ＥＯＢｓ、このコードでは係数値のビット数が０であることと、このコードに続くバンドの連数を示すビット列のビット数を意味する）も使用され、このコードの後には連続するバンドの数を示すビット列（１ビットで２か３、２ビットで４から７を記録。以下同様）が続く。
　逐次近似での２番目以降のスキャンにおいては、以前のスキャンでは０であって今回のスキャンで０でない係数についてハフマンコードにより係数値が記録されるが、係数値は１ビットなので－１か１のみ（ビットでは０か１）である。０の個数は、以前のスキャンと今回のスキャンを併せたもので０のものの個数が記録されるのであり、前の係数記録又はスキャンの始めから今回の係数記録の間に、以前のスキャンで０でない係数がある場合は、今回の係数記録ビットの後に該当の係数の今回のスキャンによるビットが１ビットずつ順に記録される。これはＥＯＢが記録される場合も同じで、０の続くバンド数を示すビット列の後に、やはりそこまでの０でない計数のビット列が続いて記録される。この様子を例示すると次のようになる。（上位２ビット以上と最下位１ビットの２スキャンの例。S01はスキャンヘッダの最終バイトの上位４ビットが０で下位４ビットが１であることを示す。また、H12は０の続き（ランレングス）が１で係数値ビット数が２を意味するハフマンコードを示す。なお、数値は、その数を表す最低限のビット列を示す。）
　元の係数値の例：　　　29　0　10　23　4　0　1　8　13　0　0　0
　初めのスキャン：S01　H04-14-H13-5-H04-11-H02-2-H23-4-H03-6-H00(EOB)
　最後のスキャン：S10　H21-1-1-0-1-0-H00(EOB)-0-1

○公式のＪＰＥＧ規格書
　　　ＪＩＳ　Ｘ４３０１の閲覧（日本産業標準調査会にリンク）

（注）記載内容には十分注意をしたつもりですが、勘違いやミスタイプ等により誤りがあった場合はご容赦下さい。