Pages

Saturday, July 30, 2022

今更ながらコンピュータにおけるエンディアンの話 (1/2) - ASCII.jp

mungkinbelum.blogspot.com

Windows Info 第338回

2022年07月31日 10時00分更新

文● 塩田紳二 編集● ASCII

 アプリケーションを使うだけなら問題はないが、コンピューターに関するドキュメントを読む場合などに「エンディアン」の理解が必要になることがある。というわけで、今回は今更ながらエンディアンについて解説する。

Windowsでは、x86/x64でもARMでも基本的にリトルエンディアンで数値を表現する。Windowsが使うUnicode(UTF-16エンコーディング)は、16bitで文字を扱うため、エンディアンに影響される

そもそもエンディアンとはなんぞや

 と書いていきなりだが、エンディアンはいわゆる”俗称”であり、正式には、バイト順(Byte Order、バイトオーダー)である。簡単に言えば、メモリや通信において、複数のバイトで表現される数値をどういう順番で扱うか? というのがバイト順だ。

 基本的にすべてのCPUでは、メモリに数値を格納する場合のバイト順が定義されている。メモリアドレスの下から順に位の高いバイトを並べることを「ビッグエンディアン」、位の低いほうから並べるのを「リトルエンディアン」という。ただし、CPUによっては、この2つを切り替えることが可能なものがあり、これを「バイエンディアン」などというが、基本的には動作中はどちらかで動く。

 どちらでも基本的には大きな差はなく、回路の都合や設計者の好みで決まる。現状、Windowsが動作している大半のPCで採用されているx86/x64は、リトルエンディアンで動作する。一方、ARMプロセッサのバイト順は、アーキテクチャの定義では実装定義であるとされており、リトルエンディアン/ビッグエンディアンのどちらか、さらに両方(バイエンディアン)の3パターンが有り得る。つまり、どれに対応するかは設計ごとに決まる。

 ただし、ARM自身が設計したCortex-Aプロセッサは、バイエンディアンという仕様を持つ。また、AArch64(ARMの64bitアーキテクチャ定義)では、プログラム自体は、リトルエンディアンで命令フェッチをすると決められている。Windows ARM64では、Cortex-Aに準拠したクアルコム社のプロセッサを使うが、Windowsではリトルエンディアンとして動作させている。

 データがメモリにある間は、ビッグでもリトルでもどちらでも構わないのだが、ファイルに書き出される場合、それを読む側が必ずしも同じエンディアンであるとは限らない可能性がある。そこで、画像ファイルなどのバイナリの数値を扱う形式では、バイトオーダーを定義するか、あるいは後述するバイトオーダーマーク(BOM)のような仕組みを使って、ファイル書き込み時のエンディアンを判定する方法を取り入れているのが普通である。あるいは数値をテキストで表現することで、エンディアンとは無関係にもできる。たとえばCSV形式では、数値を人間が読むことができるテキストとして表現する。

 エンディアンは、通信のときにも関係する。インターネットの基本となるTCP/IPでは、複数バイトで表現される数値は「ビッグエンディアン」で通信をするとされている。これを「ネットワークバイトオーダー」と呼ぶ。通信であるため、お互い異なるCPUである場合が当然あり、エンディアンを明確に決めておかないと数値の解釈を間違う可能性があるからだ。

 ただし、これはIPアドレスなどのプロトコルなどで定義されている数値の場合で、たとえば、「リトルエンディアン」で記述されたプログラムをネットワークでファイル転送するような場合には、中身はどうでもいいので、わざわざエンディアンを変換して送信するようなことはしない。あくまでもプロトコルとして数値をやりとりする場合のバイト順が「ビックエンディアン」であるということだ。

 また、TCP/IPの場合、バイトは最下位ビット(LSB、Least Significant Bit)から先に送信することになっている。コンピューターのメモリの場合、読み出しと書き込みでビット位置が一致していれば問題ないのでメモリ中のビット並びはどうでもかまわない。しかし、通信ではビット単位でデータを送信することなるため、ビット単位で送信順を定めておく必要がある。

 通信パケットなどを図にする場合、バイト順はビッグエンディアンだが、ビットの並びはLSBからMSB(最上位ビット、Most Significant Bit)を左から右に並べることがある(つまり送信順)。先頭ビットであることを明確にしたい場合にこうした表現になることが多い。MACアドレスであれば、ネットワークオーダーで最初に送られるビットと次のビットにアドレス形式を示す情報が入る。しかし、これを通常のMSBからLSBの順で書くと7ビット目と8ビット目に情報が入っていることになり、少し奇妙な図に見えてしまうからだ。ビット並びを図にする場合、左側にMSBが来る通常の数値の並びに合わせた書き方もあるので、通信関連でビット並びが図になっているときには、LSBとMSBの位置を確認したほうがよい。

 LSB、MSBからエンディアンを考えると、リトルエンディアンとは、数値を構成するビットの最下位ビットを含むバイトを先頭にして並べるバイト順であり、ビッグエンディアンとは、MSBを含むバイトを先頭にして並べる方法である。

Adblock test (Why?)


からの記事と詳細 ( 今更ながらコンピュータにおけるエンディアンの話 (1/2) - ASCII.jp )
https://ift.tt/7qxgO5D

No comments:

Post a Comment