
文字コードの種類
国内で使われる文字コードについて軽くふれてみよう。
これらを理解していないと、どっかてつまずくかもしれないぞ。
|
 |
日本語を扱えるの文字コードは一般的には4種類、JIS(iso-2022-jp), Shift-JIS, EUC-JP, Unicode(UTF-8)。
この4種の違いについて簡単に触れることにする。
・JIS ( iso-2022-jp )
一番初めに登場した漢字コード。現在はメールや海外の日本語サイトにて見受けられる。
扱う上で注意する点は、このコードでは半角カタカナが扱えないソフトが多いことだ。
半角カナを扱うローカル規格が存在するので、扱えるソフトもあるという事だ。
最新のIEやNNでは半角カナを正常に表示できるようになっている。
・Shift-JIS
現在もっとも使われている標準的コード。半角カタカナを使っても通常は問題が出ない。
注意する点は機種依存文字。IBM拡張文字、Apple拡張文字などが存在する。
インターネット上ではiso-2022-jpで定義されている文字のみを扱うのがマナーとされている。
・EUC-JP
Unixで使われているコード。古い方のこの規格では半角カナが扱えない。Unixは通常古い規格になっているので注意するように。
よくおかすミスは、Shift-JISと混合させてしまうことだ。CGIを扱う時は特に注意を払うように。
これを防ぐためにjcode.plという文字コード変換スクリプトが存在している。
・Unicode ( UTF-8 )
最新の文字コードで、世界各国の文字を同時に表示できる新世代文字コードだ。
IEとNNはUTF-8でコーディングされている。
Unicodeに対応したアプリケーションならば、文字コードを意識せずに世界の文字が表示できるだろう。
特にネットワークゲームでこれに対応しているとありがたい。
しかし残念ならが現時点では対応しているソフトはほとんどない。
扱う上で注意する点は漢字。中国と日本の漢字を合わせたら膨大になるという事で幾つか統合されてしまっている。
ちなみにメールでのUnicodeはUTF-7を使用となる。コード名の数字分は一文字あたりのビット数をあらわし、これが多いほど多くの文字が扱える。
|