コンピュータ基礎I
第八回 文字コード(東アジア)と電子メール
平成18年6月16日
藤川 賢治
文字集合と文字符号化方式
文字集合
どのような文字を扱うことができるかを決めたもの。
多くの文字を集めたもの。
例)
- JIS X 0208 は、仮名、漢字を中心に、6,879文字を輯録(集録)
- UNICODE は世界中の文字を 数万字輯録
文字符号化方式(文字コード)
データ交換の為の、数値と文字と対応関係
iso-2022-jp, euc-jp, shift_jis, utf-8 など
日本語を表現できる文字コードの種類
文字集合 JISX0208 を符合化する文字符号化方式
1. iso-2022-jp
メールやWEBで使われる。
メールでは必須。
2. euc-jp (Extended Unix Code: EUC漢字コード)
UNIX系のOSで使われる。
WEBで使われることもあるが、御勧めできない。
3. shift_jis (シフトJIS漢字コード)
メールで使うと嫌われることがある。(私は嫌う)
WEBではよく使われている
例) 「testです。」の符合化
1. 74 65 73 74 1b 24 42 24 47 24 39 21 23 1b 28 42
t e s t ESC $ B で す 。 ESC ( B
-> 「ESC(エスケープ)シーケンス」と呼ばれる
ESC $ B はここから日本語の文字集合を使うことを意味する
ESC ( B はここから英語の文字集合を使うことを意味する
2. 74 65 73 74 a4 c7 a4 b9 a1 a3
t e s t で す 。
3. 74 65 73 74 82 c5 82 b7 81 42
t e s t で す 。
文字集合としてUNICODEを符合化する文字符号化方式
- UTF-8, UTF-16 など。UTF-8 が良く使われる。(Wikipediaなど)
字体
- 新字
-- 日本で使われている漢字
-- 伝統的な楷書体を元にしたもの。
- 旧字
-- 日本で使われている漢字
-- 康煕字典体を元にしたもの
-- 戦後すぐまではすべて旧字だった。
- 簡体字 (simplified chinese)
-- 中華人民共和国で使われている漢字。
-- 字形の体系的な省略がなされている。
-- ただし北京語発音を考慮しすぎ。
- 繁体字(繁體字)
-- 台湾(臺灣)や香港で使われている漢字。
-- 康煕字典体を元にしている。旧字とほぼ同じ
- 康煕字典体
-- 清の時代の康煕帝が編纂した字典を元にした字体。
-- 伝統的な楷書体とは隨分字形の違う字も有るが、
印刷用書体として伝統的に使われてきた。
書体(フォント)
-手書き
-- 楷書体
-- 行書体
-- 草書体
-印刷用
-- 明朝体 (serif 髭有り)
-- ゴシック体 (sans-serif 髭無し)
臺灣(台湾)の文字コード(文字集合規格)
- Big5 ビッグファイブ、中国語名:大五碼/五大碼、
- charset=big5
- 繁体字中国語圏で最も一般的に使われている文字コード(文字集合)。
- 漢字13,053字を収録する
- 台湾、香港、マカオなどで使用
- 仮名の入った Big5 の拡張も有る。
- CNS 11643 という 48,711字を収録したものもあるが、
政府、大学、図書館での使用にとどまり、一般には普及していない
中华人民共和国の文字コード(文字集合規格)
- GB 2312 (GB 2312-80)
- charset EUC-CN
韓国の文字コード(文字集合規格)
- KS X 1001 (KS C 5601)
- charset=EUC-KR
- ハングル2350字、漢字約4000字の他、英数字や仮名を含む。
한국 김치 비빔밥
比較
正確な比較は http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/ 参照
J: 日本の漢字(新字と旧字の混合)
T: 繁体字 (traditional chinese character)
旧字、韓国の漢字の漢字もほぼ同様
ただしBIG5、KCSを一ページに混在させるのは困難な為、JIS/UNICODE で代用
S: 簡体字 (simplified chinese character)
中華人民共和国の漢字
J: 歩 進捗 来賓 浜中 頻繁 瀕死 顰蹙
T: 步 進捗 來賓 濱中 頻繁 瀕死 顰蹙 (右側の点は一つ)
S: 步 进□ 来宾 浜中 频繁 濒死 颦蹙
J 渋谷 摂政 囁く
T: 澁谷 攝政 囁く
J: 東 車 従 関 何ヶ 飲 銀 説 浜
T: 東 車 從 關 何箇 飮 銀 説 濱
C: 东 车 从 关 何个 饮 银 说 滨
J: 遠 元 円
T: 遠 元 圓
C: 远 元 圆 (yuan)
日本語文字コードの混乱
- 常用漢字 1945字 -> 新字を使え
- それ以外(表外漢字表) -> 旧字を使え
- 犬 哭く 器械 突然 臭い 嗅ぐ 類 (元々は全部「犬」)
- 邁進 辿る 逢
- 母 毎 海 大晦日 侮る 後悔 (元々は全部「母」)
- 巷 港 捲く 倦怠期
- 尊 噂 樽 遵守
- 歴 霹靂
- 青 鯖 錆
- 彦 顏(顔) 諺 薩摩
- 區(区) 歐州(欧州) 鴎 謳
参考資料:
「Vista」新フォントは「国語政策的にも正しい」
http://www.itmedia.co.jp/news/articles/0508/31/news062.html