コンピュータ基礎I 第八回 文字コード(東アジア)と電子メール 平成18年6月16日 藤川 賢治
文字集合と文字符号化方式 文字集合 どのような文字を扱うことができるかを決めたもの。 多くの文字を集めたもの。 例) - JIS X 0208 は、仮名、漢字を中心に、6,879文字を輯録(集録) - UNICODE は世界中の文字を 数万字輯録 文字符号化方式(文字コード) データ交換の為の、数値と文字と対応関係 iso-2022-jp, euc-jp, shift_jis, utf-8 など
日本語を表現できる文字コードの種類 文字集合 JISX0208 を符合化する文字符号化方式 1. iso-2022-jp メールやWEBで使われる。 メールでは必須。 2. euc-jp (Extended Unix Code: EUC漢字コード) UNIX系のOSで使われる。 WEBで使われることもあるが、御勧めできない。 3. shift_jis (シフトJIS漢字コード) メールで使うと嫌われることがある。(私は嫌う) WEBではよく使われている 例) 「testです。」の符合化 1. 74 65 73 74 1b 24 42 24 47 24 39 21 23 1b 28 42 t e s t ESC $ B で す 。 ESC ( B -> 「ESC(エスケープ)シーケンス」と呼ばれる ESC $ B はここから日本語の文字集合を使うことを意味する ESC ( B はここから英語の文字集合を使うことを意味する 2. 74 65 73 74 a4 c7 a4 b9 a1 a3 t e s t で す 。 3. 74 65 73 74 82 c5 82 b7 81 42 t e s t で す 。 文字集合としてUNICODEを符合化する文字符号化方式 - UTF-8, UTF-16 など。UTF-8 が良く使われる。(Wikipediaなど)
字体 - 新字 -- 日本で使われている漢字 -- 伝統的な楷書体を元にしたもの。 - 旧字 -- 日本で使われている漢字 -- 康煕字典体を元にしたもの -- 戦後すぐまではすべて旧字だった。 - 簡体字 (simplified chinese) -- 中華人民共和国で使われている漢字。 -- 字形の体系的な省略がなされている。 -- ただし北京語発音を考慮しすぎ。 - 繁体字(繁體字) -- 台湾(臺灣)や香港で使われている漢字。 -- 康煕字典体を元にしている。旧字とほぼ同じ - 康煕字典体 -- 清の時代の康煕帝が編纂した字典を元にした字体。 -- 伝統的な楷書体とは隨分字形の違う字も有るが、 印刷用書体として伝統的に使われてきた。
書体(フォント) -手書き -- 楷書体 -- 行書体 -- 草書体 -印刷用 -- 明朝体 (serif 髭有り) -- ゴシック体 (sans-serif 髭無し)
臺灣(台湾)の文字コード(文字集合規格) - Big5 ビッグファイブ、中国語名:大五碼/五大碼、 - charset=big5 - 繁体字中国語圏で最も一般的に使われている文字コード(文字集合)。 - 漢字13,053字を収録する - 台湾、香港、マカオなどで使用 - 仮名の入った Big5 の拡張も有る。 - CNS 11643 という 48,711字を収録したものもあるが、 政府、大学、図書館での使用にとどまり、一般には普及していない
中华人民共和国の文字コード(文字集合規格) - GB 2312 (GB 2312-80) - charset EUC-CN
韓国の文字コード(文字集合規格) - KS X 1001 (KS C 5601) - charset=EUC-KR - ハングル2350字、漢字約4000字の他、英数字や仮名を含む。 한국 김치 비빔밥
比較 正確な比較は http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/kanjibukuro/ 参照 J: 日本の漢字(新字と旧字の混合) T: 繁体字 (traditional chinese character) 旧字、韓国の漢字の漢字もほぼ同様 ただしBIG5、KCSを一ページに混在させるのは困難な為、JIS/UNICODE で代用 S: 簡体字 (simplified chinese character) 中華人民共和国の漢字 J: 歩 進捗 来賓 浜中 頻繁 瀕死 顰蹙 T: 步 進捗 來賓 濱中 頻繁 瀕死 顰蹙 (右側の点は一つ) S: 步 进□ 来宾 浜中 频繁 濒死 颦蹙 J 渋谷 摂政 囁く T: 澁谷 攝政 囁く J: 東 車 従 関 何ヶ 飲 銀 説 浜 T: 東 車 從 關 何箇 飮 銀 説 濱 C: 东 车 从 关 何个 饮 银 说 滨 J: 遠 元 円 T: 遠 元 圓 C: 远 元 圆 (yuan)
日本語文字コードの混乱 - 常用漢字 1945字 -> 新字を使え - それ以外(表外漢字表) -> 旧字を使え - 犬 哭く 器械 突然 臭い 嗅ぐ 類 (元々は全部「犬」) - 邁進 辿る 逢 - 母 毎 海 大晦日 侮る 後悔 (元々は全部「母」) - 巷 港 捲く 倦怠期 - 尊 噂 樽 遵守 - 歴 霹靂 - 青 鯖 錆 - 彦 顏(顔) 諺 薩摩 - 區(区) 歐州(欧州) 鴎 謳 参考資料: 「Vista」新フォントは「国語政策的にも正しい」 http://www.itmedia.co.jp/news/articles/0508/31/news062.html