コンピュータ基礎I 第七回 文字コード 平成18年6月1日 藤川 賢治 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 質問 Q. 数字や文字を打ち込んでメールを送ったりインターネットにつないだりするのがみれ ておもしろかったです。どこに打ち込んでいるのかが疑問です。 A. 図による説明 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 文字の話 (文字コードの前振りとして) 文字コードは字体整理の延長上にある 万葉仮名 - もともとは漢字の音だけを借りて、漢字で音を表わしていた。 - 真名の対義語として、仮名という。 仮名 - 万葉仮名の草書体を更にくずしたもの。 - 元々300くらいあり、江戸時代末には150くらいに減らした。 - 一音に対して複数文字ある。 - むしろ、この漢字の草書体は、この音の表記にも使える、という意識 - 現在の平仮名は明治になつて教育のため、一音一文字にしたもの。 - ゆとり教育のはしり - ただし、活字化、印刷の為には止むを得ない面もある 変体仮名 - 現在の平仮名以外の それ以外の平仮名は、変体仮名と呼ばれる。 - 文字コードに含めることが検討されているが、現在までのところ含まれず ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 歴史的假名遣ひ - 和語に爲のものと漢語の爲のもの(字音假名遣ひがある) 歴史的假名遣ひ(和語) - 歴史的意義、文法を考慮 - 文語も口語も統一的に扱へる 現代かなづかい - 戰後、漢字を廃止、カタカナ化、ローマ字化移行への布石 - 表音主義に基く表記法 - しかし表音主義としても出鱈目 - こんにちわ撲滅委員會 字音假名遣ひ - 漢字の振假名 - 例 王(ワウ) 長(チャウ) 京(ケイ、キャウ) 早(サウ) 蝶(テフ) - 鼻腔音 ing、 eng は イ、それ以外の ng はウと綴る - ただし、イやウで終ると必ず ng といふ - 中國人の名前 王(Wang)、長(Chang) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 音便 神戸 元々は、かみべ 和語に関しては、語の頭以外の、う、い はほぼ音便であるという原則がある。 かみべ -> かうべ かみかみし -> かうがうしい -> こうごうしい (神々し) をとひと -> をとうと (弟) いもひと -> いもうと (妹) かりひと -> かりうど (狩人) その他、音便には、促音便(っ)と撥音便(ん)が有る。 ぬすひと -> ぬすっと (盗人) あきひと -> あきんど (商人) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 当用漢字 当面用いる漢字 - 戦後、将来の漢字廃止を見据え、当面用いる漢字として 1850文字を制定 - 書体としては楷書体を元にした。 - 新しい字体を「新字」と呼び、それまでの字体を「旧字」と呼ぶやうになった - 漢字制限 -> まぜ書きの多用、書き換え字の氾濫 まぜ書きの例) 障害者 -> 障がい者 趨勢 -> すう勢 書き換え字の例) 交叉点 -> 交差点 両棲類 -> 両生類 函数 -> 関数 障害者 -> 障碍者 常用漢字 - 当用漢字に漢字を追加した物。教育の規範。1945字。 - 当用漢字は廃止 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 中途半端な表音主義 ゐる (居る) -> いる おもふ (思ふ) -> おもう うゑる (飢ゑる, 植ゑる) -> うえる すゑる (据ゑる) -> すえる かりうど (狩人) -> かりゅうど ちぢむ (縮む) -> ちぢむ (その儘《まま》) はなぢ (鼻血) -> はなぢ (その儘) ぢめん (地面) -> じめん せかいぢゅう (世界中) -> せかいじゅう つづく -> つづく (その儘) 一つづつ -> 一つずつ 頷《うなづ》く -> うなずく 躓《つまづ》く -> つまずく 跪《ひざまづ》く -> ひざまずく 基《もとづ》く -> 基《もと》づく (その儘) 色附《いろづ》く -> 色付く《いろづ》く (その儘) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 簡体字 中華人民共和国で使われている漢字。 字形の体系的な省略がなされている。 ただし北京語発音を考慮しすぎ。 繁体字(繁體字) 台湾(臺灣)や香港で使われている漢字。 康煕字典体を元にしている。旧字とほぼ同じ 康煕字典体 清の時代の康煕帝が編纂した字典を元にした字体。 伝統的な楷書体とは隨分字形の違う字も有るが、 印刷用書体として伝統的に使われてきた。 新字 簡略化したものだが、伝統的な楷書体を元にしたもの。 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 樣々な漢字の字形 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 現在のJIS規格の日本語用文字集合の字形の基本指針 (紆餘曲折の結果) - 常用漢字は新字の字形に従う - それ以外は伝統的な字形(康煕字典体)に従う (例外有り) (- 平仮名は変体仮名を含まない) この結果、常用漢字とそうでない漢字では偏《へん》や旁《つくり》が 同じ部品で有っても、違う字形の文字が大量に存在することに。 例) 自轉 傳統 團體 專門 囀《さえず》る -> 自転 伝統 団体 専門 囀《さえず》る 佛教 拂ふ 沸騰 -> 仏教 払う 沸騰 假名 休暇 -> 仮名 休暇 齒 噛む 齟齬 -> 歯 噛む 齟齬 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 文字集合と文字符号化方式 文字集合 どのような文字を扱うことができるかを決めたもの。 多くの文字を集めたもの。 例) - JIS X 0208 は、仮名、漢字を中心に、6,879文字を輯録(集録) - UNICODE は世界中の文字を 数万字輯録 文字符号化方式 データ交換の為の、数値と文字と対応関係 iso-2022-jp, euc-jp, shift_jis, utf-8 など ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 日本語を表現できる文字コードの種類 文字集合 JISX0208 を符合化する文字符号化方式 1. iso-2022-jp メールやWEBで使われる。 メールでは必須。 2. euc-jp (Extended Unix Code: EUC漢字コード) UNIX系のOSで使われる。 WEBで使われることもあるが、御勧めできない。 3. shift_jis (シフトJIS漢字コード) メールで使うと嫌われることがある。(私は嫌う) WEBではよく使われている 例) 「testです。」の符合化 1. 74 65 73 74 1b 24 42 24 47 24 39 21 23 1b 28 42 t e s t ESC $ B で す 。 ESC ( B -> 「ESC(エスケープ)シーケンス」と呼ばれる ESC $ B はここから日本語の文字集合を使うことを意味する ESC ( B はここから英語の文字集合を使うことを意味する 2. 74 65 73 74 a4 c7 a4 b9 a1 a3 t e s t で す 。 3. 74 65 73 74 82 c5 82 b7 81 42 t e s t で す 。 文字集合としてUNICODEを符合化する文字符号化方式 - UTF-8, UTF-16 など。UTF-8 が良く使われる。(Wikipediaなど) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 課題1 適当にサイトを開いて、その URL の説明せよ。 ただし、http://www.google.co.jp/ <-- ここで終るのは不可 ヒント: ヤフーなどのポートルサイトでカテゴリ分けされているものは分り易い 例) http://baseball.yahoo.co.jp/npb/standings/ http: HTTPプロトコル baseball.yahoo.co.jp サーバ名、 yahoo 会社名、co company、jp japan npb/standings/ ディレクトリ(フォルダ)名、ファイル名 npb National Professional Baseball、standings 順位表 課題2. 授業の感想、要望など。