[分享] 中日韓統一表意文字

philxyz0316

~洋大~

金牌會員

Rank: 6 Rank: 6 Rank: 6 Rank: 6 Rank: 6 Rank: 6

劃線工人- 越線受罰

UID: 8007
帖子: 3288
精華: 350
積分: 55619
金幣: 175160
威望: 1265
推廣: 0
閱讀權限: 88
來自: 神魔分界線
註冊時間: 2006-6-1
最後登錄: 2015-4-13

榮譽勳章陽光會員宣傳大使榮退獎章糾察隊長鍾愛一生勳章守護天使勳章忠誠勳章高級糾察社區建設獎章社區巡守獎章社界宗師勳章資源專家勳章傳學大師勳章文壇大家勳章點評專家勳章終身成就獎章熱心助人獎章最佳分享獎章

發短消息
加為好友
當前離線

1樓大中小發表於 2006-8-7 12:38

中日韓統一表意文字

中日韓統一表意文字（英語：CJK Unified Ideographs），目的是要把分別來自中文、日文、韓文、越文中，本質相同、形狀一樣或稍異的表意文字（主要為漢字，但也有仿漢字如日本國字、韓國獨有漢字、越南的喃字）於ISO 10646及Unicode標準內賦予相同編碼。

越南文後來加入此計劃，所以亦有CJKV（中日韓越統一表意文字）的稱呼。Unicode亦開始收錄其仿漢字——喃字。

版本歷史
於1990年代初ISO 10646制訂時，來自台灣的代表提出將源自中國的中日韓漢字予以統一（Unify,ISO術語稱為認同），可以大量節省編碼空間，獲其他代表接納。

字源
最初期統一漢字
最初期的統一漢字（20,902字）字源來自以下字集：

* 中國大陸的G源
      o G0：GB 2312-80：6,763字
      o G1：GB 12345-90：2,352字（含58個香港字和92個吏讀字，不包括和GB 2312重複的字）
      o G3：GB 7589-87 繁體字：7,237字
      o G5：GB 7590-87 繁體字：7,039字
      o G7：現代漢語通用字表：642（G0, 1, 3, 5, 8未包括的字）
      o G8：GB 8565-89：290字（G0, 1, 3, 5未包括的字）
* 台灣的T源
      o T1：CNS 11643-1986第一字面：5,401+9字（含9個計量用漢字）
      o T2：CNS 11643-1986 第二字面：7,650字
      o TE：CNS 11643-1986 第十四字面：6,319+239+10（含239個CCCII特字和10個XCCS特字
* 日本的J源
      o J0：JIS X 0208-90：6,335+1字
      o J1：JIS X 0212-90：5,801字
* 南韓的K源
      o K0：KS C 5601-87：4,888字（含268個重見字）
      o K1：KS C 5657-91：2,856字

以上的來源字集會實施字源分離原則。

另外還有：EACC的ANSI Z39.64-1989、Big5、CCCII第一面、GB 12052-89、JEF、中國大陸電報碼、台灣電報碼、Xerox Chinese等字集來源。

擴展A區
擴展A區包含有6,582個新的漢字，位置在 U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得：

* 中國大陸
      o GE：GB 16500-95
      o GS：新加坡漢字
* 台灣
      o T3：CNS 11643-1992第三字面（原本為CNS 11643-1986第十四字面）新加入字元
      o T4：CNS 11643-1992 第四字面
      o T5：CNS 11643-1992 第五字面
      o T6：CNS 11643-1992 第六字面
      o T7：CNS 11643-1992 第七字面
      o TF：CNS 11643-1992 第十五字面
* 日本
      o JA： Unified Japanese IT Vendors Contemporary Ideographs, 1993
* 南韓
      o K2：PKS C 5700-1:1994
      o K3：PKS C 5700-2:1994
* 越南
      o V0：TCVN 5773:1993
      o V1：TCVN 6056:1995

擴展B區
擴展B區包含有42,711個新的漢字，位置在 U+20000—U+2A6D6。根據 IRG N777號文件，這四萬多個漢字分別從以下字典或字集中取得：

* 《康熙字典》中出現的18,486個未收錄漢字（包括一個在補遺篇出現的漢字）；
* 《漢語大字典》中出現的28,914個未收錄漢字；
* 《辭源》中出現的66個未收錄漢字；
* 《辭海》中出現的247個未收錄漢字；
* 《漢語大詞典》中出現的553個未收錄漢字；
* 《中國大百科全書》中出現的86個未收錄漢字；
* 北大方正排版系統中出現的65個未收錄漢字；
* 《四庫全書》中出現的522個未收錄漢字；
* 香港增補字符集中出現的1,081個未收錄漢字；
* 日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字；
* 南韓1998中出現的166個未收錄漢字；
* 北韓 KPS 9566-97 和 KPS 10721-2000 國家標準所收錄的5,642個漢字；
* 台灣CNS 11643的第4至7和15平面所收錄的30,177個漢字；
* 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收錄的4,232個字喃；

這堆漢字中重複的漢字有不少，所以經過整理之後，實際總數只有42,711個漢字。

另外，在 U+2F800—U+2FA1D 的位置，放了542個來自台灣的兼容漢字。

Unicode 4.1漢字
為使 Unicode 向下兼容GB 18030和香港增補字符集（HKSCS）的所有漢字，而擴展C區又遲遲未能出籠，在 Unicode 4.1 版中引進了14個香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。

另外，在 U+FA70—U+FAD9 的位置，放了106個來自北韓的兼容漢字。

擴展C區
按計劃，中日韓統一表意文字擴展C區將收錄4,251個漢字，包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下一版的 Unicode 版本中，位置在 U+2A6E0—U+2B77A。根據 IRG N1266號文件，這四千多個漢字分別從以下字典或字集中取得：

* 中國大陸
      o 《中國大百科全書》
      o 北大方正排版系統
      o 《漢語大字典》
      o 《漢語大詞典》
      o 《古代漢語詞典》
      o 商務印書館用字
      o 《現代漢語詞典》
      o 《辭海》
      o 《康熙字典》及補遺
      o 中國測繪科學研究院用字
      o 《漢語方言大辭典》
      o 殷周金文集成引得
* 澳門
      o 澳門資訊系統字集
* 台灣
      o CNS 11643-1992第12字面
      o CNS 11643-1992 第13字面
      o CNS 11643-1992 第14字面
* 日本
      o 日本國字集（Japanese KOKUJI Collection）
* 南韓
      o 韓國 IRG 漢字集第5版（Korean IRG Hanja Character Set 5th Edition: 2001）
* 北韓
      o KPS 10721:2003
* 越南
      o 喃字典（Từ điển chữ Nôm）, Nguyễn Quang Hồng, 2006
      o Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
      o Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994
* UTC來源
      o ABC Chinese-English Dictionary, John DeFrancis（德范克）, et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
      o 耶穌基督後期聖徒教會香港分會用字
      o Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press
      o 宋本《廣韻》
      o 《中國鳥類系統檢索》，鄭作新等（2000），北京，科學出版社
      o 段玉裁《說文解字注》

字源分離原則
字源分離原則（Source Separation Rule）是整理中日韓統一表意文字的基礎。

由於CJK各地字型多有微妙的差異，如「戶」字的第一筆，台灣作撇「戶」、中國大陸作點「戶」、日本作橫「戶」，這種程度的差異，理想上是整併為一個字為佳。然而，從之前各種受挫之文字整併計劃的經驗得知，整合字集與現行通用字集（Big5或國標碼）等無法一一對應，是推行整合字集的最大阻礙。

例如，日本的JIS標準同時收錄了「」字與「」字，原本JIS文件裡這兩個字可以並存，但採用整合字集後反而變成同一個字，會造成使用上的困擾。於是，字源分離原則因而誕生。

字源分離原則是指，在上述所列出之各種字源裡，若有任何字集同時收了兩種以上的文字字形，則在Unicode中日韓統一表意文字中，也同時收錄這些字。這樣一來，現行的各種原有字集與Unicode漢字可以一一對應。

由於Unicode中日韓統一表意文字的主要訴求，就是能大幅減少Unicode收錄漢字字數，同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字，而不對字形」編碼之原則，亦遭受不少批評。

已統一的漢字
原則上ISO 10646只對字（Character），而非字形（Glyph）編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法（但只是閣下電腦提供的字型，未必代表該地區的標準寫法）。

例子：

Unicode	中文			日文	韓文
Unicode	中國大陸	台灣	香港	日文	韓文
U+6D2A	港	港	港	港	港
U+6F22	漢	漢	漢	漢	漢
U+76F4	直	直	直	直	直
U+7A97	窗	窗	窗	窗	窗
U+89D2	角	角	角	角	角
U+8D77	起	起	起	起	起
U+9AA8	骨	骨	骨	骨	骨

註：不是所有瀏覽器均可分辨「中文－香港」（zh-hk）此一HTML的語言代碼（Language Code）並使用不同的字形。如閣下看到的字形和中國大陸的字形一樣，表示閣下的瀏覽器不能分辨此標籤，或設定兩者以同一種字形顯示。截至2005年6月，只有Firefox和Mozilla瀏覽器支援此標籤。詳見 Test results: Automatic font assignment for CJK text。

沒有統一的漢字
有些字只是同一字在不同地區的寫法，理應統一，但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由「把不正統的編入位於基本多文種平面的「相容表意文字區」（Compatibility Ideographs）」起廢棄，原因是CNS中有太多字形非常接近，按 Unicode 標準應該統一的字。這些字只有正統的會編入正式字集（包括擴展A、B、C區）中，不正統的編入位於「第二輔助平面」的「相容表意文字補充區」（Compatibility Ideographs Supplement）中。