中日韓統一表意文字(英語:CJK Unified Ideographs),目的是要把分別來自中文、日文、韓文、越文中,本質相同、形狀一樣或稍異的表意文字(主要為漢字,但也有仿漢字如日本國字、韓國獨有漢字、越南的喃字)於ISO 10646及Unicode標準內賦予相同編碼。
越南文後來加入此計劃,所以亦有CJKV(中日韓越統一表意文字)的稱呼。Unicode亦開始收錄其仿漢字——喃字。
版本歷史
於1990年代初ISO 10646制訂時,來自台灣的代表提出將源自中國的中日韓漢字予以統一(Unify,ISO術語稱為認同),可以大量節省編碼空間,獲其他代表接納。
字源
最初期統一漢字
最初期的統一漢字(20,902字)字源來自以下字集:
* 中國大陸的G源
o G0:GB 2312-80:6,763字
o G1:GB 12345-90:2,352字(含58個香港字和92個吏讀字,不包括和GB 2312重複的字)
o G3:GB 7589-87 繁體字:7,237字
o G5:GB 7590-87 繁體字:7,039字
o G7:現代漢語通用字表:642(G0, 1, 3, 5, 8未包括的字)
o G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)
* 台灣的T源
o T1:CNS 11643-1986第一字面:5,401+9字(含9個計量用漢字)
o T2:CNS 11643-1986 第二字面:7,650字
o TE:CNS 11643-1986 第十四字面:6,319+239+10(含239個CCCII特字和10個XCCS特字
* 日本的J源
o J0:JIS X 0208-90:6,335+1字
o J1:JIS X 0212-90:5,801字
* 南韓的K源
o K0:KS C 5601-87:4,888字(含268個重見字)
o K1:KS C 5657-91:2,856字
以上的來源字集會實施字源分離原則。
另外還有:EACC的ANSI Z39.64-1989、Big5、CCCII第一面、GB 12052-89、JEF、中國大陸電報碼、台灣電報碼、Xerox Chinese等字集來源。
擴展A區
擴展A區包含有6,582個新的漢字,位置在 U+3400—U+4DB5。這6千多個漢字分別從以下字典或字集中取得:
* 中國大陸
o GE:GB 16500-95
o GS:新加坡漢字
* 台灣
o T3:CNS 11643-1992第三字面(原本為CNS 11643-1986第十四字面)新加入字元
o T4:CNS 11643-1992 第四字面
o T5:CNS 11643-1992 第五字面
o T6:CNS 11643-1992 第六字面
o T7:CNS 11643-1992 第七字面
o TF:CNS 11643-1992 第十五字面
* 日本
o JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993
* 南韓
o K2:PKS C 5700-1:1994
o K3:PKS C 5700-2:1994
* 越南
o V0:TCVN 5773:1993
o V1:TCVN 6056:1995
擴展B區
擴展B區包含有42,711個新的漢字,位置在 U+20000—U+2A6D6。根據 IRG N777號文件,這四萬多個漢字分別從以下字典或字集中取得:
* 《康熙字典》中出現的18,486個未收錄漢字(包括一個在補遺篇出現的漢字);
* 《漢語大字典》中出現的28,914個未收錄漢字;
* 《辭源》中出現的66個未收錄漢字;
* 《辭海》中出現的247個未收錄漢字;
* 《漢語大詞典》中出現的553個未收錄漢字;
* 《中國大百科全書》中出現的86個未收錄漢字;
* 北大方正排版系統中出現的65個未收錄漢字;
* 《四庫全書》中出現的522個未收錄漢字;
* 香港增補字符集中出現的1,081個未收錄漢字;
* 日本工業標準的JIS X 0213第3平面及第4平面的302個未收錄漢字;
* 南韓1998中出現的166個未收錄漢字;
* 北韓 KPS 9566-97 和 KPS 10721-2000 國家標準所收錄的5,642個漢字;
* 台灣CNS 11643的第4至7和15平面所收錄的30,177個漢字;
* 越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收錄的4,232個字喃;
這堆漢字中重複的漢字有不少,所以經過整理之後,實際總數只有42,711個漢字。
另外,在 U+2F800—U+2FA1D 的位置,放了542個來自台灣的兼容漢字。
Unicode 4.1漢字
為使 Unicode 向下兼容GB 18030和香港增補字符集(HKSCS)的所有漢字,而擴展C區又遲遲未能出籠,在 Unicode 4.1 版中引進了14個香港增補字符集的用字和8個 GB 18030 用字。該22字被編於 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106個來自北韓的兼容漢字。
擴展C區
按計劃,中日韓統一表意文字擴展C區將收錄4,251個漢字,包括來自中國大陸、澳門、台灣、日本、越南等尚未被編碼的漢字。這些漢字預計會收錄在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B77A。根據 IRG N1266號文件,這四千多個漢字分別從以下字典或字集中取得:
* 中國大陸
o 《中國大百科全書》
o 北大方正排版系統
o 《漢語大字典》
o 《漢語大詞典》
o 《古代漢語詞典》
o 商務印書館用字
o 《現代漢語詞典》
o 《辭海》
o 《康熙字典》及補遺
o 中國測繪科學研究院用字
o 《漢語方言大辭典》
o 殷周金文集成引得
* 澳門
o 澳門資訊系統字集
* 台灣
o CNS 11643-1992第12字面
o CNS 11643-1992 第13字面
o CNS 11643-1992 第14字面
* 日本
o 日本國字集(Japanese KOKUJI Collection)
* 南韓
o 韓國 IRG 漢字集第5版(Korean IRG Hanja Character Set 5th Edition: 2001)
* 北韓
o KPS 10721:2003
* 越南
o 喃字典(Từ điển chữ Nôm), Nguyễn Quang Hồng, 2006
o Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003
o Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994
* UTC來源
o ABC Chinese-English Dictionary, John DeFrancis(德范克), et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press
o 耶穌基督後期聖徒教會香港分會用字
o Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press
o 宋本《廣韻》
o 《中國鳥類系統檢索》,鄭作新等(2000),北京,科學出版社
o 段玉裁《說文解字注》
字源分離原則
字源分離原則(Source Separation Rule)是整理中日韓統一表意文字的基礎。
由於CJK各地字型多有微妙的差異,如「戶」字的第一筆,台灣作撇「戶」、中國大陸作點「戶」、日本作橫「戶」,這種程度的差異,理想上是整併為一個字為佳。然而,從之前各種受挫之文字整併計劃的經驗得知,整合字集與現行通用字集(Big5或國標碼)等無法一一對應,是推行整合字集的最大阻礙。
例如,日本的JIS標準同時收錄了「」字與「」字,原本JIS文件裡這兩個字可以並存,但採用整合字集後反而變成同一個字,會造成使用上的困擾。於是,字源分離原則因而誕生。
字源分離原則是指,在上述所列出之各種字源裡,若有任何字集同時收了兩種以上的文字字形,則在Unicode中日韓統一表意文字中,也同時收錄這些字。這樣一來,現行的各種原有字集與Unicode漢字可以一一對應。
由於Unicode中日韓統一表意文字的主要訴求,就是能大幅減少Unicode收錄漢字字數,同時尊重各地的習慣字形。但字源分離原則則破壞了「只對字,而不對字形」編碼之原則,亦遭受不少批評。
已統一的漢字
原則上ISO 10646只對字(Character),而非字形(Glyph)編碼。同一字各地可使用自己的標準寫法。下例中使用HTML標示同一編碼的字在不同地區中的寫法(但只是閣下電腦提供的字型,未必代表該地區的標準寫法)。
例子:
Unicode | 中文 | 日文 | 韓文 |
中國大陸 | 台灣 | 香港 |
U+6D2A | 港 | 港 | 港 | 港 | 港 |
U+6F22 | 漢 | 漢 | 漢 | 漢 | 漢 |
U+76F4 | 直 | 直 | 直 | 直 | 直 |
U+7A97 | 窗 | 窗 | 窗 | 窗 | 窗 |
U+89D2 | 角 | 角 | 角 | 角 | 角 |
U+8D77 | 起 | 起 | 起 | 起 | 起 |
U+9AA8 | 骨 | 骨 | 骨 | 骨 | 骨 |
註:不是所有瀏覽器均可分辨「中文-香港」(zh-hk)此一HTML的語言代碼(Language Code)並使用不同的字形。如閣下看到的字形和中國大陸的字形一樣,表示閣下的瀏覽器不能分辨此標籤,或設定兩者以同一種字形顯示。截至2005年6月,只有Firefox和Mozilla瀏覽器支援此標籤。詳見 Test results: Automatic font assignment for CJK text。
沒有統一的漢字
有些字只是同一字在不同地區的寫法,理應統一,但因為字源分離原則而只好分開編碼。值得注意的是字源分離原則由「把不正統的編入位於基本多文種平面的「相容表意文字區」(Compatibility Ideographs)」起廢棄,原因是CNS中有太多字形非常接近,按 Unicode 標準應該統一的字。這些字只有正統的會編入正式字集(包括擴展A、B、C區)中,不正統的編入位於「第二輔助平面」的「相容表意文字補充區」(Compatibility Ideographs Supplement)中。