聯系我們 - 廣告服務 - 聯系電話:
您的當前位置: > 關注 > > 正文

鄭碼輸入法:170個組字能力強的形碼輸入方法

來源:CSDN 時間:2023-01-31 13:38:14

我們經常使用拼音輸入漢字等,對打字要求較高的會使用五筆輸入,而很少聽說過鄭碼輸入法,雖然可能在平時生活中應用不是很廣泛,但鄭碼輸入法有嚴格的規范,在漢字編碼字符集范圍、詞庫容量、字詞平均碼長、動態字重碼率及符合語言文字規范等方面都取得了突出的成績。

“鄭碼”把漢字字典檢索與計算機漢字輸入統一了起來,使它們具有統一的編碼和統一的排序,這與鄭易里教授多年對字典的研究有關,也比較符合漢字的教學規律;鄭碼的編碼方法對各種字符集有較強的適應性,它不但可以用來處理國標漢字字符集,也能用于處理港、臺通用的字符集,還可以用于中、日、韓的漢字編碼,1994年初鄭碼完成了電腦大漢字庫6萬個漢字輸入技術的編碼。


(相關資料圖)

隨著鄭碼的普及,它擁有了較多的用戶,尤其在處理大字符集方面它具有較強的適應性,它的輸入速度也比較快,是一種較好的形碼輸入方法。

微軟的Windows 95中文版中就裝有“鄭碼”輸入法。它是一種形碼,與常見的形碼有許多相似之處:比如它也是從漢字的結構入手;也要將漢字分解成若干部件;也要按某種規律安排鍵位;也要建立某種漢字的拆分規則等等。

漢字由字根和筆畫組成。漢字的字根有 560余個,為便于記憶,我們從諸多的字根中優選出 170個組字能力強的字根,按一定的方式用英文字母給它們命名代碼,這些有代碼的字根就成為《鄭碼》編碼的基本字根,簡稱:基根。

《鄭碼》的基根 90 % 是大家熟悉的部首,如"土木工蟲口日?魚言(讠)女辶己馬阝纟鳥頁酉皮艮戶母礻車衤身隹虍牙食"等,其余10 % 是約定俗成的部件,如"甘其甫不而非"等。

《鄭碼》的基根用26個英文字母命名代碼,每一個字母形成一個根區。每個根區里都有幾個基根,它們共用本根區的同一個英文字母作代碼,這一代碼就叫做基根的區碼。

漢字的基本筆形有:橫(一)、豎(丨)、撇(丿)、點(丶)、折(乛)  5 類,于是我們依據基根第一筆的筆形把170個基根分成"橫起筆、豎起筆、撇起筆、點起筆和折起筆" 5大類,然后按照英文字母的自然順序劃分每一類的根區范圍。

橫起筆類基根 如: 一土王扌艸木石匸 占有 ABCDEFGH  8個根區。豎起筆類基根 如: 蟲口日目,占有 IJKL  4個根區。撇起筆類基根 如: ?亻八金月魚,占有 MNOPQR  6個根區。點起筆類基根如:言病之,占有STUVW 5個根區。折起筆類基根如:馬 鄉,占有XYZ 3個根區。

以下內容來自百度百科:

按使用功能將基本字根分為主根和副根,再按起筆筆形將主根和副根分為上述的五個大類(橫起筆、豎起筆等)。主根的鍵位確定之后,副根按自身的筆形從屬相應的主根。

而主根又被分為第一主根和第二主根兩類,第一主根是組字能力最強的基根,共26個,如基根(第一主根)“一、土、王”的代碼就是A、B、C等等,他們的代碼就是一代表根區的英文字母作為代碼;并不是每個根區都有第二主根的,在鄭碼的標準方案中,為每個第二主根又規定了一個位碼D,這樣第二主根就有兩個字母作為代碼,(叫做2碼根,而相對來說第一主根就叫做1碼根)。避免了諸多基根共用一個根區代碼而造成重碼率高的現象,例如基根(第二主根)“二”的代碼就是BD,基根“三”的代碼就是CD等。第一主根和第二主根共同提供了本區字根的筆形特征。

副根中大多數都是大家熟悉的規范的部首。在標準型中也為每個副根規定了一個位碼,這樣副根也是2碼根。例如副根“丁”的代碼是AI,“氣”的代碼是MY,“穴”的代碼是WO等。

副根的第一個代碼是區碼,第二個代碼(位碼)的確定共有四種情況,分別按如下規則執行:

按副根構形中含有的主根成分確定,例如前述的“穴”中含有O區主根“八”的成分,因此他的位碼為O,這是副根位碼確定的主要方式。

按副根構形中還有的筆畫成分確定,如前述的“丁”中含有一筆豎鉤,因此位碼定為代表一筆豎的區碼I。

按副根構形中含有的其他副根成分確定,如“示”的構形中含有K區副根“小”的成分因此位碼定為K,整個菜碼為BK。幾個特殊副根的位碼需要強行記憶,如“山LL”、“匕RR”和“已YY”。

基根采用了雙符代碼后可以及大地減少重碼,而且基根代碼的排序非常有規律,使鄭碼具備了字典的查字碼功能,為識字教學與計算機輸入的結合創造了條件。

取碼方法:

單字首根(即第一個基根)的代碼要按照實際碼數取,不能有所省略。就是說,首根是1碼根就取1碼;首根是2碼根就取2碼(區碼和位碼都要?。?/p>

為保證單字編碼不超過4個字母,首根之后的其余基根代碼要根據不同情況決定取舍。一般是先舍位碼,只取區碼的1碼。

例如:櫻--木F貝LO貝LO女ZM--FLLZ

醒--酉FD曰K生MC--FDKM

但是,對于四基根和多基根字,還要將中間一些基根的代碼全部舍棄,只取前兩碼和最末2個基根各1碼。就是說,取兩頭舍中間。

例如:縮--纟Z宀WD(亻)一A白NK--ZWAN

糖--米UF(廣)肀XB口J--UFXJ

詞語取碼方式

為使詞語的代碼不超過 4 個字母,編碼時要根據詞語中單字數的多少決定基根代碼的取舍。

給詞語編碼時,只需取用基根的區碼。

二字詞

取每個字的首根和次根的區碼各1碼, 表述為:2 - 2

舉例:數量 ---- 米/U 女/Z 曰/K 一/A ---- UZKA

第一主根作為單字參與構詞,在需取 2 碼時要在其代碼后加“A”(與作為單字用的規則一致)。高頻字參與構詞時,要在其代碼后加“V”。

舉例:土地 ---- 土/B 地/B ---- BABV

三字詞

取第一字首根的1碼,取第二字首根和次根各1碼;取第三字首根1碼組成,表述為:1 - 2 - 1。

舉例:科技館 ---- 禾/M 扌/D 十/E 饣/O ---- MDEO

四字詞和多字詞

取前四字的首根各1碼組成,表述為:1 - 1 - 1 - 1

舉例:

輕描淡寫 ---- 車/H 扌/D 氵/V 冖/W ---- HDVW

出污泥而不染--- 凵/Z 氵/V 氵/V 而/G (不 氵) --- ZVVG

簡碼的取碼方式,對一些常用字或詞,按一定的規則,取其常規碼中的 1-3 個字符作為簡略編碼,稱為簡碼。簡碼對專職操作員提高輸入速度大有好處,非專職操作員不必特別去記憶。

一級簡碼:對應于 26 個高頻字。

二級簡碼用該字首根和次根各 1 碼組成。

舉例:

把 -- DY 找 -- DH 管 -- MW

需 -- FG 取 -- CX

個別常用詞也有二級簡碼,就是取每字第一個基根的區碼。

舉例:

中國--JJ 國家--JW 一定--AW 我們--MN 政府--AT 開展--AX

北京--TS 上海--IV 天津--AV 合作--ON 各種--RM 采取--PC

三級簡碼

二基根字:取第一個基根的區碼和第二個基根的區位碼,如:處 -- RID。

三基根和多基根字:依次取第一、第二和第三個基根的區碼,如:散 -- EQM。

責任編輯:

標簽:

相關推薦:

精彩放送:

新聞聚焦
Top 岛国精品在线