 中文的電腦或電腦的中文?☉諶家雄
(轉載自自由時報)
日前由於總統府的新聞不斷,所以在各個電子網路新聞上,秘書長游錫?的大名就經常上報。在看了奇摩新聞對游秘書長大名的處理方式後,禁不住勾起對電腦中文的種種回憶,同時也對現階段中文的處理方法提出個人的一些淺見,供大家作為參考。
沿革
自從個 人電腦能出現中文後,對於不在大五碼(BIG5)編碼範圍內的中文字,就讓各家中文廠商、系統開發者、終端使用者傷透腦筋。話說在DOS環境時,輔助記憶體(也就是軟碟、硬碟)之容量不足,如當時還是所謂5'25"的大磁片,而且還是剛進入高密度(1.2MB)的時代,能裝兩台大磁片的軟碟、或能有10MB、20MB的硬碟就已是高檔貨了,與今日動輒數十GB硬碟的環境簡直是天壤之別。因此在1984年CNS11643「通用漢字標準交換碼」的試用版剛公佈不久,即為了要讓當時的五大中文套裝軟體(文書處理、資料庫、試算表、通訊、繪圖)能有共通的中文內碼,而制定了BIG5碼。
當初只使用CNS11643試用版的13,053字(後正式版刪除重複的二字而為13,051字),其中還分成了常用字區與次常用字區兩個字面,以便讓只配備軟碟機的使用者也能有中文環境。
時光如箭,日月如梭,等到電腦的硬體環境漸成氣候,國內電腦的使用人數也與日俱增,各種中文環境下的應用程式、資料都累積可觀的數目後,微軟推出了視窗作業環境。在市場的考量下,誰也不敢輕言更改中文的內碼,於是蕭規曹隨,繼續沿用已有廣大PC市場的BIG5碼,而中文字的問題也就依舊未獲得答案。
中文字問題
中文字的國家標準CNS11643的字集範圍,原則上是以教育部所公佈的「常用國字標準字體表」、「次常用國字標準字體表」、「罕用字字表」及「異體國字字表」為主要參考依據。基本上它是兩個位元組的編碼架構,在7位元環境下的一個字面,每一位元組編碼範圍為了符合CNS5205及CNS7654通信定則的規定,需扣掉00-20及7F的控制字元,因此可從21到7E共有94個編碼位置,所以兩個位元組就可編碼94?4=8,836個字,而一共分成十六個字面,BIG5碼的常用字與罕用字字面,即分別取其第一、第二字面。
而由此衍生出中文字的主要問題,其一是造字、另一是排序。由於PC上通用的BIG5碼字數有限,因此造成使用者在無字可找的環境下只得自行造字。而我們知道,一旦使用造字,除非所有作業全都在該台電腦完成,否則只要一出此台電腦,在資料交換、處理,或Web的應用上都會造成牛頭不對馬嘴的困窘。因此雖然CNS11643早在1992年就已公佈其所制定的7個字面共48,027個字,但整個的電腦環境並未同步跟上,這是電腦界需要檢討之處。
另一方面談到 文字排序的處理,我們知道目前PC中的英文字是依據ASCII標準碼,而中文當然就以BIG5碼為基礎囉。我們前面提到CNS11643共制定了7個字面,在每個字面中的字都是先筆畫後部首(即依總筆畫→部首→筆順)的方式排列。在以往DOS的環境下,您若依姓名排列,那麼姓「粘」的人肯定會排在姓「鐵」的後面,因為「鐵」的內碼是在常用字字面的「C54B」,而「粘」因為是俗體字,所以是排在次常用字字面的「D6DF」,所以即使是「粘」的筆畫比「鐵」要少,但依其字碼出現順序仍然要瞠乎其後。這在DOS的環境時是無解,而在如今Windows的環境中,微軟的Offi
ce已做了修正,可有正確的排序;但若用其他程式開發工具如Delphi、或是在MS-DOS模式下的傳統DOS開發工具來檢視,因為它們就是用內碼來做比較,所以仍是無法解決的燙手山芋。
但中文排序的問題不僅如此,試想我們在字典上有幾種找字(排序)的方法呢?其實在CNS11643也對中文排序的屬性有所定見,經濟部標準局在民87年曾委託資策會研擬「中文排序屬性標準草案」,最後總共訂定了總筆畫數、部首、部首外筆畫數、注音、劉氏音碼、筆順、符號值、及數值等8種屬性,而對於符號區的符號則另訂有符號值、數值等屬性。要中文字也能依這些屬性來排序,個人電腦部份是聽所未聞,而大型電腦中我除了十多年前在VAX的VMS系統中有使用過部分功能外,還不見有其他系統能有此能耐。而我們還未把造字納入討論範圍內。
讀者若欲對中文字的沿革進一步了解,可以參閱經濟部標準檢驗局所架設的「資訊與通信標準推廣網站」:http://www.tips.org.tw/storehouse/index1-1.htm。
輸入罕用字
最後我們來動動手運動運動吧,要如何讓電腦出現我們最先所提到的這リㄕbBIG5碼中、卻是我們所知常見的字呢?且讓我們瞧瞧:
一、拆字法
有些做法可用拆字拼湊的方法來湊合著用,但此法只適用於橫排、且該字左右都可找出適當的字型的環境,如王建「火宣」、陶「吉吉」、觸「酉每」等。若是上下位置的游錫「方方土」,看起來就很不搭調了。
二、圖形法
一般適用於網路的應用。如學校的入學考試榜單公佈,您可以把在電腦中已造字、可出現正確字型的整幅榜單全部複製後放到小畫家中存為圖形檔來公佈,既可正確顯示又不虞竄改;或如奇摩新聞網的做法,將每個罕用字建一個小小的圖形檔,因為最後是要放在網路上供人瀏覽,所以文章中只要用到該字時,就用 標記將此圖形檔放在文字後就可以了。如您就可以輸入「http://news.chinatimes.com/img/wordgif/01.gif」來看到「?」字。您也可以依序找02.gif、03.gif..,看看他們究竟造了那些罕用字圖形檔。
當然這樣也有不便之處,因為這是固定大小、字體的圖形檔,只要使用者的瀏覽器是選用其他字體如標楷體、或設定不同大小的字體,就會造成整段文章前後字體突兀而格格不入。
三、下載已公告成為標準的字型
如我們可以連到行 政院研考會的網站(http://www.rdec.gov.tw/big-5e/big5e-bady.htm)去下載BIG-5E的字型工具。BIG-5E是中文數位化技術推廣基金會應研考會之委託,為了彌補BIG5字數之不敷使用,而執行BIG5補充字集計畫後的產物。所建立的補充字集字碼有3900∼4200字。它有提供給一般使用者的BIG-5E自造字管理程式集和BIG-5E注音、倉頡輸入法及字型安裝程式,另外還有字型檔、屬性檔、轉碼程式、字碼表等工具集提供給廠商使用。它所支援的平台為WIN95/98/NT,字體為明體字。您下載安裝後用倉頡或注音輸入法即可輸入這些罕用字。但因是外加的字型,所以除
非別台電腦也安裝了相同的字集,否則在資料交換或Web的應用上同樣會出現雞同鴨講的文字錯亂情形。
四、萬國碼(unicode)
我們願意提供
另一個選擇供大家參考,最主要的基礎在於利用萬國碼unicode。目前可支援unicode的產品有Windows
2000、Office 2000、IE5、Netscape 4.7等,因此如果不嫌麻煩的話,其中一個方法就是將電腦換成Windows
2000作業系統。因為Windows 2000已支援unicode,所以不論您是Windows
2000的Professional、Server、或是Advanced Server版,都可以在Office中打出這些字。若您覺得未免殺雞用牛刀,不必為了喝杯牛奶就要開個牧場養乳牛,也有變通之道,就是先找台Windows
2000的電腦,以Word、Excel等軟體將您常用的這些罕用字輸入存檔,再將此檔案拿到Wi
ndows 98、NT上用Office 2000開啟後,您可以看到這些字都不失原貌的呈現在您眼前。您只需將所要的字選取、複製後,就可以貼到其他Office
2000的家族中了。甚至您也可以轉成.html檔案放到Web上,只要使用IE5就一樣可以看到它,不會走樣。
這些字可以在其他的文字編輯器如記事本、漢書、UltraEdit中輸入嗎?很抱歉,您並不能用我們上面所說的方法來處理,因為這些軟體無法直接處理這些unicode的字。說到這,我們電子報新聞界的朋友恐怕就徒呼負負,這不是吊人胃口嗎?別忙,還有一個方法,就是輸入這些字的字碼。這個方法比較辛苦些,因為必須知道這些罕用字的字碼為何。
接著就來介紹如何找出這些罕用字的字碼。您可以如上所說,先在Windows
2000的Word中建一個罕用字檔,然後在儲存檔案時在檔案類型中選「Web畫面」,將它存成.html檔案,接著在我的電腦或檔案總管中開啟它,它就會用您內定的瀏覽器如IE來開啟它。
這時您會看到這些 字都好端端的出現在IE(5.0以上)中。要看它們的字碼,可以選「檢視/原始檔」,然後用「搜尋/尋找」,尋找含有「&#」的部分。這就是每個unicode的起始符號,您可以依序對應到每個您所輸入的罕用字,看它的字碼為何,如「?」(煊)、「?」(堃),其字碼全都為半形字。記下這些字的字碼後,以後您在文字編輯器中只要輸入這些字碼,當它存成.html檔而使用IE(5.0以上)來看時,就會自動轉成文字了。要注意的是為了要和其他的字(符號、數字)分開,輸完一字的字碼時,最好以分號「;」結尾,否則可能會造成對應不到字符而混亂的情
形。
結語:漢字基因工程
行文至此,不禁回想起在1979年發明倉頡輸入法,隨之又與宏?公司合作、發明第一部「天龍中文電腦」的朱邦復先生,他在1999年所提的「漢字基因工程」中認為漢字有「字碼、字序、字形、字辨、字音、字義」六大「漢字基因」功能,電腦系統必須讓其認識中文字的基因,才能創造出屬於中國人的電腦。
「電腦中文化」、
或是「中文電腦化」,多年前吾師曾提出這個類似文字遊戲的問題,深究其理,我們可以發現目前的做法多為「中文電腦化」的走向,只想讓電腦能出現中文、處理中文即可,而朱邦復先生則是朝「電腦中文化」的方向努力,他所提出的漢字基因理論的核心就是使「機器」透過概念分類和常識分類達成與人類的溝通和理解,並為人類服務,將這六大功能全部釋放出來的技術及其所形成的系列產品,稱為「漢字基因工程」。他期望藉著漢字基因組成的理解系統讓電腦了解中文字的結構,進而解釋、感觸中文字的含義。近日獲悉朱先生已完成包括內含中文字型
產生器的中文CPU的中文電子書「文昌一號」、「文昌二號」,可說已獲致初步成果,也讓我們精神為之一振,小蝦米最後是否能在大巨人微軟的環伺下脫穎而出,雖有人以IBM的OS2
Wrap的發展歷程來質疑,但還是讓我們衷心期待他的成果吧。
作者服務於中山大學電算中心設計組 電子郵件:sch041@mail.nsysu.edu.tw
個人網頁:http://www2.nsysu.edu.tw/sengch
|
|