2014-12-17
中華字庫收錄56個(gè)民族80多種文字
信息內(nèi)容
中華字庫收錄56個(gè)民族80多種文字
發(fā)布時(shí)間:2012-12-12 來源:人民日?qǐng)?bào) 瀏覽: 2102 1379 作者:人民日?qǐng)?bào)
圖為中華字庫資料來源:《甲骨文合集》6057正,河南安陽殷墟出土,最早著錄于羅振玉《殷虛書契菁華》 (1914)(上圖);郭店楚簡(jiǎn)《老子》甲本第一簡(jiǎn)。1993年出土于湖北荊門郭店一號(hào)楚墓(下圖)。
對(duì)很多普通讀者來說,“中華字庫”還是一個(gè)陌生的名字,但在業(yè)界與學(xué)界,它的啟動(dòng)卻吸引了眾多關(guān)注。借用新聞出版總署副署長(zhǎng)孫壽山的話說,這是引領(lǐng)中華文化步入信息化、數(shù)字化時(shí)代,提高中國(guó)文化軟實(shí)力的一項(xiàng)重要舉措。這樣一個(gè)使命重大的“字庫”,究竟有著怎樣的玄機(jī)?近日,我走訪了新聞出版總署中華字庫總體組專職副組長(zhǎng)張力偉,他為我們揭開了神秘面紗,我們一起走進(jìn)“中華字庫”的大世界。
收集字符,“文理”結(jié)合
為滿足文字及其他書面符號(hào)在計(jì)算機(jī)上的表示、傳輸、存儲(chǔ)等種種要求,需要對(duì)文字和符號(hào)予以編碼,并用符號(hào)的位序?qū)⑺鼈兘M織為一個(gè)字符集。這一編碼字符集,俗稱“字庫”。簡(jiǎn)單地說,“中華字庫”就是一個(gè)收納了中國(guó)古今的漢字及少數(shù)民族文字形體的龐大編碼字符集。對(duì)于這項(xiàng)國(guó)家重大工程,《國(guó)家“十一五”時(shí)期文化發(fā)展規(guī)劃綱要》作了如下表述:“中華字庫”工程是要“建立全部漢字及少數(shù)民族文字的編碼和主要字體字符庫。重點(diǎn)研發(fā)漢字的編碼體系、輸入、輸出、存儲(chǔ)、傳輸以及兼容等關(guān)鍵技術(shù)?!?/span>
這一簡(jiǎn)潔表述的背后,其實(shí)包含了很多復(fù)雜的內(nèi)容。張力偉說,這項(xiàng)工程不是只簡(jiǎn)單地收集文字進(jìn)行編碼整理。一方面,我們要從數(shù)千年流傳下來的文字載體中,盡可能全面地搜集匯聚古今各種文字形體,在所出現(xiàn)過的實(shí)際文本原形圖像的基礎(chǔ)上,確定歷史演變,整理字際關(guān)系等等,對(duì)學(xué)術(shù)質(zhì)量的要求很高。為此,工程聘請(qǐng)中國(guó)文字學(xué)會(huì)第一任會(huì)長(zhǎng),在文字學(xué)界極具威信的裘錫圭教授擔(dān)任首席專家,會(huì)同文字學(xué)界的許多專家參與研發(fā);另一方面,這么龐大的整理工作,若像傳統(tǒng)的那樣人工搜集、抄錄,將不可避免地存在人為錯(cuò)誤多、記錄信息量少等問題。“中華字庫”工程將以現(xiàn)代信息技術(shù)作支撐,通過有效的人機(jī)結(jié)合,讓計(jì)算機(jī)巨大的存儲(chǔ)能力和便捷的檢索類聚能力為文字專家的專業(yè)研究服務(wù),利用機(jī)器來放大和倍增專家的工作效力。工程決定由中國(guó)科學(xué)院軟件研究所等軟件研究的精銳部隊(duì)來承擔(dān)工程的技術(shù)研發(fā),為工程的開展提供技術(shù)支撐。
由此看來,“中華字庫”不僅關(guān)乎學(xué)術(shù),還關(guān)乎技術(shù),“文理”結(jié)合十分緊密。這項(xiàng)工程是在對(duì)文字學(xué)深入研究的基礎(chǔ)上,研究各種文字收集、篩選、整理、對(duì)比和認(rèn)同的方法與原則;充分利用先進(jìn)的數(shù)字化技術(shù),開發(fā)相應(yīng)的軟件工具,在統(tǒng)一的數(shù)字化平臺(tái)上,建立人—機(jī)結(jié)合的文字收集、整理、篩選、比對(duì)和認(rèn)同的操作與管理流程。中華字庫工程不僅會(huì)全面收集整理全部漢字、建立漢字的主要字體字符庫,還會(huì)盡可能全面地收集整理少數(shù)民族文字并為其建立主要字體字符庫;不僅要提交古今漢字及少數(shù)民族文字的國(guó)家編碼、國(guó)際編碼標(biāo)準(zhǔn)提案,還要為中華字庫在不同領(lǐng)域的應(yīng)用提供支撐工具與環(huán)境、實(shí)現(xiàn)中華字庫在互聯(lián)網(wǎng)的在線發(fā)布,并且建成面向用戶的動(dòng)態(tài)補(bǔ)字系統(tǒng)。在數(shù)字化服務(wù)方面,可謂是一應(yīng)俱全。
已有整理,難應(yīng)所需
也許你會(huì)說:全面整理文字,有必要么?咱們不是有《漢語大字典》了么?其實(shí)不然。據(jù)了解,1985年開始分卷定稿的《漢語大字典》共收列楷書漢字6萬左右,已可以算是中國(guó)漢字的一次全面梳理,亦是當(dāng)時(shí)條件下最優(yōu)秀的漢字科研成果。然而,對(duì)于我國(guó)浩瀚的文獻(xiàn)檔案中的實(shí)際用字,對(duì)于不同時(shí)代不同地域社會(huì)生活中的實(shí)際用字,當(dāng)時(shí)還不具備全面調(diào)查的手段和條件;而且該書以楷書文字為主,至于甲骨文、金文、小篆和隸書等古文字形體,并未全面整理,只在楷書單字條目下收錄了有代表性的一部分,用以反映形體演變關(guān)系。除了漢字,我國(guó)還有許多少數(shù)民族文字,包括不少海外收藏的少數(shù)民族古文獻(xiàn)文字,沒有被整理出來。研發(fā)成功后的中華字庫,不僅將包括針對(duì)社會(huì)應(yīng)用的實(shí)用楷書字表,也將形成楷書總字表,還將有一個(gè)包含古文字的整體的漢字字表,到了最后階段,少數(shù)民族文字也將被整合進(jìn)來,最終形成一個(gè)完整有序的,有著內(nèi)在聯(lián)系的大型“中華字庫”文字資源庫。
與之前已有的文字整理工作相比,“中華字庫”的優(yōu)勢(shì)還在于,其文字整理將面向出版及網(wǎng)絡(luò)數(shù)字化需求。也許有人會(huì)問,咱們的電腦不是已經(jīng)能方便地輸入漢字了么?是,可能你覺得夠用了,可是像派出所負(fù)責(zé)戶籍管理的警察或者街道辦事處負(fù)責(zé)人口普查的同志等肯定會(huì)給出不一樣的回答。目前,我國(guó)的數(shù)字化建設(shè)正遭遇瓶頸。小到自然資源、地名、人口等清理普查,大至國(guó)家的經(jīng)濟(jì)、地理空間等戰(zhàn)略性、基礎(chǔ)性的信息庫建設(shè),還有公安、民政、金融、保險(xiǎn)、海關(guān)、民航等行業(yè)的信息服務(wù)與監(jiān)管存在很大的用字缺口。我國(guó)文字種類繁多且字量龐大,特別是漢字,內(nèi)部關(guān)系又異常復(fù)雜,現(xiàn)有的計(jì)算機(jī)字庫,無論是國(guó)家標(biāo)準(zhǔn)還是國(guó)際標(biāo)準(zhǔn),都存在收字不全、字際關(guān)系不清等問題。少數(shù)民族文字缺口更大,除幾種主要少數(shù)民族的文字外,許多甚至還沒有編碼。這些問題都嚴(yán)重影響了國(guó)家數(shù)字化建設(shè)的方方面面,也在直接或間接地影響著人們的生活。建設(shè)“中華字庫”工程,就是要徹底解決這一瓶頸問題,全面推動(dòng)我國(guó)的數(shù)字化建設(shè)。
任務(wù)重大,遠(yuǎn)景誘人
據(jù)了解,與“中華字庫”類似的工作,世界各國(guó)都在做。歐美一些國(guó)家甚至把當(dāng)?shù)氐耐林淖帧⒐糯硪馕淖值纫恍O為罕用甚至早已死亡的文字,都加入了國(guó)際編碼,使本國(guó)本民族的歷史文化得以在網(wǎng)絡(luò)上流傳,從而展示出國(guó)家的文化實(shí)力。
我國(guó)的古漢字與現(xiàn)代文字一脈相承,加上有大量出土文物支撐,整合現(xiàn)有的研究成果,進(jìn)行編碼、制作字庫,就更顯得有必要了。包括古老的漢字及其他少數(shù)民族文字在內(nèi)的中華文字,是中華文化的傳承“雙手”。我國(guó)歷代的盛世,都曾對(duì)各民族的古今文字進(jìn)行過廣泛的搜集與整理,以更好地傳承各種文獻(xiàn)。現(xiàn)在,隨著中國(guó)在國(guó)際上的影響力越來越大,中華文化走向世界已成為潮流。在當(dāng)今世界數(shù)字化、信息化的發(fā)展大趨勢(shì)下,未來人們的生活會(huì)越來越多地與數(shù)字化相融。中國(guó)文化要“傳下來”、“走出去”,當(dāng)然要依靠數(shù)字技術(shù)和網(wǎng)絡(luò)平臺(tái)才行。我們還要將古代的、現(xiàn)代的各種圖書文獻(xiàn)逐步數(shù)字化,使中華文明得以永久保存,并且廣泛傳播,這也是歷史和現(xiàn)實(shí)的一項(xiàng)非常急迫的重大任務(wù)。
“中華字庫”工程的設(shè)想,就是新聞出版總署在這樣的背景下,于2006年提出來的。國(guó)家對(duì)這個(gè)項(xiàng)目非常重視,先后將其列入《國(guó)家“十一五”時(shí)期文化發(fā)展規(guī)劃綱要》和國(guó)家《文化產(chǎn)業(yè)振興規(guī)劃》。工程由新聞出版總署重大科技工程項(xiàng)目領(lǐng)導(dǎo)小組辦公室負(fù)責(zé)總指導(dǎo),以中國(guó)出版集團(tuán)公司為牽頭單位,成立了工程總體組,負(fù)責(zé)工程建設(shè)的整體管理和組織實(shí)施。除首席專家裘錫圭教授之外,總體組還從各參與單位抽調(diào),或聘請(qǐng)總體組單位外的技術(shù)專家、管理專家等,組建起項(xiàng)目的技術(shù)團(tuán)隊(duì),以承擔(dān)總體組的各項(xiàng)工作。經(jīng)過幾年的精心籌備,工程目前已正式進(jìn)入實(shí)質(zhì)性研發(fā)階段,計(jì)劃五年完成。
審定過“中華字庫”研發(fā)方案的專家說,工程是比秦始皇統(tǒng)一漢字規(guī)模更大的中華文字整理工程,必將對(duì)中國(guó)乃至世界文明的歷史產(chǎn)生重大而深遠(yuǎn)的影響。
授權(quán)專線0571-28800232(售前熱線) |
在線授權(quán)在線授權(quán)法律聲明 服務(wù)與支持 |
字體安裝字體格式字體安裝 常見問題 |
關(guān)于我們關(guān)于我們聯(lián)系我們 商務(wù)合作 |
關(guān)注我們新浪微博官方微信 ![]() |
TEL: 400-803-0018 0571-28800235 28800232 侵權(quán)舉報(bào)/合作E-mail : yegy1977(at)qq.com
Copyright ? 2007-2025 杭州賢書閣文化創(chuàng)意有限公司,All Rights Reserved.
備案號(hào):浙ICP備14029513號(hào)-4 / 公安備案:33010502001632 Process: 0.01230