漢文佛典電子化--CBETA 2001年採用的技術、標準暨解決方案

本文轉貼自 第四屆 國際佛學會議論文

http://www.chibs.edu.tw/exchange/CONFERENCE/4cicob/ABSTRACT.htm
http://www.chibs.edu.tw/exchange/CONFERENCE/4cicob/fulltext/Aming.htm

 

漢文佛典電子化--

CBETA
2001年採用的技術、標準暨解決方案

 
杜正民

中華佛學研究所

 
目次

前言:簡述CBETA
的成立與成果

二○○一年的進度報告:

CBETA
所發展的技術與採用的標準

CBETA
作業流程與各組功能簡介

輸入組

校對組

研發組:標記作業

研發組:缺字作業

結語:未來發展

二○○二年度作業計畫

 

前言:簡述CBETA
的成立與成果
 

中華電子佛典協會
(Chinese Buddhist Electronic Text
Association, 以下簡稱CBETA),於台灣大學哲學系釋恆清教授的奔波下,自一九九八年二月十五日起承北美「印順導師基金會」及法鼓山「中華佛學研究所」的贊助,在台北市朱崙街36號「慧日講堂」開始《大正新脩大藏經》[1]電子化作業。經CBETA同仁的努力,於當年年底發表《大正藏》第五冊至第十冊網路版與光碟版。
 

進而,於一九九九年十二月十九日假慧日講堂舉行大正藏》第一冊至第三十二冊成果發表會,CBETA經一年多的時間完成漢譯佛典「經、律、論」計三十二冊六千多萬字作業。同年,CBETA
亦完成建立電子資料庫的「標準化」、「國際化」作業規範。
 

二○○○年底,CBETA已大致完成《大正藏》第一冊至第五十五冊暨第八十五冊初稿。其中,僅餘第五十四冊2128經《一切經音義》尚在進行中。這部一百卷的經有其特別的處理難度與困難,如「雙行小字」[2]「缺字[3]等問題,需花費較多的時間處理。[4]
 

CBETA同仁克服種種困難,終於在二○○一年四月二十九日佛誕日(農曆四月初八)前夕,再次假慧日講堂二樓,舉辦「大正藏電子藏經測試搶鮮版」成果發表會,內容包含《大正藏》第一冊至第五十五冊暨第八十五冊全文電子檔。至此,經過三年二個月的辛勤與努力,CBETA終於完成「大正藏普及版」電子化初步作業。並於該年七月發行測試版三千張,供學界及相關單位測試,聽取意見與建議,以便作為年底正式版光碟母片的改進。
 

二○○一年的進度報告: 

如前述,CBETA自一九九八年成立以來,經短短三年多的時間完成「大正藏普及版」電子化初步作業,於二○○一年底完成光碟版母片,並擬自二○○二年起大量發行光碟。因此二○○一年度,CBETA大部分時間皆投入發行普及版的各項作業與訂正,玆將該年每季的工作紀要製表如下:
 

1-3月

 

結束第五十四冊2128經《一切經音義》一百卷的作業,同時進行整合全部電子資料,準備四月份的成果發表。

4月

完成各項準備工作,並發行三百份「搶鮮版」,作為各界與技術人員測試用。

5-6

更正與改良「搶鮮版」的問題,並依計畫進行擬於七月份發行「測試版」的改版作業。同時,進行《卍續藏》電子化的各項測試作業。

7月

依計畫於七月發行「測試版」三千份,供國內外學界及教界測試。

8-11月

 

收集各界的建議,積極進行年底「正式版」母片製作的各項作業與改版等工作。並開始「校勘版」的輸入、校對、標記、缺字處理等作業。

12月

按原定計畫完成「正式版」光碟母片,並依需求先壓製二萬份光碟,供二○○二年首季使用。同時,將最新資料製作完整置於網站上,方便大眾使用。

 

CBETA除了上述各項的準備作業外,同時也於下半年度積極進行「校勘版」的輸入、校對、標記、缺字處理等工作,並計畫於二○○二年底完成所有校勘資料電子檔的輸入及電子化初步作業。更希望能於二○○三年,於北美「印順導師基金會」贊助五週年
(也是CBETA成立五週年)
時,能正式發表「校勘版」作業的初步成果。[5]

CBETA並於二○○一年利用部分時間進行《大正藏》標點版的測試,以便將來有經費時,可以進一步就《大正藏》以現代標點的方式重新標示,期能推廣佛典於當代大眾。
 

除上述《大正藏》作業外,CBETA同時也進行《卍續藏》的基本輸入與測試作業,該測試至二○○一年底告一段落,二○○二年初正式進行《卍續藏》的電子化作業。[6]

 

CBETA 所發展的技術與採用的標準 

雖然,CBETA於短短三年時間完成《大正藏》近億字的輸入、校對與標記等電子化作業,提供正確率高的電子藏經文本,獲得國內外頗多的讚賞!然而,於工作進行當中所遇到的電腦缺字、標記作業及國際標準如TEI,
XML的採用及文件編輯格式的確定等,卻鮮為人知,因此擬借下文介紹CBETA二○○一 所研發的各項技術、採用的標準、電子化作業內容及困難解決方案。 

於介紹CBETA的技術與標準之前,玆先簡介CBETA的作業流程,以便對整體作業有一概念。 

CBETA 作業流程與各組功能簡介

為突破與解決技術與缺字等作業上的困難,CBETA成立初期經多次的討論,訂定CBETA的最後成果將以XML
標記語言呈現,並擬結合良好的界面以表達電子佛典的成果。為達到各工作小組間溝通管道的暢通,CBETA經常舉行「組際會議」,並於會中陸續達成一些共識,譬如確定工作進行的程序與工作流程等。 有關CBETA
的工作流程,圖示如下:
 

資料輸入

缺字與格式整理

檔案比對

看圖校對及查書校正

簡單標記

缺字處理


  

TEI 標記

後續標記處理

電子檔上網

全文檢索等應用

使用者之建議

修正並更新

網路作業

推廣發行
 

CBETA
此作業流程,再分組進行佛典電子化作業。分別由負責掃描辨識或輸入的「輸入組」、經文電腦比對及人工校對的「校對組」、提出前瞻性、國際性及學術性之整體
規劃及進行標記的「研發組」、處理電腦上缺字問題的「缺字組」、技術程式以及網路、單機應用程式開發的「資訊組」、將各組工作近況及成果利用網路呈現的
「網路組」、以及負責成品發行事宜及推廣活動的「發行組」等組,依工作性質分別負責各項業務。玆依上述流程簡述各組及其進行的作業如下:
 

輸入組

  「輸入組」的工作,主要是以掃描及辨識的方式進行,如有必要則負責打字輸入或尋找其他資源,為不浪費資源,CBETA
盡量不用人工鍵入的方式進行輸入工作,如能取得合作單位的認可,則可代為校對,並將所得結果做成校勘表送回原單位,以利雙方作業順利進行。[7]
 

同時,CBETA於成立初期,由於丹青系統的「力新國際公司」研發部副理葉齊平先生的協助,研發出「丹青for
CBETA版」OCR辨識軟體;此軟體純為CBETA的輸入作業而設計,旨在提昇漢文佛典的辨識效率,加強工作速率,及解決《大正藏》特有的問題與困難,譬如雙行小註的辨識等問題。同時也測試在不同掃描點數下的最佳辨識成果等工作。 「丹青for
CBETA」解決許多困難,使得「輸入組」的工作流暢,因而可以在第一年年底前完成《
大正藏》55冊所有掃描工作、轉換辨識文字、提供比對圖檔等業務。
 

校對組  

「輸入組」將所需的資料準備妥當,轉交給「校對組」進行大正藏格式化、
檔案比對、
看圖校對等工作。「校對組」利用二個以上不同版本(如
人工輸入版與OCR版)的電子檔作比對,以提高正確性的比率。電腦比對後的結果檔,傳統是以翻書訂正,但在CBETA資訊組的努力下,開展出一個快速的
「看圖校對程式」(請參照下圖),可以一邊看大正藏掃瞄圖檔,一邊做文字訂正。由於它可以同時開啟一文字視窗及一圖形視窗,並且在文字視窗中快速移動到比
對差異處,然後在圖形視窗中秀出相對應的圖形位置,再由校對人員選擇或載入正確的資訊,使作業可以順暢進行外,對正確率與速率的提昇也有很大的助益。
 

image

 
 

除了精確與嚴謹的校對是CBETA最基本的要求外,如何保持原來版本的格式也是一重要的考量。所謂電子化,並非只是把書面資料用電腦輸入就稱為電子化,為了合乎電子化的特點還需考慮到標記(Markup)的處理,及採取TEIText
Encoding Initiative 國際文獻編碼協定,
以下簡稱TEI)準則,並以XML的呈現等作法。因此,「校對組」於校對工作完成後,即開始簡單標記作業,以便將《大正藏》版本格式完整保存及呈現。同時,「校對組」也將電腦缺字整理成組字式之後,將電子檔轉交給「研發組」。 

研發組

CBETA「研發組」的工作內容可分為兩部份,一為研發資訊軟體的部份,另一為專門處理文獻資料的部份。關於研發資訊軟體的工作,為研發與修編各種必需程式,及維護與更新各項電子資料。文獻處理的工作項目,又可分為缺字處理、TEI
標記處理、XML檔處理、錯誤訂正及各種版本轉檔處理(RTF,
HtmlHelp, Normal ,
App 版及XML原始檔等)。總之,「研發組」除繼續進行「輸入組」與「校對組」轉交過來所處理好的經文素材文獻處理外,配合這些工作的資訊軟體工作人員,也要負責開發各種需要的作業軟體,及撰述光碟的Setup程式、多版本轉檔程式、同時也負責各種版本的比對及HtmlHelp版目錄的校對等工作。以上各項工作所需的人力與時間頗多,工作也很繁複。 

此外,「研發組」也同時進行悉曇字的輸入與處理,此部份的完成為學界的一大突破,因為至目前為止,國際間尚無大量悉曇字資料庫的製作。 

簡言之,就CBETA「研發組」的業務而言,除了承續「校對組」的作業外,並著力於TEI標記、缺字處理及校勘、悉曇字、梵文字(羅馬拼音)、日文字的轉碼與呈現等工作項目。 

研發組:標記作業

CBETA
佛典電子化的主要目的之一,就是利用資訊科技的易於保存、複製、傳播、編輯及再製等電子媒體的便利性來製作電子佛典。因而從紙本到電子檔的這個過程中,若
要保存紙本中的資訊,如《大正藏》的編排格式,經名、譯者、作者、品名、偈頌、附文、校勘等資料,則必須在電子檔裏用「標記」的方式記錄《大正藏》中的各種資訊。 

因此,CBETA「研發組」從一開始即採用TEI/XML做電子佛典標記與格式。XML的一大優點就是它可以自訂標籤(Tag),可以按照特殊需求訂定新的標籤。有了共同的標記語言XML,就可以用同樣的標記語言、標記格式來定義各自不同的標籤名稱。為了達到資源共享的交換目的,TEI
(Text Encoding Initiative)協會,整理出一套標籤集
(Tag Set),以利電子文獻的分享與交流。 

TEI標籤集裏有許多屬於各種文獻所共有的標記,可以與電子佛典共用。因此,CBETA標記進行的方式,原則上參照與採取TEI已有定義的規範。如有不適宜者,會對所採用的TEI屬性 (Attributes) 修改後使用。如遇TEI
規則所無者,如漢籍或佛經特有的「經」、「卷」、「品」與「會」等問題則自訂新標籤,然後報給TEI
協會參照或修訂。 

至於CBETATEI工作流程,為工作進行方便,大致分為「校對組」的簡單標記與「研發組」的TEI
標記兩部分進行:

所謂「簡單標記」,也就是在正式進入XML標記之前,由「校對組」提供「簡單標記版」的經文電子檔(如於行首資訊加上經號(N)、卷名(J)、作者行(A)、段落(P)等基本標記)給「研發組」作為TEI標記作業的基礎。而「研發組」的TEI
標記,則是使用轉檔程式,將「簡單標記版」轉為「XML版」然後經過詳細的檢驗比對與檢查。再以此作為基礎XML經文檔,以便最終的成果輸出 

也就是,依此XML經文檔,以轉檔程式產生各種不同格式的經文檔,滿足使用者不同的需求。例如產生NormalApp兩種純文字版及產生HTML
HelpRTF版提供良好的編排功能。 

CBETA現階段的工作重點在於電子佛典的基礎建立,目前對電子佛典所做的標記還是相當有限。希望未來能進一步運用這些標記,提供大眾方便使用的功能與工具。 

研發組:缺字作業 

 除了技術的突破及標記作業外,電腦缺字處理也是「研發組」另一重要課題,CBETA為解決缺字的問題,因而於該組成立「缺字作業小組」以求突破電腦缺字的困難。雖然國際間試圖解決缺字的方法有很多種,然而CBETA關於缺字處理的初步工作,則著重於現有的「形、音、義」及「通用字」的資料查詢及整理等工作。CBETA於「普及版」使用「一般組字式」作為表達佛典缺字的方法,則是考量讓使用者能在純文字環境下閱讀,不需另外安裝造字檔或是圖檔而設計的,因而採用系統字(Big-5)的組字方式,作為「普及版」佛典缺字的表達方法。這種方式除了提供了閱覽、散播上的便利性外,也不會佔用使用者對造字檔自行運用的空間。此外,CBETA「普及版」中大部份的缺字是以通用字來取代,少部份沒有適當通用字的缺字亦附有圖檔,以補「組字式」之不足。 

當然,不同的缺字表達方法各有其利弊,因此CBETA建立一缺字資料庫,來達成不同缺字格式的轉換,在光碟中HTMLHelp版本的缺字處理,便同時利用了組字式和圖檔來表示。
CBETA沒有使用造字檔來表達缺字,而是利用系統字以
組字式來表達,誠如上述,主要是為顧及普遍性和方便性。雖然,使用造字檔也曾是我們考量的方法之一,但目前則是以方便使用者操作的方式來呈現;譬如,使用
者要複製經文到一般的文書處理程式上進行編緝時,可以不需先安裝造字檔就能直接複製,如此對一般使用者的操作較為方便,且在文件的散播、流通上也較方便。
 

      進而,在CBETAXML表達的主要檔案(Source
File) 中,則以「今昔文字鏡」的「M碼」處理缺字的表達。[8]
CBETA 採用「M碼」表示缺字的原因,一則利於國際化的使用,二則目前「M碼」已具有十萬多字的缺字資料,是國際間較完整的字集,三者利用「M碼」方便我們建立缺字的轉換資料庫。目前CBETA的缺字表達,有些缺字圖檔先取自日本「今昔文字鏡」的字型,除上述所說的其為目前最大的漢字庫等因素外,且於網路上提供免費字型讓使用者下載,不增加使用者的額外負擔。而該中心亦根據CBETA缺字資料庫與其字集比對,隨時補充其尚未造的佛典缺字。重要的是,使用者可依CBETA建立的缺字資料庫,自行轉換成其他的缺字表達方式,甚或轉為將來擬採用的Unicode碼。 

CBETA發展至此,於缺字的處理也較為成熟,茲就CBETA「校對組」與「研發組」的缺字處理流程作一簡介:

「校對組」先就所收集的缺字個別編號,成為CB碼(如CB3235)。每一組CB碼對應一個缺字、一組「組字式」。CBETA缺字的「組字式」,用加減乘除等十個符號來表示。把字加以增減組合,來敘述某個字的樣子,如[-+][-+][9]

「研發組」取得「校對組」所提供的缺字資料後,作以下三個部分的處理。(1)加入「Gaiji缺字表」[10](2)查詢「今昔文字鏡」的字碼(Mojikyo,簡稱M碼)、Unicode碼、通用字、注音,並註明出處,(3)編定缺字的部首、筆畫以及四角號碼。簡言之,CBETA
的缺字處理分為編撰CB碼、組字式、「今昔文字鏡」M碼、通用字及Unicode幾部分。       
  

總之,「研發組」依序進行缺字處理、架構標記、學術研究、發行研發等工作,並完成TEI/XML作業流程,做成主要檔案。在整個作業的過程中,如遇任何軟硬體的需求則為「資訊組」的責任,負責研發或取得所需的工具,並由「網路組」將之準備上網,上網同時則由「發行組」籌劃出版光碟及推廣的作業。CBETA工作能順利進行,乃是各組分工與合作的最佳實證。 

在整個的作業過程中,校對與研發是佛典電子化最耗時的部份,如何能快速又精確地達到要求,並且能研發出符合普及與學術的要求,一直是CBETA的重要課題。撰寫此文的主要目的也是希望學者專家能就上述「作業流程」與「分組作業」提出改進的方案,期能製作出更精良的漢文電子佛典服務大眾。 

結語:未來發展: 

依前述分組作業,CBETA已經完成普及版的作業,目前正採取同樣的作業流程進行《大正藏》校勘條目的輸入與電子化作業。 

校勘電子化作業是CBETA
版本的特色之一。為能讓工作順利進行,CBETA
採兩階段的工作方式:首先完成高正確率、高品質的「普及版」;接著,擬進行含校勘條目的「校勘版」--
本版將以國際性及學術性作為主要的訴求,亦即完成以XML標記TEI國際文獻編碼標準、以Unicode國際碼表達的「電子佛典」。總之,「標準化」與「國際化」,是CBETA下一階段的發展目標。也就是除了推廣國際間的使用外,並將加強英文化的作業,如藏經英譯資料的電子化作業等。 

其他,如提高CBETA數位化佛典製作技術,如何讓讀者方便使用等提出諸多改進的方法、解決在不同的平台如何使用這些資料、如何讓數位資料轉化為彼此相通的碼等國際間經文的交流問題,也是CBETA
目前進行的解決方案。 

至於功能方面,當可因為CBETA電子版底稿的準備翔實,因應時代的發展提供更好的功能,譬如檢索功能的提昇等。此外,並設計及考量以
XML, Unicode 發行RTF檔。採用此種方式,不但可以提供很好的Word使用界面,且能供讀者友善及方便使用的電子經文。 

進而,為推展CBETA電子經文的發行、及與使用者的溝通,CBETA並著重於業務的持續推廣,如每月固定出版電子刊物,將相關資訊與大眾分享,並與使用者多溝通,以收集使用者建議,進而持續匯整使用者的回饋,以供CBETA
仁作業參考。同時,針對「簡易瀏覽器」進行初步的設計,對將發行的經文做更改,以利使用者的運用。並完成「佛學辭典」上網供大眾利用。同時也舉辦推廣活
動,將所得到之回饋進行檢討與改善,借之發展友善型界面及相關程式。同時,建立網路上「義工專用留言版」,公開招募義工;以及推廣電子佛典光碟至各佛學院
所、佛學社團及相關佛學團體等工作。
 

同時,為了讓佛典電子化的工作能永續經營,培養新生代參與佛典電子化的作業,也是CBETA的重點工作之一。因此,除了CBETA的工作群外,「研發組」亦延聘多位佛學研究所學生擔任「研究助理」,參與佛典電子檔的校勘與標記(Markup)工作。如此,不但能增進學生的佛學與電腦知識,亦期能藉此培訓俱佛學學識與電腦技能的新一代學者,以因應新世紀的需求。 

二○○二年度作業計畫:

CBETA辦公室於二○○一年底搬遷至北投「中華佛教文化館」四樓
(「中華佛學研究所」舊址),此地原為東初長老法師倡印《中華大藏經》的發源地。如今CBETA遷移至此,並繼續電子佛典的事業,自有其歷史意義。CBETA於
二○○二年元月起將於此地開始佛典電子化事業的另一里程碑。

二○○一年這一階段作業的完成,意味著另一階段工作的開始。因此,謹於下文簡單介紹CBETA今後擬進行的作業,最為結語。CBETA擬承續二○○一年度計畫,繼續執行下列項目: 

1. 發行與推廣普及版

CBETA
於二○○一年底參照與收集專家學者對測試版光碟的建議,進行研究與改
良後製作正式版光碟母片。自二○○二年元月起擬大量發行與推廣,郵寄至各地佛學研究院所、世界主要圖書館、學校、研究機構及佛學學者之外,亦將廣為推廣至
所有需要藏經的信眾手中。第一季擬發行兩萬張光碟,同時也將發行網路版,方便讀者閱讀、檢索與下載等。
 

2. 完成校勘版電子文獻

不同於普及版作業的就經文本身進行電子化作業,「校勘版」是依學界重視的《大正藏》校勘欄進行電子化作業。因此,CBETA擬於二○○二年底完成校勘欄的電子化初期作業,期能盡速提供學界完整的校勘資訊。並將藉XML經文檔,呈現各種不同年代的經文版本,譬如宋版、元版、明版或高麗藏等版本的再現。 

3. 繼續進行新式標點測試版

  
同時,CBETA也深知藏經欲普及,首要有新式標點。因此,將繼續進行藏經新式標點的測試作業。由於此項工程龐大,因此將挑選較普及的幾本經文進行測試,以提供容易閱讀的新式標點經文。 

4. 正式進行《卍續藏》電子化作業

CBETA自二○○二年元月起,將正式進行以中國祖師論著為主的《卍續藏》電子化作業。首期作業,將以《大正藏》較缺的禪宗部為主。目前已開始進行禪師論著部分的OCR測試、校對作業測試,及輸入等相關事宜的作業與規畫。[11]
 

5. 標準化與開放的空間

由於CBETA 一直是以國際文獻編碼協定
(Text Encoding Initiative, TEI) 的規範進行標記作業,並以XML
經文檔作為唯一的原始檔管理,可因應不同需求產出不同的經文格式。

同時,CBETA 目前採用CVS
(Concurrent Versions System) 的版本管理軟體,可同時多人編輯,並有完整的修訂歷史記錄,CVS除幫助CBETA經文品質的提昇外,將來也擬考慮開放給相關各界對經文進行更新,期能共同維持與修訂經文。 

6. 與國際其他佛學資料庫整合

CBETA 資料庫除了可單獨作漢文經文的閱讀與檢索之外,如能與國際間其他藏經資料庫合作,當能發揮更大的作用。譬如與韓國高麗大藏經研究所的韓國高麗藏圖文連接,以查對原文,或與日本SAT[12]正在製作的第五十六冊至八十四冊的日本撰述部的電子檔作連結,以合成完整的電子《大正藏》。進而更希望將來能與梵文、藏文、巴利文等藏經資料庫連結,以比對不同的佛典語言文獻資料。目前正規劃阿含部與巴利藏經的合作事項。 

7. CBETA 電子版藏經英譯版本電子化作業

為讓國際人士瞭解與使用大藏經,CBETA
擬進行現有的英譯(含歐語)藏經的電子化作業,目前已完成初步的資料收集。並製作成完整的英譯藏經目錄置於網上。相信本計畫的進行對藏經與佛法的國際化,會有相當的助益。 

這新的一年不但是CBETA
的收割期,同時也是CBETA
的轉型期,希望在大眾的關心與指導下,我們能更穩定、更成熟的往前走。以期能開創一個普及化與學術性兼容,且具標準化的國際性佛典資料庫。

 

 

 


[1]
CBETA 電子佛典是以《大正新脩大藏經》
(以下簡稱大正藏》) 第一卷至第八十五卷為底本,CBETA並正式取得該底本版權者「大藏出版株式會社」輸入與公開之授權。

[2]
經文原含的古文註解,多以「雙行小字」的方式呈現,因其為小字省空間,每註都有折行。而本經的雙行小字折行的問題特別多,因此需要利用行首資訊檢查程式,列出每欄不是24行的清單,然後以人工逐欄清點,相當耗時。

[3] 電腦所無的中文字,一般統稱為「缺字」。至今,CBETA累積的缺字共有13133個,這當中有5403個是從
2128經。由於這是一部細說佛家難字難詞的煌煌巨著,因此不但各種特殊詞字多,且常有印刷模糊的怪字,可知本經處理上的難度。

[4]
有關CBETA從成立至2000年的資料,請參照杜正民,〈
漢文佛典電子化記事--19982000CBETA的活動與成果〉,《佛教圖書館館訊》,第24期(專題「電子佛典製作:中華電子佛典協會」),200012 http://www.gaya.org.tw/journal/m24/24-main7.htm

[5]
所謂初步成果是因為,校勘的工作牽涉範圍頗大,無法於短短一年多的時間完成,因此CBETA擬分幾期進行校勘作業。初期工作先擬先以《大正藏》為底本進行輸入與電子化的作業。

[6]
感謝聖嚴法師及新加坡吳居士夫婦等人,促成《卍續藏》計畫的順利進行。

[7]
CBETA並於各版本的經文資料中,均附有經文相關資訊,除記載原始資料來源,提供使用者參考外,亦期望此經文資訊與經文提供者名稱,能隨經文電子檔一併流通。

[8]
所謂「M碼」就是以M開頭後面接著一串數字的缺字表示法,M是「今昔文字鏡」Mojikyo的簡稱,為國際上廣為採用的字表達法之一。譬如CBETAM00763代表[-+],通用字為「倏」的這個電腦缺字。

[9]
CBETA組字用字等資料,請上網(http://ccbs.ntu.edu.tw/cbeta)查閱「一般組合字字典部首」、「一般組合字常用部件」等缺字規範資料。

[10]
Gaiji缺字表,包括:CB(cb)M(mojikyo)、Unicodeuni)、組字式(des)、通用字(nor)、註記(note)、部首(rad)、筆畫(str)、字音(zhu)、四角號碼(fc),以及缺字圖檔。

[11] 其實,CBETA為能永續經營從2000年下半年度起,即開始《卍續藏》的測試工作,目前完成的有目錄輸入作業,以及部分圖檔掃瞄與經文的OCR辨識。由於此部分的作業處理問題不同於《大正藏》,因此事先的測試與評估是很重要的,目前也正進行OCR原件改良工作,期能有一較完整的作業軟體以利計畫進行。

[12]
SATSAmganikikrtam
Taisotripitakam, SAT)是由日本全國各大學組成的佛典輸入團體,目前正建立「大正新修大藏經原典資料庫」(http://www.l.u-tokyo.ac.jp/~sat/big-5/index.html)。

重要度:
文章分類:
電腦標籤:

發表新回應

借我放一下廣告