heavenchou - 週六, 2006/03/04 - 01:57
本文轉貼自 中央研究院 計算中心通訊
第 15 卷 13 期 出版日期: 88 年 06 月 21 日
http://www.ascc.sinica.edu.tw/nl/88/1513/03.txt
《人文計算服務》 以CBETA為例 談大量文獻之建立——漢文藏經電子化作業簡說 中華電子佛典協會 杜正民 中華電子佛典協會簡介  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 「中華電子佛典協會(CBETA)」自1998年2月15日成立以來,此 次的EBTI會議可說是首次對國外團體發表其作業內容與成果,會中 獲得頗多的回饋與迴響。因此,謹藉此文就「中華電子佛典協會」 一年來,製作漢文電子佛典的作業流程、程式開發、缺字處理、看 圖校對、標記訂定及解決困難等項目,就教於專家學者。並且,就 新近發行的成果內容做一簡介,如電子檔的分類、採用SGML檔案的 方法、以及未來展望等相關資訊,與關心佛典電子化的先進分享, 期能因此獲得更多的指正與協助。 首先,簡單說明CBETA的工作目標與宗旨,CBETA是以學術界通行 的《大正新脩大藏經》為底本,初期以完成第1-55冊及第85冊藏經 電子化為標的。因此,CBETA與日本「大藏出版株式會社」,經雙方 進行多次的交流與修改契約書之後,於1998年9月30日正式完成簽約 。契約中,「大藏出版株式會社」除授與CBETA使用《大正新脩大藏 經》的權限外,並同意CBETA發行《大正藏》電子版的網路版與光碟 版等權益(註一)。 依此目標達成的成果,就如CBETA的網頁聲明,是「免費提供電子 佛典資料庫,以供各界作非營利性使用」,則為CBETA的主要宗旨。 有關CBETA的作業流程簡述如下: CBETA的工作小組分為「輸入組」、「校對組」、「缺字組」、「 資訊組」、「網路組」及「研發組」等。依小組功能,CBETA的作業 程序則為:由「輸入組」準備先行工作及提供所需的素材,交由「 校對組」進行資料比對等作業,「缺字組」發展缺字表達方式,「 資訊組」提供必須的運作程式,「研發組」提供作業方針,最後則 由「網路組」將成果與相關資料呈現於網頁上。有關CBETA的工作流 程,試以圖一之流程圖表示之: CBETA作業流程說明  ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ 今依上述流程圖,簡說CBETA的作業情形,藉以瞭解漢文佛典的製 作狀況。茲將CBETA作業進行的方法與步驟簡述如下: 資料輸入  ̄ ̄ ̄ ̄ 「輸入組」的工作,主要是以掃描及辨識的方式進行,如有必要 則負責打字輸入或尋找其他資源,為不浪費資源,CBETA盡量不用人 工鍵入的方式進行輸入工作,如能取得合作單位的認可,則可代為 校對,並將所得結果做成校勘表送回原單位,以利雙方作業順利進 行(註二)。 在工作過程中,由於丹青系統的「力新國際公司」研發部幾個月 來的協助,終於研發出「丹青for CBETA版」的丹青OCR辨識軟體; 此軟體純為CBETA的輸入作業而設計,旨在提昇漢文佛典的辨識效率 ,以加強工作速率,及解決《大正藏》特有的雙行小註的辨識等問 題。 由於「力新國際公司」的鼎力支持,替CBETA的輸入工作解決很多 困難,因而可以在第一年年底前完成《大正藏》55冊所有掃描工作 、轉換辨識文字、提供比對圖檔等業務。 缺字處理  ̄ ̄ ̄ ̄ CBETA為解決缺字的問題,因而成立「缺字組」以求突破電腦缺字 的困難。CBETA缺字的工作可分為幾個步驟:初步工作,以著重於現 有缺字的「形、音、義」及「通用字」的資料查詢及整理等工作。 呈現方面則又可分為「普及版」與「學術版」兩方面,本段先就「 普及版」簡介之,CBETA為考量讓使用者能在純文字環境下閱讀,不 需另外安裝造字檔或是圖檔,因而採用系統字(Big-5)的組字方式 ,亦即「一般組字式」(註三),作為「普及版」佛典缺字的表達 方法。這種方式除了可以提供閱覽、散播上的便利性外,也不會佔 用使用者對造字檔自行運用的空間等特性。此外,CBETA「普及版」 中大部份的缺字是以通用字來取代,少部份沒有適當通用字的缺字 亦附有圖檔,以補「組字式」之不足。 當然,不同的缺字表達方法各有其利弊,因此CBETA建立一缺字資 料庫,來達成不同缺字格式的轉換,因此在光碟中HTMLHelp版本的 缺字處理,便同時利用了組字式和圖檔來表示。 同時,在CBETA「學術版」以SGML/XML(Standard Generalized Markup Language/Extensible Markup Language)表達的主要檔案 (Source File)中,則以「M碼」(註四)處理缺字的表達。CBETA 採用「M碼」表示缺字的原因,一則利於國際化的使用,二則目前「 M碼」已具有八萬多字的缺字資料,是國際間較完整的一個字集,三 者利用「M碼」方便我們建立一個缺字的轉換資料庫。雖然國際間試 圖解決缺字的方法有很多種,其他的缺字表達方式亦曾是我們考慮 使用的,然而目前CBETA主要檔案(Source File)中的缺字表達, 有些缺字圖檔是取自日本「今昔文字鏡」(註五)的字型,原因如 上述:因其乃當今國際上最大的漢字庫;且網路上提供免費字型讓 使用者下載,不增加使用者的額外負擔;而該中心亦根據CBETA缺字 資料庫與其字集比對,如有欠缺,則隨時補充其尚未造的佛典缺字 。且使用者依CBETA建立的缺字資料庫,亦可以自行轉換成其他的缺 字表達方式,甚或轉至將來擬採用的Unicode碼(註六)。 格式整理  ̄ ̄ ̄ ̄ 因為CBETA擬以SGML/XML(Standard Generalized Markup Language / Extensible Markup Language)標記語言作業,並期能 結合良好的界面以表達結果。依此目標,CBETA先制定規範,如版本 格式、電腦缺字表達、組字式規範、通用字規範、電子佛典呈現方 式,及大正藏內文格式與校勘輸入格式等重要的課題。 「校對組」依此規範,進行缺字處理、大正藏格式化、檔案比對 、看圖校對等工作,做完基本校對之後,即將檔案交給「研發組」 以進行後續的缺字處理、架構標記、學術研究、發行研發等工作, 並完成SGML/XML作業流程,做成主要檔案(Master file)。 因此,「校對組」的首要工作,就是在經文產生之後,依大正藏 格式加上必要的資料。通常是在每一行之前留上 <冊數> <經號> < 頁碼> <欄> <行> 等資料。因為,這些資料在需要查對原書時,能 夠讓很快的找到出處,且對於後序的作業提供很大的方便。因而針 對此需求,以程式進行格式化的動作。其結果如表一。 檔案比對  ̄ ̄ ̄ ̄ 漢文佛典電子化的作業流程中,「經文校對」通常是最耗時的一 個環節。然而,經由中研院提供檔案比對的技巧與概念,改良成能 處理相異格式的「佛教經文比對程式」。利用這程式來比對二分以 上的文件,可以很輕鬆的找出文件之間的差異處(請參照表二), 再利用一些工具,就可以迅速的協助工作者利用這個差異表,修改 出一份極低錯率的資料。 根據表三的比對後結果,就可以很快發現可能有問題的差異。只 要利用這個結果,再運用其它相關程式,如下文的「看圖校對程式 」,即可快速的修正差異處,以完成一份高品質的經文檔。 看圖校對  ̄ ̄ ̄ ̄ 在電腦比對之後,針對結果檔,傳統是以翻書訂正,但在CBETA「 資訊組」的努力下,開展出一個快速的「看圖校對程式」(請參照 圖二),可以一邊看大正藏掃瞄圖檔,一邊做文字訂正。由於它可 以同時開啟一文字視窗及一圖形視窗,並且在文字視窗中快速移動 到比對差異處,然後在圖形視窗中秀出相對應的圖形位置,再由校 對人員選擇或載入正確的資訊,使得作業可以順暢的進行之外,對 正確率與速率的提昇也有很大的助益。 查書校正  ̄ ̄ ̄ ̄ 查書校正,可分為兩大步驟,一為在看圖校對後,發現問題,即 查閱原典或查對其他不同版本作為校勘之用。二為將所有的電子檔 印成文字檔,交由CBEAT幕後一群默默工作的義工處理。CBETA很榮 幸能邀約到散佈於各國中、國小的教師群幫忙校對,因為職業上的 訓練,他們對於錯字與錯誤的敏感度高於常人。是以,佛典經文經 過嚴密的「電腦校對」後,有這群義工老師的把關,CBETA的電子檔 經文得以以較好的品質及較高的正確率問世。 標記處理  ̄ ̄ ̄ ̄ 除了精確與嚴謹的校對是CBETA最基本的要求外,如何保持原來版 本的格式也是一重要的考量點,另外為了合乎電子化的特點,並不 只是把書面變成電腦排版就是所謂的電子化,因此要考慮到標記( Markup)的處理,及採取TEI(Text Encoding Initiative)(註七 )的準則,並且以SGML/XML的方式表現出來等作法。同時也考量人 性化檢索的需求,而開始做結構與層級的索引典之考量。上述所有 成果的呈現格式皆是以SGML作為主要檔案,故特於下段舉例說明 CBETA如何以SGML處理藏經的內涵。 在CBETA處理《大正藏》經文的標記過程中常見的問題,皆一一將 之列入《CBETA工作手冊》中,以便參考。譬如處理藏經時【遇到不 分卷該如何處理】、【遇到一個Note中包含另一個Note的處理方式 】、【遇到卷終的處理】、【遇到別的版本比大正藏多字的處理】 、【遇到Note的內容有跨行的情形】、【Note為該語詞的梵文時之 處理】、【遇到Note為”明註曰x南藏作y”的處理方式】、【遇到 ”*”的處理方式】、【遇到別的版本比大正藏少字的處理方式】、 【遇到夾註的處理】、【遇到卷首的處理】、【遇到某個版本缺譯 號的處理】等常遇到的問題與處理,皆詳明的列出SGML的作業方式 ,今舉列說明如下(註八): 電子檔上網  ̄ ̄ ̄ ̄ ̄ CBETA與大眾分享的成果,可分為三大類: 一、將CBETA的作業系統與方法印製成冊與有興趣於佛經電子化的 單位或工作者分享; 二、將CBETA作業過程所研發的程式或工具與有志於佛典電子化的 工作者分享; 三、則為將CBETA藏經電子檔與大眾分享,這些電子檔又可分為網 路版與光碟版兩種呈現方式。 CBETA藏經電子版成果的主要呈現方式以發表於網路上為主,目前 有《大正藏》第五至第八冊之《般若部》、第九冊的《法華部》及 第九冊下半部與第十冊的《華嚴部》,共計三部六冊,並將依工作 進度陸續發表於網上(註九)。目前網路版經文檔( http://ccbs.ntu.edu.tw/cbeta/result)有「普及版」與「HTML版 」供讀者閱覽。除上述兩版外,並有依句點分段,以便檢索的「App 版」等三個版本,供使用者FTP下載所需的經文資料。 除電子檔經文外,CBETA網頁並提供有[簡介]、[技術]、[規劃]、 [進度]、[成果]、[檢索]、[下載]、[芳鄰]、[其它]及[導覽]等項 目,以提供讀者更多的電子佛典資訊,及隨時查閱新增資料與最新 訊息等網路功能,詳細內容請參閱CBETA網頁( http://ccbs.ntu.edu.tw/cbeta)。 全文檢索  ̄ ̄ ̄ ̄ 目前CBETA網路版的檢索引擎,是採用中正大學GAIS團隊所開發的 元件,再以perl程式改寫所需的部份。檢索功能可分為「整部經文 」檢索與「單冊經文」檢索(檢索功能,請參閱圖三)。檢索結果 可以「經號」呈現及「經名」呈現,並可閱覽符合(match)的部份 或閱覽全文(fulltext)等功能。 除了網路版的檢索功能外,在光碟版中,CBETA亦提供三項檢索程 式,以利讀者於單機環境使用。這些程式可從光碟的「使用說明」 選項中,選取工具使用說明,直接選取安裝,或是將光碟上的程式 複製到硬碟執行,這三項工具分別為: 1.CBGrep(Windows下的文字搜尋工具) 2.CTGrep(Dos下的文字搜尋工具) 3.Search and Replace for Windows 95/NT(Shareware)等三 種檢索程式。 此外,於光碟的HTMLHelp版,亦有檢索與索引等功能。使用者可 輸入欲搜尋的名相後按Enter鍵,或是選取列出主題,便會在目錄區 出現該名相出現的位置。點選該經目之後,瀏覽器會出現該經文檔 ,並將所搜尋的名相反白(藍底)。另外,讀經器提供了再檢索及 關係(布林)運算元(And/Or/Not/Near) 等的檢索模式。並附有「 僅搜尋標題」提供使用者只對經目的搜尋(內容請參照圖四)。 製作光碟  ̄ ̄ ̄ ̄ 除了網路版本外,CBETA同時也發行光碟版,以利不方便上網者使 用,1998 CBETA電子佛典系列含有《般若部》、《法華部》、《華 嚴部》,亦即《大正藏》第五冊至第十冊的普及版電子經文,並依 其呈現功能分為Normal版、App版、HTML版及HTMLHelp版四種方式。 此外還有全文檢索工具、丁福保《佛學大辭典》、CBETA網站光碟版 、其他相關工具及線上使用說明文件等(註十)。其中HTMLHelp 瀏 覽器,包含有工具列、內容、索引、搜尋、我的最愛、列印、選項 設定、佛學辭典、彈出式清單、及其他多種項目(請參閱圖五)。 CBETA電子佛典是由同一套 SGML電子主檔所產生,光碟提供下列 版本,以供讀者不同的使用需求,分為一般文字檔的「普及版」; 行末以句點作為結束,以利一般檢索的「App 版」;具有目錄、索 引、全文檢索多功能的「HTMLHelp版」及可以直接使用網路瀏覽器 閱讀的「HTML版」等四種不同的呈現方式。茲再對各版本說明如下 : 1.普及版 普及版為一般文字檔的格式,可利用任何支援中文Big-5碼的文書 處理器或是瀏覽器閱讀編輯。為了達到閱讀以及流傳的方便,普及 版對於電腦中無法處理的缺字,如果可以通用字代替,則以通用字 代替。反之,若無可用的通用字,則以一般組字式來表示,不另設 造字檔或其他的圖檔代碼。 普及版不包含《大正藏》的註釋,對於大正原版錯誤的地方,則 在版本中直接更正,不另作註說明。全文依照《大正藏》的格式橫 向排列,於每行行首註明冊數、經文號碼、頁碼、欄位及行數等訊 息,方便讀者查閱。例如T08n0221_p0001a09則代表《大正藏》第八 冊第221經第一頁第一欄(上欄或a欄)第九行,詳見行首資訊(註 十一)。光碟中並含有「以卷為單位」及「以經為單位」的兩種版 本,提供使用者選擇。 2.App版 App版的內容及格式與普及版相同,唯一的不同是為了方便部份檢 索軟體能正確的檢索,因此每行行尾如果有不成句的字,則會移動 到下一行的行首(亦即以句點作為行末切割處)。搬動的字數會在 下一行的行首資訊後以括號顯示出,譬如T08n0221_p0001a09(02), 其中的(02)代表由上面的行數搬動兩個字到本行行首。偈頌的部份 因為沒有斷行的問題,故不處理。 3.HTMLHelp版 此版是以微軟公司的HTMLHelp瀏覽器為主(註十二)。本版本與 上述的兩個版本內容相同,但是如遇有更正大正版本錯誤之處,則 會以紅色顯示。本版並以《大正藏》的欄位作為顯示基準,譬如以 《大正藏》0001頁的a欄單獨處理成一頁顯示。並且為了方便閱讀與 檢索,因此每頁的最後二行會重現在下一頁的前面,並以藍色斜體 的方式顯示。對於無通用字的缺字,除了使用一般組字式之外,本 版提供了缺字圖檔,讀者點選組字式便可以看到該缺字圖型。 本版提供了經文目錄、索引、全文檢索、線上佛學辭典,並支援 網路及多媒體等功能,預計在微軟公司發行新版的HTMLHelp格式之 後,可提供使用者透過網路直接更新經文內容的功能。而目前 HTMLHelp版只限於中文Windows使用者。 4.HTML版 HTML版與CBETA的網頁資料相同(http://ccbs.ntu.edu.tw/cbeta ),也與HTMLHelp版的格式相似,但是目前尚無全文檢索,使用者 可以直接使用網路瀏覽器閱讀。但是,由於HTML版本是由許多的小 檔案組成,如果備份到硬碟上執行,可能造成硬碟資源的嚴重浪費 。如果需要在硬碟裡工作,建議使用者可以利用HTMLHelp版本或其 他版本。倘若需要利用其中的某部份經文進行教學或其他的運用, 可於經文瀏覽區選擇檢視原始檔,再選擇另存新檔。或者直接利用 剪貼薄的功能,如此較不浪費硬碟資源。 5.丁福保《佛學大辭典》電子檔 為方便使用,光碟中提供兩種格式的丁福保《佛學大辭典》的電 子檔(註十三):純文字檔格式及HTMLHelp格式。且點選HTMLHelp 版丁福保《佛學大辭典》,由於檔案較大,開啟時間較長。另外, 目前這個HTMLHelp版本只能在中文Windows環境之下操作使用。 結語  ̄ ̄ 流程檢討 簡言之,CBETA依作業流程,分別由負責掃描辨識或輸入的「輸入 組」、經文電腦比對及人工校對的「校對組」、提出前瞻性、國際 性及學術性之整體規劃及進行標記工作的「研發組」、處理電腦上 缺字問題的「缺字組」、技術程式以及網路、單機應用程式開發的 「資訊組」、將各組工作近況及成果利用網路呈現的「網路組」、 以及負責成品發行事宜及推廣活動的「發行組」等組,依工作性質 分別負責各項業務(註十四)。 在整個的作業過程中,校對與研發是佛典電子化最耗時的部份, 如何能快速又精確地達到要求,並且能研發出符合普及與學術的要 求,一直是CBETA的重要課題。事實上,這也是撰寫此文的主要目的 一希望學者專家能就上述「作業流程」與「成果內容」提出改進與 改良的方案,期能製作出更精良的漢文佛典與界面,以服務大眾( 註十五)。 未來展望  ̄ ̄ ̄ ̄ 至目前為止,CBETA除了上述的成果之外,其他的藏經電子檔,也 正陸續完成中,並將依進度隨時置於網頁上,並於每年年底前製作 成光碟,與大眾結緣。未來,我們將朝向附有校勘資訊的「學術版 」努力,CBETA擬於學術版內附有《大正藏》的註解欄等資料,藉此 提供歷代各版本漢文大藏經的原貌。並將與佛教學者合作,以完成 以單部經典為主的學術版等計畫。當然,最終則是期望能達到《 CBETA電子大藏經》「普及化與學術化、本土化與國際化兼備」的目 標。 同時,為了能讓佛典電子化的工作能永續經營,培養新生代參與 佛典電子化的作業,也是CBETA的重點工作之一。因此,除了上述 CBETA的工作群外,「研發組」亦延聘多位佛學研究所學生擔任「研 究助理」,參與佛典電子檔的校勘與標記(Markup)工作。如此, 不但能增進學生的佛學與電腦知識,亦期能藉此培訓俱佛學學識與 電腦技能的新一代學者,以因應二十一世紀的需求。 註釋:  ̄ ̄ 註一:謹此感謝日本東京大學故江島惠教教授,及日本SAT多位教 授熱心協助,始能順利完成「中日大正藏版權簽約」的重 要任務。 註二:CBETA並於各版本的經文資料中,均附有經文相關資訊,記 載原始資料來源,提供使用者參考外,亦期望此經文資訊 與經文提供者名稱,能隨經文電子檔一併流通。每件事業 的完成,都是眾緣和合所成,CBETA於工作進行中同時與 國內外很多單位團體聯絡合作,然因為協助與贊助者很多 ,恕無法一一詳列於此,詳細名單請參閱CBETA網頁http: //ccbs.ntu.edu.tw/cbeta/friend/gongde.htm。 註三:「一般組字式」基本規則說明: 註四:所謂「M碼」就是以M開頭後面接著一串數字的缺字表示法 ,是國際上廣為採用的缺字表達法之一。譬如CBETA以M00 763代表[條-木+火],通用字為「倏」的這個電腦缺字。 註五:特此致謝日本「今昔文字鏡」(Mojikyo Font Center, http://www.mojikyo.gr.jp)提供網上免費下載字型,以 便使用者 處理缺字問題。 註六:有關缺字的處理可參考謝清俊,《電子古籍中的缺字問題 》等文,及莊德明,〈漢字缺字處理與梵巴藏字母的輸入 〉與《佛典共用造字集的規畫》等文,以上有關缺字論文 全文,可於 http://www.sinica.edu.tw/~cdp/下載。 註七:Sperberg-McQueen, C. Michael and Burnard, Lou (Eds.) Guidelines for Electronic Text Encoding and Interchange [TEI P3 ], Chicago and Oxford: Text Encoding Initiative, 1994. 註八:此二範例摘錄自《CBETA工作手冊》。 註九:CBETA的工作進度與產量,依目前的財務能力,以平均十二 位工作人員計算。依此人力估算,至1999年底的預計進度, 期能完 成藏經1-55冊的一半數量,亦即完成《大正藏》28 冊以上的校對。 註十:譬如,有關梵文轉寫字可安裝CBDIA.TTF字型檔。如果安裝 順利的話,將可看到類似如下的表達:Mahayana。 註十一:普及版與App版行首資訊規則說明 Txxnyyyyopzzzzcll為每行經文之前的資訊,其意義如下: T :表示大正藏(Taisho)經文。 xx:二位數,表示大正藏冊別。 n :固定不變,表示後面接經號。 yyyy:四位數,表示大正藏經號。 o :大寫之 A,B...表示大正藏有記載之同經號之別本, 小寫之a,b...表示大正藏沒有記載之同經號之別本, 完全沒有同經號資料者,用下底線符號填入’_’。 p :固定不變,表示後面接頁碼。 zzzz :四位數,表示大正藏頁碼。 c :表示第幾欄,a 表示上欄,b 表示中欄,c 表示下欄 ,d 表示校勘欄。 ll :二位數,表示在該欄的行數。 例如:T10n0279_p0001a01,即表示大正藏第十冊0279經第一頁 上欄第一行。 註十二:HTMLHelpR格式是微軟公司R開發的新一代線上輔助系統 格式,為視窗98R系統中輔助說明的瀏覽器,並可連結微 軟網際網路瀏覽器R(Internet Explorer),支援HTML, JavaScript及Vbscript語法和相關的圖檔格式(jpg和 gif等)。 HTMLHelp為附於視窗98中輔助說明的瀏覽器,視窗95亦 以更新使用。 註十三:光碟所附的丁福保《佛學大辭典》電子檔,為「佛教電 腦資訊庫功德會」所提供,特此致謝。 註十四:當然,每件事業的完成,都是眾緣和合所成,CBETA於工 作進行中,得到國內外許多單位的協助,特此致謝。然 因為協助與贊助者很多,恕無法一一詳列於此,詳細名 單請參閱CBETA網頁http://ccbs.ntu.edu.tw/cbeta/ friend/gongde.htm。 註十五:「中華電子佛典協會」聯絡資訊: 地址:台北市朱崙街36號(慧日講堂)303室 Tel:+886-2-8773-6469 Fax:+886-2-8773-6470 E-mail:cbeta@ccbs.ntu.edu.tw Homepage: http://ccbs.ntu.edu.tw/cbeta
重要度:
文章分類:
電腦標籤:
- 瀏覽次數:18117
發表新回應