Tihbeh sia ho e lunbun, Taigubun ki-ek

From: Iunn Un-gian
Date: 2008-10-02 20:40:47

Takke ho :

Che si 9/30 to engkai ai kau e lunbun, si TLH e GTH.

Goa sia Taigubun ki-ek hethong, sng tihbeh sia ho a, u e souchai khah seng tih hoah khauho  :)

Nasi u chhubi e peng, hoangeng the-kiong li e ikian, loulat !

(subok e pouhun iahkoh loanloan, goa e kesiok siukai)

(goa beh iong Hanlo / choanlo tuichiau, ai u choan-lo, chiah u seng tau khi Taioan LMJ GTH )

Ungian 10.2

台語文數位典藏─以台語文記憶系統做例

Tâi-gú-bûn sò͘-ūi tián-chông -- í Tâi-gú-bûn kì-e̍k hē-thóng chòe lē

 

楊允言 Iûⁿ Ún-giân

大漢技術學院資訊管理系

 

 

摘要

雖然咱hiah-nī拚勢tih推sak台語文khang-khè,m̄-koh社會上一般人對台語文ê認pat猶原chiâⁿ有限。另外一方面,過去chōe-chōe台語文豐富ê資料,mā因為政權ê變換kah無重視,chia ê資料並無好chhē著。

電腦時代,提供台語文保存kah推廣一個khah好ê機會,phah破時間、空間ê制限。台語文是m̄是有法度復興,kah咱是m̄是有好好運用這個平台有chiâⁿ大ê關係。

本文beh ùi數位典藏ê觀點來討論台語文ê保存kah推廣,並且以作者目前當tih進行ê台語文記憶系統做例,kā已經無版權問題,iah是作者/編者授權同意ê台語文書刊,直接先kā影像上網,同時mā beh探討一kóa技術方面ê做法、使用情形、功能、目標。

關鍵詞:台語文、記憶、影像處理、數位典藏

 

1.     話頭:數位典藏

17世紀,英國設立siōng早ê博物館,博物館對傳承人類文明,扮演真重要ê角色。

 

電腦科技ê進展,kah網路基礎設施ê建立,hō͘人類會tàng利用數位ê方式寄khǹg文明累積ê成果。

 

數位典藏tō是指kā有保存價值ê資料,透過數位化ê科技技術來保存kah應用。換另外一句話講,數位典藏tō是網路頂ê博物館。

 

數位典藏ê相關計畫,siōng早ê是美國國家圖書館1990年sak ê「美國記憶先導計畫」。建國kan-na 兩百外冬ê美國會tàng做,台灣有koh-khah久ê歷史,mā有真chōe豐富、有特色ê資源,koh有真chāi ê電腦科技相關技術做bak-khù,咱有真充分ê理由來做數位典藏。

 

國家級ê數位典藏,台灣ùi 1998年開始做,2002年整合做「數位典藏國家型科技計畫」,五年做一期,到2006年年底結束,2007年繼續執行第二期ê五年計畫,最近mā 開始tih規劃永續經營方面ê問題。

 

計畫ê內容包山包海,m̄-koh,我認為siōng重要ê意義是,這個計畫kā台灣真chōe有特色ê資料,包括物種資源、早期ê影像等等,透過一個整合ê平台,放送hō͘全世界。

 

Web 2.0 ê時代,強調一般大眾共同參與ê精神,所以khah闊面ê數位典藏,並無限定tī政府單位。一個民間團體iah是個人,只要有值得保存ê資料,mā會sái設立一個網站來做典藏ê khang-khè。

 

 

2.     台語文相關數位典藏

台語(Hō-ló話)有幾lō種稱呼,國民黨政府佔台灣了後,kā這個語言叫做「閩南語」,目前tī國際上,語言代碼是「nan」,這個語言(包括方言kah語言變體)有4,600外萬使用人口,主要分佈tī台灣、中國、新加坡、泰國、越南、菲律賓、印尼、馬來西亞kah汶萊八個國家。其中,台灣有70%以上ê使用人口,是siōng kôan ê比例。台灣若beh tī國際社會上khiā起,台語絕對是其中一個重要ê特色。

 

問題是,台灣ê官方語言是華語,koh加上進前錯誤ê語言政策,hō͘真chōe台灣人看輕家己ê母語,認為講台語khah無水準,甘願hō͘ gín-á學英語。

 

另外,書寫台語口語ê文字,mā有將近兩百冬ê歷史,包括羅馬字kah漢字兩種主要文字。可惜大部分ê台灣人無啥會曉讀台語文,台語文ê書刊是小眾,若是lām tī以華文為主ê書店內底,差不多是看bōe著。Koh因為書寫無一致,hō͘力量koh-khah分散。

 

咱若beh做台語復振,台語文絕對是重要資源,m̄-koh tō親像頂面所講ê,一般台灣ê書店無法度提供咱ê需求。若是透過網路平台,來傳播chia ê資源,顛倒是khah有可能。

 

一般台語文相關網站,tō會sái算是台語文數位典藏ê基本資源。以下列出目前我認為khah重要ê台語文相關網站:

 

l      台語信望愛網站  http://taigi.fhl.net/

l      台語網網上論壇  http://groups.google.com/group/taigu

l      白話字台語文ê網站 http://iug.csie.dahan.edu.tw

台語文數位典藏,一般講ê主要是針對台語文書刊做對象,包括kā chia ê資料做影像ê保存,iah是進一步kā phah字,thang做其它ê應用。台語文相關數位典藏ê網站,目前主要有以下幾個:

 

l      閩南語典藏 http:// southernmin.sinica.edu.tw

這是數位典藏國家型科技計畫第一期內底ê中央研究院機構計畫:語言典藏計畫ê子計畫之一,主要做歌仔冊「陳三五娘」四個版本ê整理,可惜因為版權問題無好勢,soah無法度開放一般民眾使用;第二期擴充做閩客語典藏,並且當tih進行,網址tī http://gigiantianchong.likulaw.info/,主要beh kā《基督要理》、《英廈辭典》、《廈英大辭典》、《內外科看護學》khah早期ê《台灣教會公報》,scan上網,並且phah字建檔、做語法標記;計畫主持人包括鄭錦全、何大安等等;

 

l      台語文數位典藏資料庫(第二階段) http://www2.nmtl.gov. tw/dadwt/

備站tī http://iug.csie.dahan.edu.tw/nmtl/dadwt/,這是台灣文學館ê計畫,整合成大台灣文學系呂興昌kah台大資訊系高成炎2001~2005年ê計畫成果,kā chia ê phah字好ê全羅、漢羅(各258萬音節)一段一段對齊ê文本,經過校對,透過網站平台呈現,koh有加添語音合成ê聲音檔案;計畫主持人是楊允言;

 

l      台語及客語現代文學專題網站 http://140.116.10.241/NCKUTaiWeb/View/index.aspx

這是文建會2007年委託成大台灣文學系執行ê計畫,收錄51位作家ê 精選作品,數量大約有100 外萬音節;計畫主持人是蔣為文;

 

l      台灣白話字文獻資料館 http://140.122.80.250/pojbh/script/index.php

這是數位典藏國家型計畫公開徵選計畫之一,師大台文所執行,主要針對《台灣教會公報》做scan、phah字整理,目前繼續tih執行第二冬ê計畫;計畫主持人是李勤岸;

 

除了以上所介紹ê,koh有一kóa規模khah 細ê台語文數位典藏網站,包括:

 

l  聰美紀念基金會將《台文通訊》第25~142期scan上網;[1]

l  鄭詩宗將《內外科看護學》phah字上網;[2]

l  台語信望愛ê珍本聖經數位典藏,無限定scan台語ê,m̄-koh有幾lō本台語ê;[3]

l  台中圖書館ê日文舊籍數位典藏,scan兩千外本書刊,其中至少有二十幾本kah台灣本土語言有關;[4]

l  TGB台灣學生語文促進會ê《TGB通訊》電子檔;[5]

l  鄭良偉策劃ê《大學台語文選》電子檔。[6]

 

 

3.     台語文記憶介紹

台語文記憶系統ê構想,是tī 2006年年底,我執行台灣文學館「台語文數位典藏資料庫(第二階段)tih-beh到一段落ê時,我tih思考beh按怎用現有ê基礎,hō͘台灣文學館繼續撥經費支持台語相關研究計畫。

 

頭先,我認為看著phah字phah好ê電子檔案,kah看著原本ê書刊,感覺是無kāng款ê,若是beh繼續做,除了phah字,mā希望會tàng呈現書刊原底ê影像。

 

我無希望呂興昌教授用四冬(2001~2004)ê時間蒐集著ê千外本白話字台語文相關書刊,tō按呢hōng鎖tī台文館ê倉庫內底。若是台文館支持這個計畫,會tàng揀出內底一kóa書刊,台文館方面thang來優先處理。

 

可惜這個構想並無得著回應。大約hit個時陣,國家圖書館tī各縣市文化局展示in數位典藏ê成果,其中一項是「台灣記憶」,這個系統整理日本時代明信片ê影像。因為按呢,我用「台語文記憶」做主題。

 

我主動kah國家圖書館聯絡,希望in考慮將「台語文記憶」列入「台灣記憶」系統下面ê一項,撥經費來整理台語文ê書刊。

 

國家圖書館表示in有趣味,所以我特別kah in約時間,去國家圖書館向組長kah組員報告這個計畫。M̄-koh,我所掌握ê台語文書刊,大部分是影印本,in認為若m̄是原本,tō無典藏ê價值。

 

這個回答hō͘我真失志。看著台文館倉庫內底ê台語文書刊,m̄知koh愛外久chiah thang hō͘人注意著。後來我想,無錢有無錢ê做法,無論如何,應該hō͘ chia ê資料量早上網hō͘人看著。

 

所以,tī無經費ê支持之下,我先ùi我家己書櫥頂ê資料開始scan,koh ùi台大圖書館借著一kóa白話字ê書刊(kan-na會tàng tī內底看、影印),然後設立一個功能真簡單ê網站,ùi 2007年6月開始上線。

 

建立台語文記憶網站,需要夠額ê網頁空間。資料蒐集需要開bōe少ê時間;scan ê部分,若是烏白ê,tō請影印店用至少300 dpi ê解析度scan做PDF格式檔案,若是彩色ê,請工讀生scan會比請影印店khah省錢,m̄-koh需要注意ê是,每一頁大細愛一致。Scan的圖形檔案,最後lóng會tàng轉做JPG iah是PNG格式檔案上網。

 

實際ê經驗,ùi蒐集到scan、轉檔上網,平均一頁ê成本是5 kho͘以上。

 

後來,這個計畫tī 2008年得著大漢技術學院60,000 kho͘ ê經費支持。到目前為止,已經上網521本、22,071頁ê台語文書刊(包括一本客語ê),hō͘使用者點選超過88萬頁次,平均一工1800外頁次。

 

 

4.     台語文記憶系統相關功能kah技術

台語文記憶系統ê網址tī http://iug.csie.dahan.edu.tw/memory/TGB/mowt.asp,圖1是主畫面:

 

台語文記憶系統ê web平台是Windows 2003 Server kah IIS 6,ASP程式,後壁是Access資料庫。後設資料(metadata) ê部分,因為書刊包含台語羅馬字,採用數字表示調號,顯示ê時陣chiah透過一個程式轉換做調符。

 

書刊ê數量會愈來愈chōe,相對愈需要查詢系統ê協助。「檢索查詢」ê部分,會tàng用書刊名、作/編者、出版者、年份等等ê欄位來查詢,ma7會sai2用文字形式來查詢,分白話字、漢羅、假名、其它四類。

 

有ê使用者可能無特別beh查詢ê書刊,所以系統mā提供「隨機選閱」ê功能,利用亂數(random number)自動揀一份書刊hō͘使用者看。

 

少部分書刊有限制瀏覽ê頁數,主要原因是版權問題,有ê是資料提供者ê要求。技術上,利用程式來控制。

 

 

5.     結論、問題kah展望

本文主要介紹一個一開始無得著任何研究經費支持ê台語文數位典藏系統,來說明只要咱有心,tō算kan-na有一sut-á資源,mā會tàng做出bōe bái ê成果。

 

台語文記憶系統,到目前為止,平均一工有1800外頁次ê點選,mā說明這個系統ê必要性。

 

一份珍貴ê台語文資料,設使kan-na khǹg tī家己ê書櫥內底,會tàng發揮ê功效chiâⁿ有限,若是已經無版權問題、khah早期ê資料,因為oh chhē,khǹg tī網站頂面顛倒有機會hō͘ koh-khah chōe人來使用,mā有可能促成台語文相關研究ê發展。

 

咱mā希望作者願意授權提供伊ê作品,kā chia ê資料當做台灣人ê公共財。我相信,絕大多數ê人,做台語文khang-khè m̄是為著經濟利益,是為著台灣ê文化利益。

 

因為資源chiâⁿ有限,咱mā愛承認,台語文記憶系統iah-koh有真chōe不足ê所在,包括:

 

·        為著減省經費,無完全遵照數位典藏ê相關規範來處理影像;

·        系統ê查詢功能iah無真完整;

·        目前《台灣教會公報》ùi 1885年到1919年lóng khǹg入去,因為一期一份,所以有khah chōe份,佔beh 80%,造成「隨機選閱」ê時,差不多有80% ê機會選著《台灣教會公報》;

·        …

 

台語文記憶系統beh做ê khang-khè當然iah未結束,因為iah-koh有chōe-chōe ê台語文書刊無包含tī內底。這個系統koh想beh做ê,包括:

 

·        繼續蒐集台語文書刊資料,mā歡迎逐家提供;

·        改進頂面講著ê欠點;

·        引進iah是利用類似Google books ê OCR檢索技術,提供影像資料ê全文檢索;

·        詳細定義台語文書刊數位典藏ê後設資料,建立相關資料;

·        頁數khah chōe ê書刊愛另外整理目錄(索引),thang ùi目錄連結到對應ê頁數,方便使用者查詢;

·        若是有khah充足ê經費,將chia ê資料phah字建立電子檔,thang做進一步ê運用。

 

Ng3望chia e5 phah拚,thang hou7台語文運動kah台語文相關研究koh-khah發展。

 

 

感謝

本計畫接受大漢技術學院新台票6萬kho͘ ê補助,計畫編號是「97教補款研字第9700007號」,特別tiàm chia表示感謝。

 

 

參考書目

[Iun] 楊允言,2007,〈台語白話文學ê全新表現──台語文數位典藏資料庫計畫簡介〉,《台灣文學館通訊》第15期p20-22,台南:國家台灣文學館

[Iun & Tan-Ten] Iun Un-gian& Henry H. Tan-Ten,〈A Survey of Media and Data Processing Development for Written Taiwanese〉,Accepted by International Journal of the Sociology of Language, Special Issue on Taiwanese

[Li] 呂美親,2008,〈天書e化:台語白話字文獻數位典藏〉,《數位島嶼電子報》22期,http://content.ndap.org.tw/main/epaper_detail.php?doc_id=1168&epaper_id=42 (2008/9/5 lia̍h ê)

蔡永橙、黃國倫、邱志義等,2007,《數位典藏技術導論》,台北:國立台灣大學

陳威志,2008,〈跟世界接軌的方式:「台灣白話字」〉,《數位島嶼電子報》32期http://content.ndap.org.tw/index/?p=825

 

相關網站

國家台灣文學館 台語文數位典藏資料庫(第二階段)計畫網站,http://iug.csie.dahan.edu.tw/nmtl/dadwt/pbk.asp (2008/9/5 lia̍h ê )

台語信望愛網站

台語網

台灣白話字文獻資料館 http://140.122.80.250/pojbh/script/index.php

數位典藏國家型科技計畫 http://www.ndap.org.tw/

台語文記憶系統 http://iug.csie.dahan.edu.tw/memory/TGB/mowt.asp

Google圖書搜尋 http://books.google.com.tw/

[1] http://chhongbi.org/index2.html

[2] http://lgkkhanhouhak.blogspot.com/

[3] http://bible.fhl.net/new/ob.html

[4] http://jdlib.ntl.gov.tw/

[5] http://taioanchouhap.myweb.hinet.net/0_TGB.htm

[6] http://taigu.eic.nctu.edu.tw/education_db/taibun/index.htm

--

Iunn Un-gian 楊允言

Tai-han Chu-koan-he Chou-li kau-siu大漢資管系助理教授

Tai-tai Chu-kang-he Phok-su hau-soan-jin 台大資工系博士候選人

http://iug.csie.dahan.edu.tw