蒙古文、藏文、維吾爾文等六種少數民族文字的紙出版物要轉換成電子出版物,今後不再靠人工錄入,只要經“統一平臺少數民族文字識別系統”處理,印刷文檔的掃描圖像就會自動生成可編輯檢索的電子文檔。這是記者1月29日在清華大學舉行的“多體蒙古文(包括混排漢英)印刷文檔識別暨統一平臺少數民族文字識別系統”技術鑒定會上獲悉的。
據項目研製主持人,清華大學丁曉青教授介紹,該系統能識別多種印刷字體的蒙古文字符和文檔,並能識別蒙漢英混排的文檔,是集版面分析、文本行字切分、識別、縱向文檔圖文對照編改等技術于一體的蒙古文文檔識別實用系統,解決了多字體蒙古文漢英混排文本切分和識別問題。在實際的多字體蒙漢英文檔測試集上,文本識別率可達96.89%。
據介紹,該系統是全球首款在統一平臺上支持我國主要少數民族文字文檔的識別系統。系統在漢字和英文文檔識別的基礎上將四種類型六種文字的少數民族文字,即蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文和柯爾克孜文(混排漢英)。文檔識別綜合集成在一個統一的平臺系統中,使我國最主要的少數民族文字文檔能夠自動識別輸入計算機。該系統軟體産品採用國際標準編碼,系統結構具有良好的擴展性,還支持阿拉伯文的識別。
由倪光南、何新貴、戴浩院士組成的鑒定委員會認為:該項目解決了實用的多字體印刷蒙古文文檔及其混排漢英的識別問題,實現了在統一平臺上蒙、藏、維、哈、柯、朝(混排漢英)文檔識別的綜合集成,其主要技術指標達到了國際領先水平,對促進我國少數民族語言文字的信息化建設具有重要意義。(記者 趙鳳華)