當前位置: 首頁>> 服務信息>> 科普
 
我國研製成功少數民族文字識別系統
中央政府門戶網站 www.gov.cn   2007年01月31日   來源:科技日報

    蒙古文、藏文、維吾爾文等六種少數民族文字的紙出版物要轉換成電子出版物,今後不再靠人工錄入,只要經“統一平臺少數民族文字識別系統”處理,印刷文檔的掃描圖像就會自動生成可編輯檢索的電子文檔。這是記者1月29日在清華大學舉行的“多體蒙古文(包括混排漢英)印刷文檔識別暨統一平臺少數民族文字識別系統”技術鑒定會上獲悉的。

    據項目研製主持人,清華大學丁曉青教授介紹,該系統能識別多種印刷字體的蒙古文字符和文檔,並能識別蒙漢英混排的文檔,是集版面分析、文本行字切分、識別、縱向文檔圖文對照編改等技術于一體的蒙古文文檔識別實用系統,解決了多字體蒙古文漢英混排文本切分和識別問題。在實際的多字體蒙漢英文檔測試集上,文本識別率可達96.89%。

    據介紹,該系統是全球首款在統一平臺上支持我國主要少數民族文字文檔的識別系統。系統在漢字和英文文檔識別的基礎上將四種類型六種文字的少數民族文字,即蒙古文、藏文、維吾爾文、哈薩克文、朝鮮文和柯爾克孜文(混排漢英)。文檔識別綜合集成在一個統一的平臺系統中,使我國最主要的少數民族文字文檔能夠自動識別輸入計算機。該系統軟體産品採用國際標準編碼,系統結構具有良好的擴展性,還支持阿拉伯文的識別。

    由倪光南、何新貴、戴浩院士組成的鑒定委員會認為:該項目解決了實用的多字體印刷蒙古文文檔及其混排漢英的識別問題,實現了在統一平臺上蒙、藏、維、哈、柯、朝(混排漢英)文檔識別的綜合集成,其主要技術指標達到了國際領先水平,對促進我國少數民族語言文字的信息化建設具有重要意義。(記者 趙鳳華)

 
 
 相關鏈結
· 大屏幕彩色激光電視機在長春研製成功
· 北京奧運會純電動大客車項目取得突破性進展
· 我國自主研製“高分辨率測深側掃聲納”獲得突破
· 我國科學家攻克底水油藏開發關鍵技術難題
· 我國脫硫脫硝除塵技術實現零排放一體化
· 我國新納米陶瓷塗料又創新品種