浩如煙海的古籍是我國(guó)珍貴的歷史文化寶藏。隨著信息化時(shí)代的來臨,利用數(shù)字化手段保護(hù)與利用古籍成為學(xué)術(shù)界研究探索的新領(lǐng)域,其中關(guān)鍵的一環(huán)是古籍識(shí)別技術(shù),即利用計(jì)算機(jī)算法將掃描的古籍圖像轉(zhuǎn)換為可全文檢索的電子文檔,便于學(xué)者及時(shí)獲取研究資料。但是,古籍漢字書寫風(fēng)格變化多端、字符集數(shù)目龐大、具有類別標(biāo)記的訓(xùn)練樣本匱乏,因此在識(shí)別過程中極具挑戰(zhàn)。
2015年2月,清華大學(xué)電子工程系碩士研究生馮繼雄作為第一作者在第22屆文檔識(shí)別與檢索國(guó)際會(huì)議上發(fā)表論文“基于高斯過程風(fēng)格映射的古籍漢字識(shí)別方法”,提出了一種基于非線性遷移學(xué)習(xí)的古籍漢字識(shí)別方法,該論文獲得DRR 2015的最佳學(xué)生論文獎(jiǎng)。論文的第二作者為馮繼雄的導(dǎo)師彭良瑞副教授。在這一成果中,馮繼雄在導(dǎo)師彭良瑞副教授的指導(dǎo)下提出的非線性遷移學(xué)習(xí)的古籍漢字識(shí)別方法,與傳統(tǒng)的線性遷移學(xué)習(xí)相比,在遷移學(xué)習(xí)中引入高斯過程和核函數(shù)方法,可以更好地利用大量有類別標(biāo)記的現(xiàn)代繁體漢字樣本為古籍漢字樣本進(jìn)行建模,具有更強(qiáng)的模型描述能力和對(duì)實(shí)際樣本的適應(yīng)效果,對(duì)于解決古籍?dāng)?shù)字化問題具有重要作用。這一成果對(duì)于我國(guó)古籍文化保護(hù)、促進(jìn)散失在海外的古籍等的數(shù)字化回歸和檢索利用具有積極的意義。
DRR 2015是美國(guó)影像科學(xué)與技術(shù)學(xué)會(huì)和國(guó)際光學(xué)工程學(xué)會(huì)聯(lián)合舉辦的電子成像國(guó)際會(huì)議的組成部分,是文檔分析、識(shí)別和檢索領(lǐng)域的專業(yè)國(guó)際學(xué)術(shù)會(huì)議。馮繼雄此次發(fā)表的論文是彭良瑞副教授負(fù)責(zé)的由國(guó)家自然科學(xué)基金委員會(huì)與法國(guó)國(guó)家科研署共同資助的“手寫體中文古籍識(shí)別”課題的部分成果。