從兩億像素實(shí)例起步的可穿戴技術(shù)創(chuàng)新
——記全國(guó)“挑戰(zhàn)杯”特等獎(jiǎng)作品作者李誠(chéng)的“挑戰(zhàn)”之路
學(xué)通社記者 王泰華 徐遲馨 秦雅琛
如今,在人工智能中,“可穿戴技術(shù)”綜合運(yùn)用于多媒體、傳感器和無(wú)線(xiàn)通信等高新科技產(chǎn)品中,并將這些技術(shù)嵌入到人們可以直接穿在身上的衣著、配飾中,成為可穿戴設(shè)備,并由使用者利用手勢(shì)、眼動(dòng)等方式進(jìn)行操作和交互。這類(lèi)可穿戴設(shè)備往往都會(huì)配備一個(gè)用戶(hù)佩戴在頭頂向前下方進(jìn)行拍攝的攝像頭,稱(chēng)之為第一人稱(chēng)攝像頭,通過(guò)攝像頭進(jìn)行手部的檢測(cè)識(shí)別,從而實(shí)現(xiàn)人機(jī)交互。手部檢測(cè)需通過(guò)算法判斷不同環(huán)境下哪里是手,但由于皮膚所反射的顏色往往隨著光照條件改變等環(huán)境的變化快速改變,因此手部檢測(cè)成為可穿戴技術(shù)發(fā)展中亟待解決的一大難關(guān)。

圖為李誠(chéng)在全國(guó)“挑戰(zhàn)杯”比賽現(xiàn)場(chǎng)介紹展示自己的作品。
在不久前落幕的第十三屆“挑戰(zhàn)杯”全國(guó)大學(xué)生課外學(xué)術(shù)科技作品競(jìng)賽(以下簡(jiǎn)稱(chēng)“全國(guó)‘挑戰(zhàn)杯’”)中,清華選送的作品《多光照環(huán)境下的第一人稱(chēng)手部檢測(cè)》榮獲特等獎(jiǎng),該作品利用模型推薦系統(tǒng)等手段研究富有挑戰(zhàn)的圖像識(shí)別問(wèn)題,將利用第一人稱(chēng)攝像頭進(jìn)行手部檢測(cè)的準(zhǔn)確率提高了10%-15%,相關(guān)成果也被卡內(nèi)基梅隆大學(xué)、佐治亞理工學(xué)院、谷歌公司、夏普美國(guó)研究所等高校或研究機(jī)構(gòu)采用。而完成該項(xiàng)目的團(tuán)隊(duì)只有一個(gè)年輕成員——清華大學(xué)物理系2009級(jí)本科生李誠(chéng)。
走錯(cuò)教室入對(duì)了行
李誠(chéng)的科研之路起步得較早。小學(xué)六年級(jí)的時(shí)候,當(dāng)同齡人尚在為紙上的數(shù)學(xué)題煩惱,機(jī)緣巧合之下他已經(jīng)開(kāi)始在電腦上接觸編程,“小學(xué)六年級(jí)報(bào)了一個(gè)奧數(shù)班,但第一次去上課的時(shí)候不小心走錯(cuò)了教室,教室里正好在講編程課,里面都是些比我大幾歲的學(xué)生。我聽(tīng)著聽(tīng)著覺(jué)得挺有意思,也就這樣學(xué)下去了。”
憑借對(duì)課外科技的濃厚興趣和扎實(shí)的編程知識(shí),李誠(chéng)在信息技術(shù)上的鉆研愈發(fā)深入。他初中便開(kāi)始做機(jī)器人,并參加了“樂(lè)高”足球機(jī)器人比賽,他用樂(lè)高編程模塊編寫(xiě)的程序控制由積木搭成的小車(chē),在場(chǎng)上與另外三臺(tái)車(chē)對(duì)一個(gè)球進(jìn)行角逐。
2009年,李誠(chéng)憑借在科技競(jìng)賽中的優(yōu)秀表現(xiàn)被保送進(jìn)入清華大學(xué),學(xué)校里豐富的科研資源讓李誠(chéng)有更多的平臺(tái)和機(jī)會(huì)發(fā)展自己的興趣特長(zhǎng)。大三暑假,在校團(tuán)委“本科生暑期海外研修計(jì)劃”的支持下,李誠(chéng)前往卡內(nèi)基梅隆大學(xué)進(jìn)行暑期研修。在那里,李誠(chéng)認(rèn)識(shí)了一位美籍日裔博士后,這位博士后正在進(jìn)行可穿戴設(shè)備方面的第一人稱(chēng)物品識(shí)別研究。巧合的是,早在幾年前,尚在讀高中的李誠(chéng)就通過(guò)TED網(wǎng)站上一位印度工程師的演講了解了“可穿戴設(shè)備”這個(gè)概念并萌生了初步的興趣,兩人一拍即合,在他的建議和鼓勵(lì)下,李誠(chéng)開(kāi)始了第一人稱(chēng)手部檢測(cè)的探索與研究。
課外學(xué)術(shù)討論激發(fā)出的創(chuàng)造性思維
為了解決光照等情況下手部識(shí)別的問(wèn)題,李誠(chéng)查閱了前人在計(jì)算機(jī)視覺(jué)領(lǐng)域的研究后,仍然感到毫無(wú)頭緒。“這時(shí)我想到了曾經(jīng)在‘星火班’學(xué)術(shù)討論時(shí),聽(tīng)說(shuō)過(guò)的‘模型推薦’的概念。”李誠(chéng)介紹道,大二時(shí)他入選了“科技創(chuàng)新,星火燎原”清華大學(xué)學(xué)生創(chuàng)新人才培養(yǎng)計(jì)劃(簡(jiǎn)稱(chēng)“星火班”),在“星火班”中他找到了許多和他一樣對(duì)課外學(xué)術(shù)科技充滿(mǎn)探索興趣的伙伴們,并經(jīng)常就不同領(lǐng)域的問(wèn)題進(jìn)行學(xué)術(shù)討論和交流,“‘模型推薦’是數(shù)據(jù)挖掘領(lǐng)域?qū)W者的研究熱點(diǎn),但還沒(méi)有運(yùn)用到計(jì)算機(jī)視覺(jué)領(lǐng)域。”抱著試一試的想法,李誠(chéng)引入了模型推薦系統(tǒng),并結(jié)合特征選擇和時(shí)空馬爾可夫場(chǎng)濾波的方法,最終有效解決了第一人稱(chēng)手部檢測(cè)的準(zhǔn)確率問(wèn)題。這一創(chuàng)造性的想法,就連計(jì)算機(jī)視覺(jué)三大頂級(jí)國(guó)際會(huì)議中的國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(ICCV)的審稿人都嘖嘖稱(chēng)贊:“用模型推薦系統(tǒng)來(lái)解決手部檢測(cè)問(wèn)題是非常有趣,新穎而直觀的。”

圖為對(duì)比圖。
對(duì)于模型推薦系統(tǒng)的說(shuō)明,李誠(chéng)用準(zhǔn)備GRE試題的例子類(lèi)比道:“像準(zhǔn)備GRE考試時(shí)會(huì)有人總結(jié)一些‘秘籍’,如在什么情況下最好選什么選項(xiàng),這樣考試就有一定準(zhǔn)確率。手部檢測(cè)也是有訓(xùn)練視頻的,訓(xùn)練完之后就知道什么情況下出現(xiàn)的是手了,但是訓(xùn)練視頻很長(zhǎng)、很麻煩,模型推薦系統(tǒng)就是把視頻切開(kāi)來(lái),每個(gè)房間用一個(gè)模型,像科目分開(kāi)學(xué)一樣,每個(gè)情況分開(kāi)討論,這樣出現(xiàn)一個(gè)新的問(wèn)題大致判斷是什么情況下的,就用這個(gè)情況下的結(jié)果。”
勤奮而快樂(lè)的科技探索
當(dāng)然,僅僅有創(chuàng)意也是不夠的,還需要大量基礎(chǔ)性的數(shù)據(jù)采集工作,李誠(chéng)首先建立了一個(gè)標(biāo)定過(guò)的有兩億多個(gè)像素實(shí)例、覆蓋了各種不同光照環(huán)境下的手部照片的室內(nèi)/室外第一人稱(chēng)手部識(shí)別數(shù)據(jù)集。利用這個(gè)數(shù)據(jù)集以及其他研究者發(fā)布的數(shù)據(jù)集,李誠(chéng)對(duì)較為常用的底層特征進(jìn)行了測(cè)試。他提出了一個(gè)基于稀疏特征選擇,以及依賴(lài)于全局特征的結(jié)構(gòu)化判斷方案。對(duì)于許多人來(lái)說(shuō)這項(xiàng)工作是枯燥的,對(duì)李誠(chéng)則不然,他具備將工作和快樂(lè)畫(huà)上等號(hào)的能力和心態(tài)。
“一張圖片就好幾萬(wàn)個(gè)像素,總共幾百?gòu)垐D片的樣子吧,我的工作就是一張圖過(guò)來(lái)以后我把它上面的手給涂出來(lái)。這一過(guò)程看起來(lái)很辛苦,但是也可能沒(méi)有想象中的那么枯燥。李誠(chéng)笑談道,“當(dāng)時(shí)我是選了《愛(ài)情公寓》這部電視劇作為手部識(shí)別數(shù)據(jù)集的素材,我用三天時(shí)間就看完了這部其他人用一個(gè)月甚至幾個(gè)月才看完的電視劇。當(dāng)然與其他人還有點(diǎn)不同,我看這部電視劇是要把里面的許多場(chǎng)景的許多手都一點(diǎn)點(diǎn)給標(biāo)記出來(lái),用以收集數(shù)據(jù),而不是關(guān)注其本身的劇情。”
有的程序要運(yùn)行很長(zhǎng)時(shí)間甚至兩三天,李誠(chéng)也會(huì)“忙里偷閑”,上午整理代碼,下午讓程序在服務(wù)器上運(yùn)行,他可以整個(gè)下午出去打球。“我在卡內(nèi)基梅隆大學(xué)的暑假還是很開(kāi)心的。科研,也可以輕松愉快。”
由于有時(shí)攝像機(jī)的移動(dòng)速度過(guò)快,考慮到時(shí)間與空間的連續(xù)性信息,在之后處理過(guò)程,李誠(chéng)采用了時(shí)空馬爾科夫場(chǎng)濾波的算法,有效解決了這一問(wèn)題。這些核心技術(shù)的巧妙運(yùn)用,使得李誠(chéng)的模型準(zhǔn)確率領(lǐng)先于包括喬治亞理工、加州大學(xué)歐文分校在內(nèi)的美國(guó)其他大學(xué)提出的幾種主流模型。
功夫不負(fù)有心人
利用在卡內(nèi)基梅隆大學(xué)的一個(gè)寒假和一個(gè)暑假,李誠(chéng)完成了第一人稱(chēng)手部檢測(cè)的研究工作,他的成果也很快得到了同行專(zhuān)家的認(rèn)可。李誠(chéng)以第一作者分別在兩個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域的頂尖學(xué)術(shù)會(huì)議CVPR2013(IEEE Conference on Computer Vision and Pattern Recognition)和ICCV2013(IEEE International Conference on Computer Vision)上發(fā)表論文2篇。該項(xiàng)目相關(guān)代碼、數(shù)據(jù)集也已加入到谷歌公司的手部檢測(cè)項(xiàng)目中并且即將加入目前應(yīng)用最廣泛的機(jī)器視覺(jué)開(kāi)源庫(kù)OpenCV的最新版本OpenCV3.0中。中國(guó)科學(xué)院院士張鈸對(duì)項(xiàng)目予以了充分肯定,并評(píng)價(jià)道:“具有很高的研究水平和很好的推廣前景”。
這樣一個(gè)充滿(mǎn)創(chuàng)意的作品,卻差點(diǎn)與“挑戰(zhàn)杯”擦肩而過(guò)。在清華校內(nèi)“挑戰(zhàn)杯”上,《多光照環(huán)境下的第一人稱(chēng)手部檢測(cè)》項(xiàng)目?jī)H僅獲得了三等獎(jiǎng)。“在選拔全國(guó)‘挑戰(zhàn)杯’參賽作品時(shí),系團(tuán)委向校團(tuán)委推薦說(shuō),這里還有一件很牛的作品,我就被報(bào)上去了。” 李誠(chéng)笑言。這件作品很快得到了專(zhuān)家們的一致肯定,并代表清華大學(xué)參加全國(guó)“挑戰(zhàn)杯”。最終作品獲得“挑戰(zhàn)杯”信息技術(shù)類(lèi)特等獎(jiǎng),回憶捧杯的那一瞬間,李誠(chéng)說(shuō):“我的感受就是,功夫不負(fù)有心人,辛苦得到了回報(bào)。”
“我會(huì)在北京創(chuàng)業(yè),”談到未來(lái),李誠(chéng)信心滿(mǎn)滿(mǎn),“我已經(jīng)開(kāi)始和人洽談,仍然會(huì)從事計(jì)算機(jī)視覺(jué)領(lǐng)域的產(chǎn)品研發(fā)。”從科研到創(chuàng)業(yè),對(duì)李誠(chéng)來(lái)說(shuō),變的是身旁紛繁的世界,不變的是那顆始終渴望挑戰(zhàn)、追求卓越的心。
(清華新聞網(wǎng)11月22日電)
編輯:襄樺 范麗