隨著網(wǎng)絡(luò)數(shù)據(jù)的爆炸性增長(zhǎng),搜索引擎已經(jīng)成為信息化社會(huì)不可或缺的基礎(chǔ)互聯(lián)網(wǎng)應(yīng)用系統(tǒng)之一,。正如2014年圖靈獎(jiǎng)獲得者Vinton Cerf指出,,搜索引擎已經(jīng)成為人類記憶的延伸,這充分說明了搜索已經(jīng)在人類的認(rèn)知過程中發(fā)揮了重要的作用,。盡管搜索引擎在應(yīng)用層面已經(jīng)取得了很大的成功,,但搜索技術(shù)發(fā)展中仍然面臨著巨大的技術(shù)挑戰(zhàn):一方面,網(wǎng)絡(luò)空間數(shù)據(jù)資源的規(guī)模龐大而內(nèi)容繁雜,,目前中文網(wǎng)頁的規(guī)模已經(jīng)達(dá)到數(shù)千億的規(guī)模,,但其中的低質(zhì)量、垃圾乃至非法內(nèi)容卻為數(shù)眾多,;另一方面,,搜索用戶信息需求的內(nèi)容復(fù)雜而表述模糊,搜索引擎每日需要處理數(shù)以億計(jì)的用戶查詢,,但這些查詢的平均長(zhǎng)度僅有6個(gè)字左右,。
從本質(zhì)上講,這兩方面的技術(shù)挑戰(zhàn)反映了用戶個(gè)體相對(duì)有限的認(rèn)知能力與網(wǎng)絡(luò)空間近乎無限的資源容量之間的矛盾,?;诖耍?jì)算機(jī)科學(xué)提出采用群體智能(Wisdom of Crowds)方法來應(yīng)對(duì)這類技術(shù)挑戰(zhàn),。在2015年度北京市科學(xué)技術(shù)獎(jiǎng)評(píng)選中,,清華大學(xué)計(jì)算機(jī)系作為第一完成單位與搜狗公司合作完成的項(xiàng)目“群體智能支撐的互聯(lián)網(wǎng)搜索技術(shù)及其應(yīng)用”獲得一等獎(jiǎng)(技術(shù)發(fā)明類),計(jì)算機(jī)系主要完成人包括劉奕群,、張敏,、馬少平、王超和金奕江,。
群體智能方法,,就是利用用戶群體決策,協(xié)助解決在認(rèn)知與信息處理方面用傳統(tǒng)計(jì)算方法難以直接完成的任務(wù),。計(jì)算方法在處理問題時(shí)具有存儲(chǔ),、處理效率較高的優(yōu)勢(shì),但是其應(yīng)對(duì)認(rèn)知,、推理任務(wù)的能力有限,;人類個(gè)體具有較強(qiáng)的認(rèn)知,、推理能力,但是反饋效率較低,、質(zhì)量也不甚穩(wěn)定,。群體智能很大程度上結(jié)合了兩者之間的優(yōu)勢(shì),借助搜索引擎記錄的規(guī)模龐大的匿名用戶群體行為信息,,就可以從中挖掘提煉出群體智能,,協(xié)助其解決面臨的各種挑戰(zhàn)性問題。
具體來講,,該項(xiàng)目開展了基于用戶行為結(jié)構(gòu)圖的信息需求理解,、基于行為模式挖掘的網(wǎng)絡(luò)資源質(zhì)量評(píng)估、基于點(diǎn)擊模型構(gòu)建的搜索結(jié)果排序三方面的研究工作,。其中,,信息需求理解是資源質(zhì)量評(píng)估與結(jié)果排序工作開展的基礎(chǔ),資源的質(zhì)量水平與排序效果的優(yōu)劣歸根到底由用戶的需求加以定義和度量,,而信息需求理解涉及的用戶行為結(jié)構(gòu)圖模型也構(gòu)成了用戶群體交互行為分析的基本要素,。資源質(zhì)量評(píng)估是搜索結(jié)果排序的主要依據(jù)之一,也是從繁雜的網(wǎng)絡(luò)資源環(huán)境中去偽存真,、去粗取精的基礎(chǔ),。結(jié)果排序是搜索引擎技術(shù)研究的重中之重,直接關(guān)系到用戶信息需求的滿足和信息獲取效率的提升,,而排序的結(jié)果又對(duì)于用戶行為反饋信息的收集產(chǎn)生反作用,。該項(xiàng)目的主要?jiǎng)?chuàng)新點(diǎn)在于對(duì)用戶群體行為中規(guī)律性知識(shí)的提取,以及針對(duì)用戶個(gè)體認(rèn)知行為中決策依據(jù)的分析,。
上述研究成果在學(xué)術(shù)研究及產(chǎn)業(yè)應(yīng)用方面都取得了良好的效果:理論成果方面共申請(qǐng)發(fā)明專利18項(xiàng),,獲得軟件著作權(quán)2項(xiàng),并發(fā)表了數(shù)十篇高質(zhì)量的學(xué)術(shù)論文,,得到眾多國(guó)際權(quán)威學(xué)者引用,,例如微軟研究院的學(xué)者在其論文中稱之為“據(jù)我們所知最為有效的方法”;西班牙Ovideo大學(xué)的學(xué)者評(píng)價(jià)這是“最優(yōu)性能的方法”,。實(shí)際應(yīng)用方面,,該項(xiàng)目通過清華—搜狗搜索技術(shù)聯(lián)合實(shí)驗(yàn)室平臺(tái)進(jìn)行產(chǎn)學(xué)研轉(zhuǎn)化,取得良好效果,。相關(guān)技術(shù)在搜狗公司,、人民網(wǎng)搜索引擎等技術(shù)平臺(tái),北京市工商局、北京市食品與藥品監(jiān)督局等公共管理平臺(tái),,以及7萬余家各類企業(yè)的推廣運(yùn)營(yíng)中取得了良好的應(yīng)用,。