10 月 31 日,北京創(chuàng )建全球人工智能學(xué)術(shù)和創(chuàng )新最優(yōu)生態(tài)的標志性學(xué)術(shù)活動(dòng)“智源大會(huì )”在國家會(huì )議中心召開(kāi)。
會(huì )上,自然語(yǔ)言處理領(lǐng)域國際領(lǐng)軍人物、清華大學(xué)教授、智源首席科學(xué)家孫茂松接受采訪(fǎng)向記者表示:當前,大數據驅動(dòng)的自然語(yǔ)言處理已經(jīng)做得不錯,但大知識或者比較豐富的知識驅動(dòng)的自然語(yǔ)言處理才剛剛起步,智源的目標是實(shí)現大數據和大知識雙輪驅動(dòng)的自然語(yǔ)言處理。實(shí)現這一目標的前提是構建一個(gè)全世界通用的人類(lèi)知識庫,這也是智源“自然語(yǔ)言處理”研究方向科學(xué)家們現階段要重點(diǎn)攻克的難題。
以下是與孫茂松教授的訪(fǎng)談實(shí)錄:
孫茂松: 人工智能這幾年的發(fā)展,大家接觸比較多的是圖像方面的成果,包括很多創(chuàng )業(yè)公司,像人臉識別、刷臉等等,圖像方面的進(jìn)步非???。但是圖像只是智能的一部分,人的智能區別于動(dòng)物最主要的特征是語(yǔ)言。人工智能領(lǐng)域有一句話(huà)叫:讓計算機理解自然語(yǔ)言是人工智能皇冠上的明珠。下一步人工智能要害的地方就是想辦法讓機器理解人類(lèi)的語(yǔ)言,這是自然語(yǔ)言處理在人工智能學(xué)科中的地位。
對于智源的自然語(yǔ)言處理方向,我們也是根據自然語(yǔ)言處理發(fā)展的歷史脈絡(luò )設定研究目標。自然語(yǔ)言處理這幾年的進(jìn)展和圖像識別進(jìn)展背后依賴(lài)的基本方法是差不多的,就是深度學(xué)習。深度學(xué)習最顯著(zhù)的特點(diǎn)就是依靠大數據,必須要有海量的數據來(lái)訓練。自然語(yǔ)言處理相關(guān)的,比如語(yǔ)音識別和機器翻譯,大家覺(jué)得這幾年還不錯,都是靠大數據驅動(dòng)。好處就是能使性能飛速提升,但也存在問(wèn)題,大數據驅動(dòng)的深度學(xué)習是典型的是黑盒。雖然看起來(lái)翻譯得不錯,好像機器理解了這句話(huà),其實(shí)完全沒(méi)有理解,這個(gè)系統在處理復雜語(yǔ)義的時(shí)候非常脆弱。
如果一個(gè)句子中包含世界知識,翻譯系統經(jīng)常會(huì )被搞得稀里糊涂。比如公交車(chē)上的到站提醒“前門(mén)快到了,請從后門(mén)下車(chē)”,把這個(gè)句子給計算機翻譯,現在所有的計算機系統都是不行的,它不知道“前門(mén)”這個(gè)地方。
下一步我們認為要真正理解語(yǔ)言、攻克人工智能的難關(guān),需要知識驅動(dòng)。我們提出口號,大數據驅動(dòng)的自然語(yǔ)言處理已經(jīng)做得不錯,大知識或者比較豐富的知識驅動(dòng)的自然語(yǔ)言處理才剛剛起步。在智源的框架下,我們希望做到大數據和大知識或者富知識雙輪驅動(dòng)的自然語(yǔ)言處理,這對現在人工智能的大數據驅動(dòng)的方法也是重要的突破。做這件事非常難,需要有計算機可操作的人類(lèi)知識庫作為基本資源,但這個(gè)知識庫現在還沒(méi)有做出來(lái)。雖然全世界范圍內有一些知識庫,但是還沒(méi)有真正能夠很好地驅動(dòng)自然語(yǔ)言處理的人類(lèi)知識庫,特別是常識庫,可能有一些基于某個(gè)角度的知識庫,但得到全人類(lèi)認可的還沒(méi)有。我們希望在常識知識庫、世界知識庫方面做一些嘗試,然后在這個(gè)知識庫基礎上研究新的大數據和大知識結合的人工智能算法。如果做出來(lái)肯定是一項非常重要的突破,能不能做出來(lái)需要看我們的努力。
問(wèn):您提到知識和數據互補,不同的人可能會(huì )有完全不同的知識,怎么去提煉人的常識?我們又怎么實(shí)現讓機器學(xué)習什么呢?
孫茂松:知識體系看起來(lái)好像每個(gè)人都有不同,但實(shí)際上人類(lèi)共同知識的核心是相對穩定的。有一種范疇,在全世界都差不多。比如說(shuō)人是動(dòng)物的一種,這一類(lèi)的知識現在是比較充分的,但更豐富的細節就很匱乏。比如看現在谷歌、Wikidata 等國際上已經(jīng)放出來(lái)的規模特別大的知識庫,其實(shí)是大而不強的。我舉個(gè)例子,比如關(guān)羽,Wikidata 中關(guān)于關(guān)羽的描述包括關(guān)羽是一個(gè)武將,關(guān)羽是中國三國時(shí)期蜀國的一個(gè)將領(lǐng),他生在哪年、死在哪年,他兒子是誰(shuí)。但我們熟知的關(guān)羽的所有事跡都沒(méi)有形式化的描寫(xiě),比如關(guān)羽過(guò)五關(guān)斬六將、走麥城都沒(méi)有,Wikidata 只是給你一篇文章,它只能做粗淺的處理,沒(méi)辦法做推理。這類(lèi)世界知識現在做得非常不夠,這些知識是客觀(guān)存在的,我們需要把這些總結出來(lái),全人類(lèi)應該有很多是有共識的。
我們希望能做這樣的一個(gè)庫,至少做其中的一部分,比如體現北京特色的庫,做得比較深入一些。要做到這一點(diǎn)不能完全靠人工。文本中有這種描述:關(guān)羽哪年哪年從麥城開(kāi)了哪個(gè)門(mén)趁夜逃走,這句話(huà)是有的,但是需要形式化。誰(shuí)逃走了?關(guān)羽。地點(diǎn)在哪?城門(mén)。什么時(shí)候?半夜。這些得抽取出來(lái),抽取出來(lái)以后,才能把所有句子變成一階謂詞邏輯表達式,相當于變成數學(xué)公式,計算機就可以操作了,可以用數學(xué)邏輯的辦法來(lái)推理,可以比較深入。但前提是必須能對這句話(huà)分析出剛才說(shuō)的結構,這就是自然語(yǔ)言處理的任務(wù)。
問(wèn):現在有一些學(xué)者認為人類(lèi)很多發(fā)明在理論之前,比如先做了飛機再出來(lái)空氣動(dòng)力學(xué),他們覺(jué)得這是一個(gè)合理的過(guò)程。在您看來(lái),黑箱對研究和應用會(huì )帶來(lái)什么風(fēng)險,可能造成什么問(wèn)題?
孫茂松:黑箱并不是不好。1950 年圖靈提出圖靈測試,那就是黑箱測試。如果我們在那個(gè)時(shí)候說(shuō)一定要把人腦的機制搞清楚才做人工智能,那到現在人工智能都還沒(méi)法做。實(shí)際上黑箱并不是貶義的,在不同階段,搞不清人腦的時(shí)候就只看外特性,外特性有智能就是智能。圖靈測試偉大的意義在于,我不需要搞清人腦,也可以做人工智能,這是它最重要的意義,可能很多人沒(méi)意識到這點(diǎn)。
黑箱有它的問(wèn)題,它是不得已而為之,如果能搞清人腦的機制再做研究,肯定會(huì )更深刻。比如圖像識別很容易被攻擊,就是因為它是黑箱,是端到端的,端和端的情況千變萬(wàn)化,圖像再多也會(huì )也例外的東西出現,即使有 99% 的概率可以正確識別,也會(huì )有 1% 的例外,那 1% 的例外如果出現某種問(wèn)題,結果可能就很糟糕。必須有系統性的知識才能有系統性的解決方法,否則這個(gè)問(wèn)題解決不了。
舉個(gè)簡(jiǎn)單的例子,60 年代機器翻譯業(yè)界很有名的一個(gè)學(xué)者寫(xiě)了一篇文章,他舉了一個(gè)很簡(jiǎn)單的例子叫“The box was in the pen”,box 是盒子,pen 有兩個(gè)意思:一個(gè)是鋼筆,一個(gè)是圍欄。翻譯這句話(huà)對人來(lái)說(shuō)非常容易,對機器卻很難。首先它要知道 in 是什么意思,in 是一個(gè)小東西裝到一個(gè)大東西里邊;第二要知道 box 盒子比圍欄小,所以可以裝到圍欄里,但不能裝到鋼筆里,裝不進(jìn)去。這句話(huà)現在用谷歌、百度、微軟的機器翻譯系統翻譯出來(lái)都是錯的,都會(huì )翻譯成箱子在鋼筆里,因為它沒(méi)有知識,人家沒(méi)告訴它該怎么翻,它只能按端到端的黑盒來(lái)做,做的就是錯的。圍欄這個(gè)詞出現的頻度很低,鋼筆說(shuō)的頻度高,系統就挑了一個(gè)更有可能出現的詞,就是鋼筆。如果系統具備知識,就能知道這樣翻譯是不對的,因為盒子只能裝到圍欄里,哪怕圍欄這個(gè)詞出現的頻度再低,也只能翻譯成圍欄。
問(wèn):您提到要建立知識庫來(lái)訓練機器和算法,讓它在使用黑箱之前優(yōu)先考慮常識。但是對于何為常識,有一些全人類(lèi)有共識,有一些沒(méi)有共識。有些人可能認為登月是陰謀論,可能還有其他關(guān)于地緣政治或者其他方面的分歧。想構建適合全人類(lèi)的知識庫就會(huì )遇到這個(gè)問(wèn)題,這個(gè)問(wèn)題怎么解決?想要訓練機器去閱讀這些材料,材料應該怎么選???
孫茂松:我說(shuō)的是人類(lèi)知識的核心部分,核心部分是比較穩定的,也就是所謂的常識。超出常識范圍的知識,相當于觀(guān)點(diǎn),不同人會(huì )有不同。我們試圖刻劃常識部分,比如你去餐館,不管全世界哪個(gè)餐館,你要點(diǎn)菜、上菜、吃完之后付賬,不付賬就跑人家肯定不干,這就屬于常識。
觀(guān)點(diǎn)是靈活的,為什么我們要做“雙輪驅動(dòng)”,因為觀(guān)點(diǎn)難以窮盡而且因時(shí)而變、因人而變、因地而變,這就要靠大數據,需要從數據文本里面挖掘。光靠知識肯定不行,核心知識覆蓋面不夠,需要兩方面結合。
另外,知識庫一定要是高質(zhì)量的,里面不能包含人為的錯誤,這是基本要求。人類(lèi)常識和世界知識基本的原則之一,就是要符合事實(shí)。
問(wèn):如果使用更小的數據集,在現有的研究狀態(tài)下可能會(huì )導致精度下降,基于保護隱私的考慮,如果有人想致力于用小數據集產(chǎn)出同樣或類(lèi)似的結果,這個(gè)工作是不是很困難?
孫茂松:很困難。目前這一輪大家用的比較火的方法基本都是基于大數據,沒(méi)有大數據根本不成。小數據是研究熱點(diǎn),比如醫療領(lǐng)域要拿到病例很困難,可能通過(guò)各種許可也只能拿到幾百個(gè)人的病例,如何把學(xué)術(shù)研究利益最大化,做出好的成果,必須是小數據驅動(dòng)。小數據就意味著(zhù)要有知識,要能夠推理和判斷,都是這代人工智能最大的短板。
現在大家都在研究小數據,目前如果能取得成功,一般都是在特定領(lǐng)域。針對特定問(wèn)題有相當的知識,在知識的引導下做小數據,才有可能。目前沒(méi)有一個(gè)通行的公認的解決方案,不像深度學(xué)習,有一些基本的工具是全世界都有的。
問(wèn):想要打造一個(gè)您前面提到的龐大的世界知識庫,最大的難點(diǎn)是什么?
孫茂松:這個(gè)知識庫不可能完全靠專(zhuān)家來(lái)寫(xiě),寫(xiě)知識庫需要非常有水平的人,要帶著(zhù)一幫人做 10 年、20 年,才有可能做得不錯。在中國,這種條件基本不具備,中國科研評價(jià)體系急功近利太厲害了,雖然一再號召我們發(fā)揚“板凳干坐十年冷,文章不寫(xiě)半句空”的科研精神,但現在真正坐冷板凳的人還是太少了。而且坐冷板凳的人還得有水平,沒(méi)水平坐一百年冷板凳也沒(méi)有用。
做知識庫需要對世界萬(wàn)物有準確的把握,世界萬(wàn)物理論上都是相互關(guān)聯(lián)的,全部描寫(xiě)是不可能的,一定要抓主要矛盾。這些東西有關(guān)系,要把它的重要關(guān)系找出來(lái),需要有判斷,這是很不容易的。最早做知識體系的是亞里士多德,他的《范疇論》把世界分成若干個(gè)范疇,研究語(yǔ)言的主語(yǔ)、賓語(yǔ)、謂語(yǔ)也是亞里士多德,在中國不太具備同樣的條件。
一個(gè)可行的辦法是我們把現有世界各方面的知識庫都拿來(lái),先做一個(gè)整合,看能不能汲取一些養分,再從文本中挖掘知識庫。你可以設想,互聯(lián)網(wǎng)上所有知識其實(shí)都寫(xiě)出來(lái)了,問(wèn)題是怎么形式化,分出謂詞、主語(yǔ)、賓語(yǔ),讓計算機來(lái)做這件事很難。但這個(gè)事做出來(lái)以后,就有可能把互聯(lián)網(wǎng)上所有的文本形式化,變成類(lèi)似前面提到的謂詞邏輯表達式,相當于變成某種公式化,然后就可以往知識庫填充了。如果這條道走通了,問(wèn)題就能在一定程度上得到解決。但是讓機器分析出主謂賓太難了,現在瓶頸卡在這里。能不能達到我們的設想,要看自然語(yǔ)言處理技術(shù)能得到多大的幫助,這個(gè)有很大的挑戰。我們不敢說(shuō)一定能做出來(lái),但我們正在往那個(gè)方向努力,我們認為目標應該要做到這個(gè)程度,才有可能解決問(wèn)題。能否達到不好說(shuō),太有挑戰性了,既有難度又有規模的挑戰。
問(wèn):圖神經(jīng)網(wǎng)絡(luò )最近一年熱度很高,前段時(shí)間您的研究團隊也發(fā)表了一篇圖神經(jīng)網(wǎng)絡(luò )的綜述論文,能不能跟我們聊一聊圖神經(jīng)網(wǎng)絡(luò )未來(lái)的發(fā)展潛力?
孫茂松:圖神經(jīng)網(wǎng)絡(luò )本身的算法研究,總的來(lái)說(shuō)還是中規中矩,并沒(méi)有特別的奇思妙想。把現在神經(jīng)網(wǎng)絡(luò )的辦法用到圖上是一個(gè)比較自然的延伸,這兩年得到關(guān)注是因為端到端基本上走到極致了,科研紅利基本走到頭了,大家意識到端到端有問(wèn)題,所以要引入圖。引入圖就是為了引入相關(guān)的知識,顯式知識還是隱含的知識,兩者有關(guān)聯(lián),相當于抽取某種知識放進(jìn)去,就反映我說(shuō)的,希望把某種知識嵌進(jìn)去才有圖神經(jīng)網(wǎng)絡(luò )。圖神經(jīng)網(wǎng)絡(luò )研究難在于圖本身怎么構造,這是我個(gè)人感覺(jué)最有挑戰性的,其他的方法研究反而不是很難。原來(lái)圖方面已經(jīng)有很多工作,圖的經(jīng)典算法非常多,圖神經(jīng)網(wǎng)絡(luò )是圖算法和神經(jīng)網(wǎng)絡(luò )算法比較自然的結合,這有挑戰,但是挑戰不是特別大。圖如果做的很淺,即使把圖神經(jīng)網(wǎng)絡(luò )放進(jìn)來(lái),效果也有限;如果圖包含的知識很多,可能就難,目前對圖的應用還是相對簡(jiǎn)單。
問(wèn):現在大家都到了對深度學(xué)習開(kāi)始反思的階段?
孫茂松:現在不是反思,走到這基本上深度學(xué)習的好處我們享受得差不多了,它的不足不是做得不好,而是因為它的方法天然就有某種缺陷,大家都碰到了這個(gè)問(wèn)題,不用反思。比如機器翻譯,谷歌基本上把全世界雙語(yǔ)語(yǔ)料都整全了,按理說(shuō)功能非常強大,但還是解決不了“Box was in the pen”的問(wèn)題。翻譯要做到信達雅,信現在還沒(méi)做到呢,更不用說(shuō)達雅。那要怎么做到信呢,大家現在都意識到深度學(xué)習好像不能解決這個(gè)問(wèn)題,沒(méi)有知識庫就解決不了。端到端的功能非常強大,但是有時(shí)候又不像我們想象的那么強大,這不是反思,碰壁了就得思考。
問(wèn):您怎么評價(jià)當前國內在自然語(yǔ)言處理領(lǐng)域學(xué)術(shù)研究的現狀?您覺(jué)得做的好和不好的點(diǎn)在哪?
孫茂松:國內自然語(yǔ)言處理從研究角度來(lái)看,我認為在國際上應該是處在一線(xiàn),在最好的之列,并不遜于斯坦福、MIT 這些機構。但是自然語(yǔ)言處理缺一個(gè)特別重要的里程碑式突破,比如圖像領(lǐng)域有李飛飛團隊的 ImageNet,這樣一個(gè)特別重要的進(jìn)展。自然語(yǔ)言處理里面有兩個(gè)方向有比較大的進(jìn)展,一個(gè)是語(yǔ)音識別,一個(gè)是機器翻譯,這兩件事都是由公司在往前推。大學(xué)的研究如果從發(fā)表高水平論文這個(gè)角度來(lái)說(shuō),國內做得不錯,從定量指標來(lái)看,我們實(shí)際上做得不錯。但是這個(gè)領(lǐng)域還要看效果,不能光看論文,這方面我們就弱了,反而公司在引領(lǐng)潮流,因為需要強大的計算能力。從研究角度我們做得還不錯,并不意味著(zhù)我們整體做得不錯。坦白說(shuō),在 NLP 領(lǐng)域我們跟國際上最好的學(xué)校做的差別不是太大,反而在比如語(yǔ)義資源建設上,美國有 WordNet,我們沒(méi)有,當然國內有 HowNet,但是 HowNet 不是大學(xué)做出來(lái)的。
問(wèn):現在有很多成果都是工業(yè)界做出來(lái)的,這個(gè)趨勢會(huì )延續下去嗎?
孫茂松:工業(yè)界在享受學(xué)術(shù)界得到的創(chuàng )新,0 到 1 這個(gè)事基本不是工業(yè)界做的,像深度學(xué)習的 0 到 1 是大學(xué)做出來(lái)的,1 到 2 大學(xué)也在做一些。再往后走,工業(yè)界就可以上手了。大學(xué)需要在 0 到 1 這個(gè)階段發(fā)力,才能真正把方向定清楚,2 到 N,大學(xué)是做不過(guò)企業(yè)的。當然這個(gè)過(guò)程有時(shí)候是分成 0 到 1、1 到 3 和 3 到 N。0 到 1 是原創(chuàng ),1 到 3 還是有一些技術(shù)科學(xué)的問(wèn)題搞不清楚。我們現在做得比較多的是 1 到 3,而工業(yè)界也開(kāi)始做 1 到 3 了,大學(xué)和工業(yè)界比就沒(méi)有太大的優(yōu)勢。大學(xué)就應該放手,不去做 3 到 N。大學(xué)應該在 0 到 1 方面發(fā)揮作用,這就涉及到更大的問(wèn)題,涉及到人才培養,涉及到錢(qián)學(xué)森之問(wèn)了。