摘要:語音技術之外,19 歲科大訊飛還有更多想要改變的事情。
按一個人的年齡計算,19 歲意味著剛剛成年,即將感受社會萬千,但從企業(yè)發(fā)展時間來看,已經(jīng) 19 歲的科大訊飛無疑已經(jīng)經(jīng)歷了太多風云變化,這家市值超過 700 億元的中國公司,在科技領域算是久經(jīng)沙場。
從智能語音技術起步,開發(fā)智能語音平臺,建立中文語音交互技術標準,科大訊飛在人工智能領域逐漸成為領軍者,而伴隨在消費端的產(chǎn)品持續(xù)輸出,訊飛輸入法、訊飛翻譯機等則讓越來越多人看到了中國科技企業(yè)在人工智能領域的躍進。
今年 5 月,曾任職微軟亞洲研究院首席研究員、副院長、微軟公司合伙人的李世鵬加入科大訊飛,擔任科大訊飛副總裁、訊飛 AI 研究院聯(lián)席院長,在業(yè)內(nèi)引起不小轟動。
李世鵬于 1995 年正式進入微軟,2015 年出任硬蛋科技 CTO,其主要研究領域是信號與圖像處理、圖像與視頻編碼、應用層網(wǎng)絡技術、數(shù)字版權(quán)管理及無線通信與網(wǎng)絡等,這些領域與人工智能技術存在很多分叉,伴隨李世鵬的加入,科大訊飛的未來之路無疑引起外界更多好奇。
7 月 21 日,在極客公園 Rebuild 2018 科技商業(yè)峰會現(xiàn)場,李世鵬教授通過演講和我們分享了科大訊飛將如今通過人工智能技術進一步影響不同行業(yè),以及科大訊飛的人工智能未來會邁向何方。
以下內(nèi)容來自李世鵬教授在 Rebuild 2018 科技商業(yè)峰會的演講分享(極客公園經(jīng)過編輯整理,略有刪節(jié)):
從感知智邁向認知智能
我們知道人工智能有兩個途徑,一是現(xiàn)在大家習以為常,通過深度學習和大數(shù)據(jù)的方式來研究人工智能。這種方法現(xiàn)在是 99% 以上的公司都在做的,確實在很多領域能幫助我們提高生產(chǎn)效率。
但這個方法最大的瓶頸就是數(shù)據(jù),能不能有更聰明的人工智能最后取決于能不能更有效的獲得一些被標注的數(shù)據(jù)。如果你用更多的數(shù)據(jù)就能讓人工智能做更多的事情。如果大家到深圳或者其他傳統(tǒng)的生產(chǎn)線去看,很多生產(chǎn)線改成了數(shù)據(jù)標注線,很多工人在那兒標注數(shù)據(jù)。從另外一個層面反映現(xiàn)在大部分人工智能還是一個「人工」。
另外一條路,就是對人腦的認知。通過對人腦的研究去找到一些新方法?,F(xiàn)在有一個理論,就是通過小數(shù)據(jù)構(gòu)建大模型。假如你給某人看一個杯子,他看幾次就知道,下次再看到盡管不是同樣形狀的但這還是一個杯子。
因為人的認知不單是形狀,還從功能上去認識這個杯子。怎樣在人腦認知種發(fā)現(xiàn)人工智能一些新的認識?這是很好的研究課題,也是科大訊飛聯(lián)合很多世界頂尖學校比如 MIT 等在做的事情。
現(xiàn)在大部分人工智能還停留在感知智能階段。感知智能包括語音識別,就包括翻譯、人臉識別等,但真正對內(nèi)容的理解沒有那么深。而更高一級,認知智能是更高層次的對內(nèi)容的認識,這是真正人工智能的必經(jīng)之路
認知就是嘗試理解,在 2017 年 10 月份科大訊飛參加了斯坦福大學發(fā)起的閱讀理解測試,是當時的世界紀錄保持者,經(jīng)過這段時間進展,很多其他研究單位也趕上來了,但是我們現(xiàn)在還是世界上三個在閱讀理解能力超過人的閱讀能力的公司之一。
第二,用機器人或人工智能來對論文、作文進行評估。我們目前對中文的作文和英文的作文,都進行了很有效的評估。這一系統(tǒng)已經(jīng)在江蘇大學的入學考試中投入使用。除了更準確之外,它還比人更有一致性,這一點很重要。
過去我們通過圖靈測試測試機器的認知程度,現(xiàn)在很多機器都可以達到這樣的水平,所以就有了改進版的測試方式 Winograd Schema Challenge,它從一些常識性的知識推理來看機器是否達到了認知。
比如說「爸爸沒法舉起兒子,因為他很重」這個問題,這里面在問誰重?我們?nèi)嘶卮鸷芎唵危褪峭ㄟ^直覺肯定兒子重,所以爸爸舉不起來。但機器來回答這個問題可能就沒有那么容易了,因為他沒有這個常識和直覺。常識性問題,是人工智能領域研究的熱門課題。如果這個方面有突破的話,我相信人的認知方面就有很大的進展。
從語音向綜合場景擴展
我們?nèi)ツ暾故玖苏Z音合成聲音的成果,今年又有一些進展。我們可以以任何人的口氣講任何的話,甚至是任何的語音。這聽上去有點可怕,但是我們可以為人做更好的服務。比如你可以用父母的聲音給小孩講故事,或者用已經(jīng)不在的老人的聲音給孩子講話,這都是有價值的應用。
2015 年,科大訊飛的機器識別速度超過了人類的速記員,今天看到后面還有速記員,如果用科大訊飛的語音識別技術的話一,很多繁雜的工作就不需要了。這是人工智能在速記上已經(jīng)產(chǎn)生的影響。
方言識別方面,科大訊飛現(xiàn)在能識別至少 22 種方言,這是很有用的。比如今天在成都,其實四川話的識別就和標準普通話的識別完全不同。我們可以做到用標準的四川話來講,如果大家用科大訊飛的語音輸入法就知道這項技術的方便。
訊飛翻譯機和訊飛聽見解決的是不同場景下的翻譯問題。訊飛翻譯機 2.0 上市以來就處于供不應求的狀態(tài),最近也剛剛被總理自掏腰包購買,成為國禮。這些都是我們的網(wǎng)紅產(chǎn)品。但我們不單自己用自己的技術。我們也把這套技術完全開放給合作伙伴,就是 AIUI 開發(fā)系統(tǒng)。
截至 2018 年 6 月 30 日,訊飛開放平臺開發(fā)者團隊數(shù) 88 萬,覆蓋終端數(shù) 19 億,日均交互服務 46 億次,AI 大學學員 22 萬。
我們還把 AI 技術應用到了醫(yī)療領域,包括醫(yī)療影像。科大訊飛不再是一個只是在語音方面有專長的公司,在視覺也有很大的進展。在去年,我們成為中國第一個通過醫(yī)考的機器人,拿到 456 分的成績,超過了 95% 的考生。利用這套技術和相關的一些數(shù)據(jù),我們在做中國首家人工智能醫(yī)院,去幫助醫(yī)生提高診斷準確率。
人工智能也在改變教育領域。從古到今大家熟悉的教育方式都是一個老師在講課,下面的學生都在聽,人工智能可以做到精準教學、個性化學習。因為通過試卷和作業(yè)的分析,AI 能清楚的知道每個學生的知識薄弱點。教師通過這種數(shù)據(jù)可以進行有效的精準教學。在布置作業(yè)的時候就可以針對性出題。提高效率的同時,也省出時間去做課外興趣,這是對人類教育的重大的突破。
人跟機器怎樣進行有效的和諧交互,是我們研究的重要課題。AI 目前還是輔助人產(chǎn)生效率的,但我們希望人的介入會進一步加強機器的迭代,用人工智能建設美好世界,我們現(xiàn)在才剛剛邁出了一小步。
■