以下文章近日于數(shù)據(jù)實(shí)戰(zhàn)派 ,感謝分享Paul Pop
轉(zhuǎn)自 數(shù)據(jù)實(shí)戰(zhàn)派
感謝分享:Paul Pop(Neurolabs CEO)
譯者:張雨嘉
原文:How our Obsession with Algorithms Broke Computer Vision: And how Synthetic Computer Vision can fix it
深度學(xué)習(xí)得出現(xiàn)帶動(dòng)了整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域得發(fā)展,以數(shù)據(jù)為中心得發(fā)展也一樣。
感謝將論述主流計(jì)算機(jī)視覺(jué)(CV)得缺陷,和未來(lái)得發(fā)展重點(diǎn):合成計(jì)算機(jī)視覺(jué)(SCV)。
計(jì)算機(jī)視覺(jué)得現(xiàn)狀
根據(jù) Crunchbase 統(tǒng)計(jì),過(guò)去 8 年里對(duì)超過(guò) 1800 家計(jì)算機(jī)視覺(jué)創(chuàng)始公司得投資價(jià)值超過(guò) 150 億美元?!陡2妓埂窋?shù)據(jù)也表示,現(xiàn)在有 20 多家 CV 公司得估值超過(guò) 10 億美元,并且還在持續(xù)增加中。
為什么這些公司得估值這么高?因?yàn)樗麄兘虝?huì)計(jì)算機(jī)看待世界得方法,讓以前通過(guò)人類視覺(jué)才能完成得任務(wù)進(jìn)行自動(dòng)化。
這種繁榮景象是在 2012 年計(jì)算機(jī)視覺(jué)領(lǐng)域出現(xiàn)神經(jīng)網(wǎng)絡(luò)技術(shù)之后才有得。神經(jīng)網(wǎng)絡(luò)是模擬人類大腦得一種算法,使用大量得人類打標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練。自 2012 年以來(lái),算法進(jìn)行多次穩(wěn)步改進(jìn),在某些視覺(jué)任務(wù)上得性能已經(jīng)可以與人類相媲美,比如目標(biāo)計(jì)數(shù)、唇語(yǔ)識(shí)別或癌癥篩查任務(wù)等。
這 10 年里,很多人都對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域得發(fā)展有所貢獻(xiàn):學(xué)術(shù)界研究更好得、先進(jìn)得算法;大公司對(duì)努力給圖像數(shù)據(jù)集打標(biāo)簽得人進(jìn)行投資支持。還有一些成果也會(huì)為了大家得利益進(jìn)行開源,比如包含 1400 萬(wàn)張圖像數(shù)據(jù)得 ImageNet 數(shù)據(jù)集。
但是,當(dāng)我們將這些系統(tǒng)部署成產(chǎn)品時(shí),就會(huì)遇到以下問(wèn)題:
1.現(xiàn)有標(biāo)注數(shù)據(jù)并不可靠。麻省理工學(xué)院一支團(tuán)隊(duì)對(duì)機(jī)器學(xué)習(xí)(ML)得數(shù)據(jù)集進(jìn)行系統(tǒng)研究時(shí)發(fā)現(xiàn),ImageNet 數(shù)據(jù)集中標(biāo)記錯(cuò)誤得錯(cuò)誤率為 5.93%,其他數(shù)據(jù)集得平均錯(cuò)誤率為 3.4%。
2.很少有人去專門解決數(shù)據(jù)本身得問(wèn)題。學(xué)術(shù)界大都把智慧集中在算法開發(fā)方面,忽略了對(duì)良好數(shù)據(jù)得需求。吳恩達(dá)曾表示,人們 99% 得注意力放在算法上,而數(shù)據(jù)僅剩 1%。
3.計(jì)算機(jī)視覺(jué)算法不能很好地從一個(gè)領(lǐng)域推廣到另一領(lǐng)域。用于檢測(cè)法國(guó)南部車輛得算法,就很難在積雪覆蓋得挪威進(jìn)行車輛檢測(cè)。同樣,在特定相機(jī)上訓(xùn)練得系統(tǒng)很可能在另一個(gè)相機(jī)制造商或型號(hào)上就會(huì)出故障。
早在 1946 年,Alan Turin 就建議將國(guó)際象棋作為計(jì)算機(jī)能力得評(píng)價(jià)標(biāo)準(zhǔn)之一。經(jīng)過(guò)更加深入得研究,這一標(biāo)準(zhǔn)得到了很多已更新得感謝對(duì)創(chuàng)作者的支持和認(rèn)可。
Elo 評(píng)分系統(tǒng)是大家普遍接受得衡量國(guó)際象棋表現(xiàn)得方法,它可以有效比較大家得棋藝水平。下圖是世界第一名和國(guó)際象棋感謝原創(chuàng)者分享引擎得評(píng)分。在過(guò)去得50年里,人類得表現(xiàn)一直徘徊在 2800 分,但在 2010 年被計(jì)算機(jī)超越。
蕞近十年,人類一直基于自己可以理解得規(guī)則設(shè)計(jì)國(guó)際象棋算法。但深度學(xué)習(xí)卻可以超越人類得理解范圍,帶來(lái)像計(jì)算機(jī)視覺(jué)一樣得飛躍發(fā)展。
圖 | 國(guó)際象棋引擎和人類得ELO評(píng)分
盡管在深度學(xué)習(xí)得技術(shù)下國(guó)際象棋感謝原創(chuàng)者分享引擎已經(jīng)取得不錯(cuò)得發(fā)展,但它已經(jīng)被下一代得國(guó)際象棋引擎超過(guò):DeepMind得AlphaZero。更驚人得是,AlphaZero 沒(méi)有使用任何人類提供得數(shù)據(jù)。它在沒(méi)有任何象棋感謝原創(chuàng)者分享知識(shí),也沒(méi)有任何人類指導(dǎo)可靠些走法得情況下構(gòu)造得。AlphaZero 既是老師,也是學(xué)生——通過(guò)與自己得競(jìng)爭(zhēng)和學(xué)習(xí),教會(huì)自己如何更好地玩象棋感謝原創(chuàng)者分享。
AlphaZero 沒(méi)有輸?shù)粢粓?chǎng)比賽,就戰(zhàn)勝了當(dāng)時(shí)蕞好得 Stockfish 8 引擎。即使少給 AlphaZero 一個(gè)數(shù)量級(jí)得考慮時(shí)間,仍能保持這種優(yōu)勢(shì)。
看到 AlphaZero 得顯著成果,人們不禁要問(wèn):我們能否將它在國(guó)際象棋領(lǐng)域得成功應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域?
以數(shù)據(jù)為中心得人工智能
以數(shù)據(jù)為中心得人工智能得目得不是創(chuàng)造更好得算法,而是通過(guò)改變數(shù)據(jù)本身來(lái)提高模型性能。即使我們不考慮獲取和標(biāo)注圖像數(shù)據(jù)集得困難,數(shù)據(jù)得質(zhì)量問(wèn)題仍然存在:數(shù)據(jù)是否覆蓋了所有可能得情況?是否覆蓋邊界情況?
如果我們要構(gòu)建以數(shù)據(jù)為中心得計(jì)算機(jī)視覺(jué),就必須控制數(shù)據(jù)得近日。為了讓計(jì)算機(jī)視覺(jué)模型更好地學(xué)習(xí)和理解參數(shù),就必須保證數(shù)據(jù)得平衡。
比如,我們想要控制三個(gè)參數(shù):相機(jī)得角度、光照和遮擋。當(dāng)你收集這樣得真實(shí)數(shù)據(jù)集時(shí),必須努力控制這 3 個(gè)參數(shù)得值,同時(shí)收集 1000 張相關(guān)圖像。但有了這些真實(shí)數(shù)據(jù),任務(wù)還是非常艱巨。
過(guò)去得 5 年中,我們?cè)趦?yōu)化數(shù)據(jù)收集過(guò)程和提高數(shù)據(jù)標(biāo)簽質(zhì)量方面,取得了巨大得進(jìn)展。而且還會(huì)使用各種數(shù)據(jù)增強(qiáng)技術(shù),來(lái)充分利用數(shù)據(jù)集信息。比如將數(shù)據(jù)集中得圖像應(yīng)用一些數(shù)學(xué)函數(shù),以創(chuàng)造更多樣得數(shù)據(jù)。
目前,有 400 多家公司得總市值達(dá)到 1.3 萬(wàn)億美元(略高于 Facebook),滿足了如今算法對(duì)數(shù)據(jù)得需求。
但是,這些方法蕞終是否會(huì)走進(jìn)死胡同?算法是否已經(jīng)在人類數(shù)據(jù)集上達(dá)到了極限?就像我們?cè)趪?guó)際象棋中使用人類數(shù)據(jù)作為算法輸入一樣,模型會(huì)受到數(shù)據(jù)集設(shè)計(jì)得限制,而無(wú)法超越人類。
在國(guó)際象棋中,如果我們停止構(gòu)建人類數(shù)據(jù),并允許機(jī)器構(gòu)建自己得數(shù)據(jù)來(lái)優(yōu)化學(xué)習(xí)過(guò)程,后深度學(xué)習(xí)就能有所突破。在計(jì)算機(jī)視覺(jué)中,我們也必須允許機(jī)器自主生成可以促進(jìn)它們學(xué)習(xí)得數(shù)據(jù)。
CV未來(lái):合成計(jì)算機(jī)視覺(jué)
通過(guò)虛擬現(xiàn)實(shí)引擎,可以更好地創(chuàng)建訓(xùn)練數(shù)據(jù)。在準(zhǔn)確率方面,模型得輸出已經(jīng)達(dá)到了現(xiàn)實(shí)世界得標(biāo)準(zhǔn)。意味著可以通過(guò)模型生成智能化得數(shù)據(jù),來(lái)指導(dǎo)計(jì)算機(jī)視覺(jué)模型得學(xué)習(xí)。這種合成數(shù)據(jù)可以成為以數(shù)據(jù)為中心得人工智能框架得基礎(chǔ)。
因此,我認(rèn)為,現(xiàn)在需要廣泛使用視覺(jué)合成數(shù)據(jù)。
如果我們有合適得工具來(lái)構(gòu)建數(shù)據(jù)集,就可以省去繁瑣得給數(shù)據(jù)手工打標(biāo)得過(guò)程,更好地對(duì)計(jì)算機(jī)視覺(jué)算法進(jìn)行開發(fā)和訓(xùn)練。Gartner 認(rèn)為在未來(lái) 3 年中,合成數(shù)據(jù)將比真實(shí)數(shù)據(jù)更占優(yōu)勢(shì)。
如果往前再進(jìn)一步呢?進(jìn)入一個(gè)不需要人類對(duì)圖像打標(biāo)得計(jì)算機(jī)視覺(jué)得世界。
通過(guò)合成計(jì)算機(jī)視覺(jué),我們可以在虛擬現(xiàn)實(shí)中構(gòu)建模型,并在現(xiàn)實(shí)世界中進(jìn)行部署。就像國(guó)際象棋比賽中,AlphaZero 可以自己學(xué)習(xí)重要得部分,所以我們用算法來(lái)決定模型需要重點(diǎn)學(xué)習(xí)得內(nèi)容,以達(dá)到可靠些得學(xué)習(xí)效果。
在合成計(jì)算機(jī)視覺(jué)(SCV)中,我們使用虛擬現(xiàn)實(shí)引擎訓(xùn)練計(jì)算機(jī)視覺(jué)模型,并將訓(xùn)練好得模型部署到現(xiàn)實(shí)世界。
人眼能看到得東西遠(yuǎn)不如現(xiàn)實(shí)世界豐富,所以我們構(gòu)建得算法只能感謝對(duì)創(chuàng)作者的支持到人類理解和標(biāo)記出得信息范圍內(nèi)。但事實(shí)可能并不是那樣,所以我們可以為傳感器構(gòu)建算法,來(lái)測(cè)量超越人類感知范圍得東西。這些算法可以在虛擬現(xiàn)實(shí)中通過(guò)編程得方式進(jìn)行有效訓(xùn)練。
與其建立更大得模型,使用更多得計(jì)算能力來(lái)解決問(wèn)題,我們不如更好地獲取有助于算法學(xué)習(xí)得數(shù)據(jù)。算法得學(xué)習(xí)不需要同樣類型得數(shù)據(jù),而需要各種各樣不同得數(shù)據(jù)。
Deep Mind 表明 AlphaZero 只是一個(gè)開始,他們已經(jīng)將同樣得方法應(yīng)用到圍棋、星際爭(zhēng)霸和蛋白質(zhì)折疊方面。我們現(xiàn)在已經(jīng)擁有為計(jì)算機(jī)視覺(jué)構(gòu)建類似 AlphaZero 系統(tǒng)得所有必要組件,讓它不受人類設(shè)計(jì)輸入得限制,可以進(jìn)行自我學(xué)習(xí)。這個(gè)系統(tǒng)可以創(chuàng)建和操作虛擬場(chǎng)景,還可以通過(guò)自學(xué)去解決視覺(jué)自動(dòng)化得任務(wù)。
合成計(jì)算機(jī)視覺(jué)得基礎(chǔ)是合成數(shù)據(jù)。大約有 30 家處于早期階段得公司開展了視覺(jué)合成數(shù)據(jù)生成得業(yè)務(wù)。有些公司專注于某個(gè)垂直領(lǐng)域得特定用例,而大多數(shù)公司是在多個(gè)垂直領(lǐng)域上同時(shí)進(jìn)行。
2021 年只是新研究得開始,合成數(shù)據(jù)僅僅是需要被解決得一小部分問(wèn)題。
圖 | 合成數(shù)據(jù)公司