首頁 / 資訊中心 / 趨勢研究/大數(shù)據(jù)或消失,“全量數(shù)據(jù)時(shí)代”將到來

大數(shù)據(jù)或消失,“全量數(shù)據(jù)時(shí)代”將到來

發(fā)布時(shí)間:2018-11-09 分類:趨勢研究

近日,全美排名第四的CTO、天睿公司首席技術(shù)官、全球數(shù)據(jù)倉庫技術(shù)專家Stephen Brobst發(fā)表了名為《數(shù)據(jù)分析的未來》的演講。

他指出,未來大數(shù)據(jù)這個(gè)詞可能會消失,我們將迎來“全量數(shù)據(jù)時(shí)代”;此外,數(shù)據(jù)分析的統(tǒng)計(jì)知識非常重要,只依靠技術(shù)工具進(jìn)行數(shù)據(jù)分析的業(yè)務(wù)領(lǐng)域?qū)<曳浅NkU(xiǎn)。

Stephen指出,未來的數(shù)據(jù)分析將呈現(xiàn)以下四個(gè)基本特點(diǎn)。

1. 從大數(shù)據(jù)思維到全量數(shù)據(jù)思維

Stephen提出的未來數(shù)據(jù)分析第一個(gè)趨勢,是從大數(shù)據(jù)思維向全量數(shù)據(jù)思維的轉(zhuǎn)變。

未來,數(shù)據(jù)的量級已經(jīng)不再是衡量數(shù)據(jù)分析的最重要指標(biāo),最重要的價(jià)值將來自全量數(shù)據(jù)分析,整體數(shù)據(jù)的整合。

他指出,“未來,大數(shù)據(jù)這個(gè)詞或許會消失,取而代之的是【數(shù)據(jù)】或者【所有數(shù)據(jù)】,但數(shù)據(jù)分析會一直存在?!?

無獨(dú)有偶,在剛剛結(jié)束的百度世界大會上,李彥宏也提出了百度的全量數(shù)據(jù)思維。他指出,互聯(lián)網(wǎng)時(shí)代和人工智能時(shí)代最大的不同,就是在數(shù)據(jù)分析上,到底是用抽樣方式還是全量數(shù)據(jù)獲取分析方式。

而顯然,后者更加符合當(dāng)前時(shí)代的發(fā)展特點(diǎn),特別是在一些特別的應(yīng)用場景比如說智能交通領(lǐng)域,用全量實(shí)時(shí)的數(shù)據(jù)來感知交通實(shí)際情況,城市每一輛車所在具體位置,每一個(gè)紅綠燈口有多少輛車,這些車移動的方向等等。通過對這些情況進(jìn)行全局調(diào)整,可以大幅度提升城市交通運(yùn)營效率。

AI思維的智能交通,具備全面感知、全局決策、實(shí)時(shí)控制的特點(diǎn),可以大幅度提升城市交通效率,改善人們的生活體驗(yàn),大大提高人們的幸福感。

2.新的分析技術(shù)將拓寬分析界限

斯坦福大學(xué)教授李飛飛曾公開表示:人工智能、機(jī)器學(xué)習(xí)仍然是一個(gè)進(jìn)入門檻高的領(lǐng)域,需要大量專業(yè)知識和資源,而很少有公司自己能負(fù)擔(dān)得起這些資源。今天,雖然AI能為企業(yè)提供無數(shù)的益處,但由于資源稀缺,多數(shù)企業(yè)還無法開發(fā)個(gè)性化的模型。

越來越多的數(shù)據(jù)分析技術(shù)在算法自動化上的設(shè)置也顯然是奔著解決這一痛點(diǎn)而來。從谷歌的AutoML到Teradata最新產(chǎn)品下一代分析平臺Teradata Vantage,自動化的分析工具正在讓智能分析的門檻變低,界限變廣。

那么,高質(zhì)量的數(shù)據(jù)分析工具是否會降低使用者對于數(shù)據(jù)和數(shù)據(jù)人才的重視程度呢?

“高質(zhì)量的數(shù)據(jù)仍然非常重要”,針對這一問題,Stephen表示,現(xiàn)在盡管分析工具越來越智能,但他們的使用前提依然是沒有偏向(bias)的數(shù)據(jù),和懂得這些數(shù)據(jù)的專業(yè)人士。

“深度學(xué)習(xí)算法實(shí)際上非常適合處理數(shù)據(jù)質(zhì)量問題。很多公司現(xiàn)在用無監(jiān)督學(xué)習(xí)的反饋循環(huán)來解決數(shù)據(jù)質(zhì)量問題,但我們還是希望,在數(shù)據(jù)搜集的過程中就盡量最小化數(shù)據(jù)偏見。數(shù)據(jù)科學(xué)沒有魔法,它不是一個(gè)工具就可以解決的問題。你可以通過一些步驟來測試有偏見的數(shù)據(jù),但這是件很微妙的事情?!?

“你必須雇用那些知道自己在做什么的人?!盨tephen稱,業(yè)內(nèi)現(xiàn)在存在很多只懂業(yè)務(wù)、不懂統(tǒng)計(jì)的“公民數(shù)據(jù)科學(xué)家(citizen data scientist),這是非常危險(xiǎn)的。他們嚴(yán)重依賴技術(shù)工具進(jìn)行數(shù)據(jù)搜集和分析,并不知道自己在做什么,“這很可能會導(dǎo)致嚴(yán)重破壞性的結(jié)果。”

3.智能分析需要業(yè)務(wù)場景

的確,統(tǒng)計(jì)知識對于數(shù)據(jù)分析舉足輕重,但是這并不代表著可以忽略業(yè)務(wù)知識。

Stephen指出,未來,智能分析只是決策中非常小的一個(gè)部分,端到端的業(yè)務(wù)分析和場景都至關(guān)重要。

如何我有一小時(shí)拯救世界,我會花55分鐘定義問題,剩下5分鐘尋找答案。(if I had only one hour to save the world, I would spend fifty-five minutes defining the problem, and only five minutes finding the solution)—— 愛因斯坦

只有把系統(tǒng)部署到真實(shí)世界中用起來,拿到新的反饋、改進(jìn)模型,才能獲得真實(shí)場景下解決問題的思路。Stephen也指出,如何吸取和提煉這種經(jīng)驗(yàn)也很重要,如果沒有總結(jié)能力和提取能力的話,換個(gè)新問題你還是不會做。

Stephen給出了一系列人工智能和數(shù)據(jù)分析的應(yīng)用代表領(lǐng)域,比如很重要的一個(gè)應(yīng)用場景是反欺詐,有了深度學(xué)習(xí)以后,它可以很大程度上降低欺詐的情況,使欺詐行為發(fā)生得越來越少,尤其是考慮到罪犯是變換不同的欺詐手法,因此機(jī)器學(xué)習(xí)迅速的學(xué)習(xí)速度非常適合這一場景。

還有一部分美國人愛寫支票,金融機(jī)構(gòu)需要識別支票上的簽字,因?yàn)槿藢懽值臅r(shí)候?qū)懙脕y七八糟,有的寫得不清楚,所以識別起來還是挺不容易的?,F(xiàn)在有了深度學(xué)習(xí),深度學(xué)習(xí)來識別手寫字體,到底是在什么地方、誰寫的什么的時(shí)候,這些場景下,機(jī)器都比人要做得更好。

4.未來屬于能將數(shù)據(jù)轉(zhuǎn)化為產(chǎn)品的企業(yè)

“數(shù)據(jù)挖掘可以產(chǎn)生很多洞察,但只有生產(chǎn)落地才能創(chuàng)造真正的價(jià)值”,Stephen認(rèn)為未來數(shù)據(jù)分析的第四個(gè)趨勢,是技術(shù)能力必須與產(chǎn)品結(jié)合起來。

“在硅谷,要么你已經(jīng)是一家數(shù)據(jù)公司,或者將來會成為一家數(shù)據(jù)公司,或者已經(jīng)被徹底淘汰。因?yàn)榇髷?shù)據(jù)正在變革各個(gè)行業(yè)認(rèn)識自己的方式?!?

現(xiàn)在,通信行業(yè)不再是收取訂閱費(fèi)的行業(yè),而變成了收集數(shù)據(jù),并將數(shù)據(jù)貨幣化的過程。電信企業(yè)把數(shù)據(jù)收集起來,把信息遞交給業(yè)務(wù)的決策者,他們就會做出更好的決策。

Stephen稱,未來屬于能將數(shù)據(jù)轉(zhuǎn)化為產(chǎn)品的企業(yè),現(xiàn)在我們就需要越過商業(yè)智能的思考,進(jìn)入工業(yè)生產(chǎn)領(lǐng)域的思考,這樣才能真正的讓分析產(chǎn)生價(jià)值。