首頁 / 資訊中心 / 趨勢研究/預(yù)見未來:數(shù)據(jù)智能的現(xiàn)在與未來

預(yù)見未來:數(shù)據(jù)智能的現(xiàn)在與未來

發(fā)布時間:2018-11-26 分類:趨勢研究

我們正處于大數(shù)據(jù)和數(shù)字化轉(zhuǎn)型的時代:數(shù)據(jù)無處不在;運(yùn)用數(shù)據(jù)驅(qū)動的思想和策略在實踐中逐漸成為共識;數(shù)據(jù)的價值已在科學(xué)研究和工商業(yè)的不同領(lǐng)域得到充分展現(xiàn)。然而,如果無法從數(shù)據(jù)中提取出知識和信息并加以有效利用,數(shù)據(jù)本身并不能驅(qū)動和引領(lǐng)數(shù)字化轉(zhuǎn)型取得成功。如何讓數(shù)據(jù)發(fā)揮它最大的價值?“數(shù)據(jù)智能”(Data Intelligence) 應(yīng)運(yùn)而生。
 
數(shù)據(jù)智能是一個跨學(xué)科的研究領(lǐng)域,它結(jié)合大規(guī)模數(shù)據(jù)處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人機(jī)交互、可視化等多種技術(shù),從數(shù)據(jù)中提煉、發(fā)掘、獲取有揭示性和可操作性的信息,從而為人們在基于數(shù)據(jù)制定決策或執(zhí)行任務(wù)時提供有效的智能支持。
 
如果將數(shù)據(jù)視為一種新的“石油”,那么數(shù)據(jù)智能就是“煉油廠”。數(shù)據(jù)智能通過分析數(shù)據(jù)獲得價值,將原始數(shù)據(jù)加工為信息和知識,進(jìn)而轉(zhuǎn)化為決策或行動,已成為推動數(shù)字化轉(zhuǎn)型不可或缺的關(guān)鍵技術(shù)。數(shù)據(jù)智能的重要性越來越凸顯,并在近年來取得快速發(fā)展。
 
數(shù)據(jù)智能技術(shù)賦予我們探求數(shù)據(jù)空間中未知部分的能力,在不同領(lǐng)域里蘊(yùn)育出巨大的機(jī)會。眾多基于互聯(lián)網(wǎng)的新型業(yè)務(wù),包括搜索引擎、電子商務(wù)以及社交媒體應(yīng)用等,從本質(zhì)上就是建立和運(yùn)作在數(shù)據(jù)智能的基礎(chǔ)之上。
 
數(shù)據(jù)智能技術(shù)正在重塑傳統(tǒng)的商業(yè)分析或商業(yè)智能領(lǐng)域。根據(jù)Gartner的調(diào)研,一種新的 “增強(qiáng)分析”的分析模式正在顛覆舊有方式,預(yù)計在幾年內(nèi)將成為商業(yè)智能系統(tǒng)采購的主導(dǎo)驅(qū)動力。這種“增強(qiáng)分析”模式正是由數(shù)據(jù)智能技術(shù)賦能,提供了自然語言查詢和敘述、增強(qiáng)的數(shù)據(jù)準(zhǔn)備、自動的高級分析、基于可視化的數(shù)據(jù)探索等多種核心能力。
 
那么,數(shù)據(jù)智能領(lǐng)域的技術(shù)進(jìn)展如何?未來,數(shù)據(jù)智能的研究又有哪些熱點(diǎn)?
 
數(shù)據(jù)智能的技術(shù)進(jìn)展
 
數(shù)據(jù)智能相關(guān)的核心技術(shù)大致可以分為數(shù)據(jù)平臺技術(shù)、數(shù)據(jù)整理技術(shù)、數(shù)據(jù)分析技術(shù)、數(shù)據(jù)交互技術(shù)、數(shù)據(jù)交互技術(shù)、數(shù)據(jù)可視化技術(shù)等部分。與傳統(tǒng)意義上的數(shù)據(jù)處理、數(shù)據(jù)分析相比,數(shù)據(jù)智能面臨很多新挑戰(zhàn)、新問題。在解決這些問題和挑戰(zhàn)的過程中,各種技術(shù)創(chuàng)新層出不窮。
 
1、大數(shù)據(jù)系統(tǒng)與平臺
 
為了支持大規(guī)模的數(shù)據(jù)處理與分析任務(wù),全新的數(shù)據(jù)存儲系統(tǒng)需要能夠容納和支持高效數(shù)據(jù)吞吐、高可伸縮性和高容錯性。傳統(tǒng)的數(shù)據(jù)庫OLTP面向交易型需求而設(shè)計,無法滿足大數(shù)據(jù)統(tǒng)計分析類的查詢需求和應(yīng)用。當(dāng)前的大數(shù)據(jù)系統(tǒng)更加強(qiáng)調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)的可擴(kuò)展性。具體來說,將數(shù)據(jù)分割成塊,并將每塊復(fù)制多份后分散到不同物理機(jī)器上存儲,用冗余的數(shù)據(jù)塊來防止因個別機(jī)器損壞對數(shù)據(jù)完整性的影響。數(shù)據(jù)的冗余保存不但提高了系統(tǒng)的可靠性,同時也可以提高了系統(tǒng)在數(shù)據(jù)讀取時的并發(fā)性能。另外,為降低成本,現(xiàn)代的大數(shù)據(jù)系統(tǒng)運(yùn)行在價格相對低廉的普通服務(wù)器上;這些機(jī)器通過高速網(wǎng)絡(luò)連接,實現(xiàn)高效的數(shù)據(jù)傳輸。
 
處理和分析大數(shù)據(jù)涉及大量的計算,催生了很多分布式NoSQL數(shù)據(jù)處理系統(tǒng)。在計算模型上,MapReduce的推出給大數(shù)據(jù)并行處理帶來了革命性的影響。在MapReduce基礎(chǔ)上進(jìn)一步提出了新的計算模型Spark。Spark充分利用在內(nèi)存中計算的優(yōu)勢,并且大大優(yōu)化了原來MapReduce中Shuffle所帶來的效率問題。經(jīng)過幾年的發(fā)展,Spark已經(jīng)替代MapReduce成為業(yè)界最為重要的大數(shù)據(jù)處理框架,并且發(fā)展了非常豐富的應(yīng)用生態(tài)。
 
此外,基于流 (Streaming) 的計算模型被開發(fā)出來以支持不斷變化和更新的大數(shù)據(jù)應(yīng)用。在流計算模型中,為了達(dá)到更實時的更新,每到達(dá)一個數(shù)據(jù)事件的時候就進(jìn)行一次處理。Spark Streaming、Storm、Flink都是比較流行的流計算平臺。
 
在支持對大數(shù)據(jù)進(jìn)行在線交互式的查詢和分析方面,來自不同領(lǐng)域的技術(shù)正在快速融合,共同構(gòu)建更加實時高效的大數(shù)據(jù)交互查詢平臺。以ElasticSearch為代表的一類技術(shù),借鑒搜索系統(tǒng)的索引構(gòu)架和技術(shù),對大規(guī)模非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分塊、索引來支持快速查詢。以Apache Kylin為代表的另一類技術(shù)則將傳統(tǒng)的數(shù)據(jù)立方體技術(shù)推廣到大數(shù)據(jù)領(lǐng)域,通過將預(yù)先計算的部分?jǐn)?shù)據(jù)立方體緩存起來,大大提高了運(yùn)行時的查詢速度。
 
隨著技術(shù)的發(fā)展,對數(shù)據(jù)進(jìn)行高語義級別的自動分析變得越來越重要。自動分析技術(shù)往往需要頻繁計算在不同查詢條件下的聚合結(jié)果,一個分析查詢可能涉及成百上千次簡單的聚合查詢。這就對查詢性能提出了更高的要求。為了解決這個問題,同時也考慮到大數(shù)據(jù)分析中絕大多數(shù)任務(wù)對數(shù)據(jù)的完整性不太敏感這一特點(diǎn),學(xué)術(shù)界又提出了BlinkDB、BigIN4等技術(shù)和系統(tǒng),希望利用通過采樣或者預(yù)計算得到的部分?jǐn)?shù)據(jù)來對用戶的查詢結(jié)果進(jìn)行估計,從而達(dá)到快速計算的目的。其中BlinkDB試圖利用分層采用的方法來減少估計的誤差,而BigIN4則試圖通過貝葉斯估計方法來優(yōu)化用戶查詢的估計誤差。
 
2、基于自然語言的交互
 
為了降低數(shù)據(jù)分析的門檻,使用自然語言作為交互方式顯然是一個理想方案,可以極大地方便普通用戶快速、有效地進(jìn)行數(shù)據(jù)探索與數(shù)據(jù)分析。近年來,隨著自然語言處理和人工智能技術(shù)的快速進(jìn)步,使用自然語言來查詢和分析數(shù)據(jù)變得更加可能。
 
自然語言數(shù)據(jù)分析要解決的最重要的問題是語義解析。語義解析技術(shù)是將自然語言直接轉(zhuǎn)化成可以執(zhí)行的程序 (例如 SQL語句)。基于關(guān)系數(shù)據(jù)庫/數(shù)據(jù)表的語義解析技術(shù)是解決自然語言交互式查詢的重要途徑。早期主要采用基于模式匹配的方法,后來出現(xiàn)了基于語法分析與語義分析的第二代方法。
 
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,涌現(xiàn)出了一系列的端到端的語義解析模型。一般的端到端模型采用sequence-to-sequence的方法,將自然語言進(jìn)行序列編碼,然后逐步生成SQL語句,但是這種方法的缺點(diǎn)是容易產(chǎn)生不正確的或者不可執(zhí)行的SQL語句。因此,在端到端的方法的基礎(chǔ)上會融合各種知識來減少搜索空間,增加約束,包括嵌入SQL語法知識,引入表格信息,甚至是引入外部的知識庫,比如WordNet。
 
3、分析的自動化
 
數(shù)據(jù)分析是數(shù)據(jù)智能中最核心的部分,大致可以分為描述性分析、診斷性分析、預(yù)測性分析、指導(dǎo)性分析等四個類別,每個類別基于數(shù)據(jù)回答不同的問題,難度越來越大,所能帶來的價值越來越高,所使用的技術(shù)也越來越復(fù)雜。數(shù)據(jù)智能分析工具的發(fā)展經(jīng)歷了如下四個重要的階段和層次。
 
階段1:數(shù)據(jù)智能專家深入學(xué)習(xí)和了解特定領(lǐng)域的問題,構(gòu)建端到端 (end-to-end)的分析流程和平臺,以特定領(lǐng)域的數(shù)據(jù)分析師為主要用戶,以解決特定領(lǐng)域的專業(yè)問題為主要任務(wù)。
 
階段2:數(shù)據(jù)智能專家通過對各個領(lǐng)域的深刻總結(jié),提煉出在不同領(lǐng)域的任務(wù)中所共同依賴的一些必要的需求單元,比如分布差異分析、主驅(qū)動因素分析、預(yù)測分析等等。把各個需求單元對應(yīng)的數(shù)據(jù)智能技術(shù)以積木塊搭建的形式組成一個分析平臺,提供給各個領(lǐng)域使用。用戶按照自己分析任務(wù)的需求,可以在分析流程中選擇相應(yīng)的技術(shù)模塊。
 
階段3:進(jìn)一步發(fā)揮機(jī)器的“智能”性,在分析任務(wù)的各個環(huán)節(jié),通過主動提供相關(guān)洞察 (Insight) 的形式,為用戶的下一步?jīng)Q策或行動提供信息充足的引導(dǎo)性建議,從而更大程度地提高人類智能與機(jī)器智能的互補(bǔ),完成更高效的協(xié)作。
 
階段4:在前三個階段中,數(shù)據(jù)的處理、特征的選取、模型的設(shè)計以及參數(shù)的優(yōu)化等等核心環(huán)節(jié)嚴(yán)重依賴于機(jī)器學(xué)習(xí)專家的知識和技能。隨著機(jī)器學(xué)習(xí)理論的進(jìn)一步發(fā)展,Auto ML技術(shù)開始出現(xiàn)并發(fā)展起來,其核心是基于對已有機(jī)器學(xué)習(xí)成果的總結(jié),將上述重要環(huán)節(jié)進(jìn)行系統(tǒng)化的抽象,并結(jié)合不斷快速發(fā)展的計算機(jī)處理能力,使其逐漸自動化,從而進(jìn)一步降低數(shù)據(jù)智能模塊的開發(fā)門檻,拓寬對長尾任務(wù)的支持,推動人類智能和機(jī)器智能的進(jìn)一步融合,也使不同領(lǐng)域的普通用戶以自助方式按需定制針對具體任務(wù)的數(shù)據(jù)智能模塊變得可能。
 
4、數(shù)據(jù)融合的自動化
 
如何有效整理、融合如此多樣且繁雜的數(shù)據(jù)對于數(shù)據(jù)智能領(lǐng)域非常重要。數(shù)據(jù)融合的相關(guān)技術(shù)在整體上需要解決以下關(guān)鍵問題。
 
首先,在機(jī)器從數(shù)據(jù)中獲取智能之前,機(jī)器能夠正確地讀懂各種各樣的數(shù)據(jù)。對于機(jī)器友好的數(shù)據(jù)是類似關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)。然而,現(xiàn)實世界里存在著大量的非結(jié)構(gòu)化數(shù)據(jù),比如自然語言的文本;還有介于兩者之間的半結(jié)構(gòu)化數(shù)據(jù),比如電子表格。目前機(jī)器還很難理解這些非結(jié)構(gòu)化的方面,需要將數(shù)據(jù)處理成對機(jī)器友好的結(jié)構(gòu)化數(shù)據(jù),機(jī)器才能發(fā)揮其特長,從數(shù)據(jù)中獲取智能。非結(jié)構(gòu)化數(shù)據(jù)、尤其是半結(jié)構(gòu)化數(shù)據(jù)向結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)化,是實現(xiàn)數(shù)據(jù)智能不可或缺的先決任務(wù)。
 
其次,數(shù)據(jù)并不是孤立的,數(shù)據(jù)智能需要充分利用數(shù)據(jù)之間存在的關(guān)聯(lián),把其他數(shù)據(jù)源或數(shù)據(jù)集所涵蓋的信息傳遞并整合過來,可以為數(shù)據(jù)分析任務(wù)提供更豐富的信息和角度。
 
最后,數(shù)據(jù)并不是完美的,提前檢測并修復(fù)數(shù)據(jù)中存在的缺失或錯誤,是保障數(shù)據(jù)智能得出正確結(jié)論的重要環(huán)節(jié)。
 
5、數(shù)據(jù)可視化
 
數(shù)據(jù)可視化本質(zhì)上是為了感知和溝通數(shù)據(jù)而存在的,涉及到不同的領(lǐng)域,諸如人機(jī)交互、圖形設(shè)計、心理學(xué)等。在當(dāng)前大數(shù)據(jù)盛行的時代,數(shù)據(jù)可視化逐漸嶄露頭角,扮演著越來越重要的角色。
 
可視化技術(shù)用于分析,已成為數(shù)據(jù)智能系統(tǒng)不可或缺的部分。這些技術(shù)通常會集成在一個圖形界面上,展示一個或多個可視化視圖。用戶直接在這些視圖上進(jìn)行搜索、挑選、過濾等交互操作,對數(shù)據(jù)進(jìn)行探索和分析。可視化工具進(jìn)一步趨于簡單化、大眾化,使一些高階的分析變得更加簡單。一些高級的可視化設(shè)計,如 Word Cloud、Treemap、Parallel Coordinates、Flowmap、ThemeRiver等,也逐步成為主流。
 
在決策過程中,可視化也發(fā)揮著重要的作用,它能將信息展示得更準(zhǔn)確、更豐富、更容易理解,從而極大提高人與人之間的溝通效率??梢暬瘮⑹?(visual storytelling) 研究如何將可視化用于信息的展示和交流。當(dāng)今主流的數(shù)據(jù)分析平臺,例如Power BI、Tableau、Qlik等,都提供了可視化敘事的模式??梢暬瘮⑹碌难芯磕壳斑€處在一個比較早期的階段,人們還在探索它的各個方面,例如修飾形式、敘事方式、交互手段、上下文、記憶性等。如何評估一個可視化敘事也有待進(jìn)一步研究。
 
6、基于隱私保護(hù)的數(shù)據(jù)分析
 
近年來,隨著數(shù)據(jù)隱私問題成為關(guān)注的焦點(diǎn),以及相關(guān)數(shù)據(jù)保護(hù)的立法 (比如GDPR) 開始實施,研究人員開始積極探索保護(hù)隱私的數(shù)據(jù)分析技術(shù),即在保護(hù)數(shù)據(jù)隱私的情況下,對數(shù)據(jù)進(jìn)行管理和處理。
 
一個方向是提供可信計算環(huán)境去執(zhí)行敏感操作。用戶的數(shù)據(jù)始終是加密的,只有在可信計算的環(huán)境中才會解密及處理。
 
另一個方向是直接對加密數(shù)據(jù)進(jìn)行處理得到想要的結(jié)果,因為數(shù)據(jù)沒有解密,隱私得到了保證。選擇性加密技術(shù)早已廣泛應(yīng)用于多媒體內(nèi)容保護(hù),但很難擴(kuò)展到其他類型的數(shù)據(jù)。另一種適用性更廣的方法是同態(tài)加密,它允許對密文進(jìn)行某些同態(tài)操作,例如加法和/或乘法,使得密文下的運(yùn)算結(jié)果在解密后與對明文執(zhí)行相應(yīng)操作的結(jié)果一致。
 
數(shù)據(jù)智能技術(shù)的未來熱點(diǎn)
 
數(shù)據(jù)智能研究契合當(dāng)今大數(shù)據(jù)時代各領(lǐng)域、各行業(yè)從數(shù)據(jù)中挖掘、實現(xiàn)價值,進(jìn)行數(shù)字化轉(zhuǎn)型的迫切需要,因而在近年來得到了充分重視,發(fā)展迅速。隨著數(shù)據(jù)智能在更多領(lǐng)域的落地和發(fā)展,新的應(yīng)用和場景、新的問題和挑戰(zhàn)將進(jìn)一步激發(fā)和驅(qū)動數(shù)字智能研究保持強(qiáng)勁的發(fā)展勢頭,邁向更高的層次。展望未來,數(shù)據(jù)智能技術(shù)將朝著更自動、更智能、更可靠、更普適、更高效的方向繼續(xù)發(fā)展。
 
熱點(diǎn)1:在更高的語義理解水平上進(jìn)行分析
 
為了更加智能地分析數(shù)據(jù),需要對數(shù)據(jù)有更加豐富的語義理解。與知識圖譜 (Knowledge Base) 不同,雖然數(shù)據(jù)分析中最常用的關(guān)系數(shù)據(jù)模型也是對實體和關(guān)系的建模,但是關(guān)系數(shù)據(jù)模型的建模是為查詢和存儲性能而優(yōu)化的,往往丟失了大量語義信息。如何引入領(lǐng)域知識和常識型知識對于更好地理解數(shù)據(jù)至關(guān)重要。
 
如何從表格數(shù)據(jù)和其他容易獲得的文本數(shù)據(jù) (如web網(wǎng)頁) 中自動獲取語義信息來增強(qiáng)和豐富表格數(shù)據(jù)是一個需要研究的重要方向。比如,確定表格中行或列的實體類型(包括人名、地名、機(jī)構(gòu)名等命名實體以及時間、地址、貨幣等數(shù)據(jù)類型)。表格往往不具有文本中的豐富的上下文信息,因此表格中的實體識別不同于其他自然語言處理任務(wù)中的實體識別,十分具有挑戰(zhàn)性。除了處理實體識別外,數(shù)據(jù)表格中實體關(guān)系的挖掘和分析也至關(guān)重要。充分挖掘?qū)嶓w之間的關(guān)聯(lián)關(guān)系可以完成一些實體類型的推薦和回答數(shù)據(jù)分析的問題。
 
熱點(diǎn)2:構(gòu)造通用知識和模型的框架
 
人類對知識和方法能夠舉一反三,觸類旁通。具體到數(shù)據(jù)分析領(lǐng)域,分析中用到的知識和模型需要在不同數(shù)據(jù)對象和分析任務(wù)之間共享和遷移。在機(jī)器學(xué)習(xí)領(lǐng)域,已經(jīng)有很多相關(guān)工作,也提出了一些方法,比如遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、預(yù)學(xué)習(xí)模型等等。要實現(xiàn)這個“舉一反三”的目標(biāo),除了需要深入研究具體的機(jī)器學(xué)習(xí)算法,也需要從模型和知識的框架體系來思考,研究適合數(shù)據(jù)分析領(lǐng)域的通用知識和模型的原語體系,以及知識和模型的遷移共享的統(tǒng)一框架。
 
熱點(diǎn)3:建立高質(zhì)量的訓(xùn)練數(shù)據(jù)集和基準(zhǔn)測試數(shù)據(jù)集
 
由于訓(xùn)練數(shù)據(jù)的缺乏,人工智能、深度學(xué)習(xí)等技術(shù)在數(shù)據(jù)智能領(lǐng)域的進(jìn)一步應(yīng)用遇到了很大的困難。正如ImageNet數(shù)據(jù)對于計算機(jī)視覺領(lǐng)域的研究起到了顯著的推動作用一樣,數(shù)據(jù)智能領(lǐng)域的研究也亟需建立起一整套公用的大規(guī)模、高質(zhì)量的訓(xùn)練數(shù)據(jù)集和基準(zhǔn)測試數(shù)據(jù)集。一旦有了豐富的訓(xùn)練數(shù)據(jù),數(shù)據(jù)智能領(lǐng)域的很多研究,諸如自動分析、自然語言交互、可視化推薦等等,將會取得突破性的進(jìn)展。
 
熱點(diǎn)4:提供具有可解釋性的分析結(jié)果
 
用戶將不再滿足于僅僅依賴黑盒式的智能、端到端地作用于整個任務(wù),而需要更細(xì)粒度的、有針對性的、更透明的數(shù)據(jù)智能。例如,數(shù)據(jù)智能用于財務(wù)審計系統(tǒng)中,準(zhǔn)確推薦最有風(fēng)險的交易記錄進(jìn)行優(yōu)先審查,以達(dá)到在最小化系統(tǒng)風(fēng)險的前提下,最大化審計效率。在這類系統(tǒng)的研發(fā)中,需要構(gòu)建可理解性強(qiáng)的模型。在推薦高風(fēng)險交易記錄的同時,盡量提供系統(tǒng)是依據(jù)哪部分信息、通過怎樣的邏輯判斷這是一條高風(fēng)險交易的相關(guān)依據(jù)。這與過去通常使用的黑盒技術(shù)路線有了明顯的變化,將成為今后技術(shù)發(fā)展的一個趨勢。
 
熱點(diǎn)5:人類智能和機(jī)器智能更加緊密融合
 
現(xiàn)有人工智能技術(shù)從本質(zhì)上依然只是被動服從人類設(shè)定的既定邏輯然后自動地運(yùn)行,歸根到底還是無法突破人類傳授的學(xué)習(xí)框架,沒有創(chuàng)造力。因此在可預(yù)見的未來,數(shù)據(jù)智能將依然無法擺脫人與機(jī)器協(xié)作的模式,需要全面地總結(jié)人類在數(shù)據(jù)分析方面的智能和經(jīng)驗,便于轉(zhuǎn)化為機(jī)器算法,系統(tǒng)化地集成到已有的智能系統(tǒng)當(dāng)中。
 
熱點(diǎn)6:強(qiáng)大的指導(dǎo)性分析成為主流
 
數(shù)據(jù)分析的核心目標(biāo)之一便是指導(dǎo)行動,無論分析得有多好,如果不采取行動,那么分析的價值就不會得到實質(zhì)的體現(xiàn),這就是指導(dǎo)性分析的重要價值所在。
 
例如,根據(jù)詳盡的分析,數(shù)據(jù)智能預(yù)測某品牌在接下來一個季度的銷量會下滑10%。如果分析任務(wù)結(jié)束于此,那么數(shù)據(jù)智能并沒有盡到全部的責(zé)任,人還需要根據(jù)后續(xù)分析結(jié)合自己的經(jīng)驗去搞清楚怎樣才能減輕甚至避免潛在的銷量下滑。相應(yīng)的指導(dǎo)性分析可以是,如果想保持下季度銷量不下滑,應(yīng)該采取怎樣的行動。指導(dǎo)性分析的結(jié)果可以是把某一類子產(chǎn)品的產(chǎn)量減少20%,同時把另兩類子產(chǎn)品的產(chǎn)量各增加10%等等。
 
現(xiàn)在的數(shù)據(jù)智能技術(shù)在給出指導(dǎo)性分析的同時,并沒有具備足夠解釋性的模型,無法提供充足的依據(jù),從而不足以讓人類用戶充分信任自動推薦的結(jié)果。提供具有更好解釋性的指導(dǎo)性分析是一個趨勢。
 
熱點(diǎn)7:基于隱私保護(hù)的數(shù)據(jù)分析更加成熟完善
 
通過從立法、技術(shù)、到用戶參與等全方位的共同努力,隱私保護(hù)將被進(jìn)一步納入到未來的數(shù)據(jù)分析中。從技術(shù)層面, 應(yīng)該確保個人數(shù)據(jù)由數(shù)據(jù)主體控制如何收集、管理、處理和共享,并在整個生命周期得到保護(hù),同時應(yīng)開發(fā)并部署保護(hù)隱私的數(shù)據(jù)處理技術(shù),以便在保護(hù)隱私的前提下,數(shù)據(jù)得以處理并獲得想要的結(jié)果。
 
熱點(diǎn)8:智能分析助手得到普及
 
智能代理 (Intelligent Agent) 技術(shù)與數(shù)據(jù)分析技術(shù)的融合是一個重要的方向。在不久的將來,智能的數(shù)據(jù)分析助手能夠幫助人類更加高效地分析和利用數(shù)據(jù)。
 
這些數(shù)據(jù)分析智能助手通過自然語言對話的方式與人交流數(shù)據(jù)分析的任務(wù)和結(jié)果,理解分析的背景和上下文,可以完成人類交給的特定數(shù)據(jù)分析任務(wù) (根據(jù)分析的語義層級不同,可分為基本分析命令和高級數(shù)據(jù)挖掘任務(wù)),也可以把具有商業(yè)價值的數(shù)據(jù)事實推薦給相關(guān)人類用戶 (比如自動從數(shù)據(jù)中挖掘到的數(shù)據(jù)洞察),并對某些數(shù)據(jù)事件做出智能判斷和適當(dāng)?shù)姆磻?yīng) (比如自動對數(shù)據(jù)中需要注意的變化進(jìn)行提示和警報)。這樣的智能體還具有一定的學(xué)習(xí)能力,能夠通過與人類分析師的對話交流積累特定領(lǐng)域的知識,從而能夠更加具有針對性和更加智能地進(jìn)行自動數(shù)據(jù)分析。
 
熱點(diǎn)9:協(xié)作化的可視分析
 
隨著各種溝通工具的興起和普及,協(xié)作化的可視分析會成為熱點(diǎn)。不同于傳統(tǒng)的面對面、小規(guī)模的協(xié)作,新的協(xié)作分析往往是異步的和大規(guī)模的,人們在不同的時間和地點(diǎn),使用不同的設(shè)備,對同一個數(shù)據(jù)進(jìn)行可視分析。在此過程中,如何協(xié)調(diào)人們的協(xié)作?如何避免重復(fù)性的工作?如何保證不同人在不同的顯示終端上看到的數(shù)據(jù)是一致的?如何共享各種信息?如何搭建一個高效的協(xié)作平臺?這些都是需要解決的技術(shù)挑戰(zhàn)。
 
熱點(diǎn)10:可視化將無所不在
 
在更長遠(yuǎn)的將來,我們相信可視化終將變得透明。就像文字和語音一樣,廣泛滲透到我們的日常生活中。為此需要有三個方面的技術(shù)儲備:
 
首先,可視化視圖必須能夠被快速地生產(chǎn)和消費(fèi)。目前,多數(shù)可視化視圖的生成還是離不開人的參與,但是在人工智能的幫助下,未來在人工智能的幫助下,可視化視圖將能被大規(guī)模和精確地生成,從而大大降低可視化創(chuàng)作的開銷。
 
其次,要進(jìn)行交互方式的變革。傳統(tǒng)的基于鍵盤、鼠標(biāo)的交互模式不是最自然的方式,各種人類更習(xí)慣的方式 (例如手勢、筆紙、觸控等) 需要慢慢演化成更成熟的交互手段。
 
最后,需要顯示設(shè)備的普及。顯示設(shè)備終將被集成到人的生活中去,無論是穿戴式的、手持的,還是出現(xiàn)在人們?nèi)粘I畹奈锲繁砻嫔系?。只有?dāng)顯示設(shè)備無處不在的時候,可視化才能真正變成一種溝通的基本方式。