焦點報導

首頁> 焦點報導清單> 2019年資料科學與機器學習之技術成熟曲線

2019年資料科學與機器學習之技術成熟曲線

蔡玉琬/ 發布日期:2019/12/17/ 瀏覽次數:112

許多機構提出以智慧數位轉型作為發展策略核心,使資料科學與機器學習發展持續受到重視,Gartner認為幾乎每個領域的資料管理、文本分析、應用程式開發與見解(insights)分享等,皆開始結合機器學習(Machine Learning)與人工智慧技術,並將資料科學與機器學習應用於人工作業自動化,以及深化分析流程與見解。
Gartner報告中具顛覆性效益的技術包含:2-5年內可能被產業應用的先進影像分析(Advanced Video/Image Analytics)、公民的資料科學(Citizen Data Science)、深度神經網絡(Deep Neural Networks, DNN)、事件串流處理(Event Stream Processing, ESP)與擴增分析(Augmented Analytics);5-10年內可能被產業應用的技術則為連續性智慧(Continuous Intelligence)、AI雲端服務(AI Cloud Services)、對話式使用者介面(Conversational User Interfaces, CUI)、生成對抗網路(Generative Adversarial Networks, GANs);10年以上則僅有量子機器學習(Quantum ML)。
下列摘錄Gartner論述資料科學與機器學習之發展趨勢概況,處於過度期望高峰期(Peak of Inflated Expectations)、市場滲透率為5%-20%的深度神經網絡,以及處於泡沫化底谷期(Sliding Into the Trough)、市場滲透率為1-5%的先進影像/圖像分析。

一、資料科學與機器學習發展趨勢概況

此報告反映出四個關鍵趨勢對資料科學與機器學習的影響,包含:增強機器學習、資料準備度與管理、擴展與營運、決策管理。
(一)與增強機器學習相關之技術分散於技術成熟曲線的各個階段,如被廣泛使用的Spark與Python處在泡沫化底谷期、預測分析(Predictive analytics)處在穩定攀升光明期(Slope of Enlightenment)、Notebooks則快速進展至實質生產期(Plateau of Productivity)。
(二)資料科學與機器學習的人才仍相當缺乏,目前可改善此情況的技術,如公民的資料科學、擴增分析與自動化機器學習((autoML)仍處於過度期望高峰期。
(三)能處理成千上百萬個模型的先進機器學習營運(Advanced ML Operationalization)則為今年的新進者,然而將資料科學與機器學習應用在商業決策的成效評估技術則快速發展,已被應用於整個生態系統與決策模式。
(四)自然語言(Natural Language)與電腦視覺(Computer Vision)持續成為創新應用案例的賦能者(enabler),背後更有遷移學習(Transfer Learning)、先進影像分析與生成對抗網路等創新技術促動此趨勢的進展。開放原始碼工具、資料科學與機器學習工具之資料庫正達到臨界質量(critical mass),未來將逐步進入業界標準(de facto standard)。

二、深度神經網絡

(一)發展概況:超大規模企業(如亞馬遜、百度、Google與微軟)已將DNN佈建於企業許多產品,如亞馬遜Alexa的語音轉文字辨識(speech-to-text)功能、臉書的人臉辨識標籤與Google的搜尋引擎、影像辨識與自駕車等。然而深度神經網路相當難以建立與訓練,為能達到良好的成果,需要大量的標籤資料、資料科學專業,以及難以取得且昂貴的特定硬體。DNN通常以事先整裝(prepackaged)形式出現在市場上,如語言與影像處理的AI服務、以及醫療診斷等特定應用,不過目前DNN因缺乏遷移學習能力而使其表現有待加強。
(二)商業影響:DNN具有顛覆所有產業的潛能,不過僅有少數機構在開發DNN演算法。其在偵測詐欺、監測產品與流程品質、預測需求與其他涉及順序(如時間序列分析)的機器學習,有更佳的準確性。對於想實現DNN潛能的機構而言,所面臨的挑戰包含,識別其商業問題、具備充足的資料庫與確保有合適的專家能協助其建置DNN解決方案。

三、先進影像/圖像分析

(一)定義:指應用資料科學方法(包含DNN)自動化辨識影像/圖像中的重要資訊。
(二)發展概況:利用DNN與先進資料模型(advanced data modelling)的影像/圖像分析,主要受到安全性、零售業、汽車與其他特定垂直市場促使其發展。此技術在成為主流前仍面臨相當多問題:包含(1)缺乏隨插即用(plug-and-play)解決方案;(2)脆弱市場與各式各樣的買家;(3)專用演算法與專利池(patent pool) ;(4)缺乏獨立性的標準化與性能基準;(5)高層次系統的維護與支援皆相當昂貴;(6)影像/圖片傳輸量成指數型成長,促使對自動化分析的需求快速成長。預計2023年將被主流採用,不過需要在鏡頭中內建更多推論處理(Edge Inferencing)、套裝應用程式、自我診斷(self-configuring)與已整合第三方的應用程式。

(三)商業影響:此技術未來將可自動解釋視覺與非視覺資料(包含雷射、紅外線等光譜分析),將具有顛覆性的影響。目前主要被應用於異常偵測、物品與行為辨識,以及負責場景辨別,估計未來將被應用於健康照護、製造業、物流業、銀行與金融,以及政府與媒體產業。

 

延伸閱讀
資料來源