2018年資料科學與機器學習成熟曲線
/ 發布日期:2018/08/20/ 瀏覽次數:186
現今許多產業都相當熱衷於發展資料科學與機器學習,根據Gartner 2018年的調查報告顯示,77%的高階主管認為資料科學能為企業帶來相當顯著的價值或將成為企業的基礎。許多技術正穩定攀升至技術成熟曲線中的過度期望高峰期,不過多數的企業仍處於探索資料科學與機器學習的早期階段。
Gartner報告中具顛覆性效益的技術包含:2-5年內可能被產業應用的機器學習(Machine Learning)、公民的資料科學(Citizen Data Science) 、深度神經網絡(Deep Neural Nets)、事件串流處理(Event Stream Processing, ESP)與擴增分析(Augmented Analytics);5-10年內可能被產業應用的技術為認知運算(Cognitive Computing)與本年度新增的連續性智慧(Continuous Intelligence);10年以上則僅有通用人工智慧(Artificial General Intelligence)。
本文將摘錄近年來與資料科學、機器學習與人工智慧有關的趨勢發展,並介紹皆處於過度期望高峰期的機器學習與公民的資料科學,其市場滲透率皆為5-20%。
一、 近年來資料科學、機器學習與人工智慧(AI)間的關聯性與發展持續受到重視,加以下列趨勢讓各界持續熱衷於上述技術。
(一) AI仍是最眾所矚目的議題,加上供應商的行銷-語意學(semantics)的戰爭,以及資料科學與機器學習整併成容易讓人理解的AI。
(二) 資料科學與機器學習的人才持續不足,要因應人才短缺問題,需要教育、提升技能,以及如公民的資料科學、擴增分析與自動化機器學習這類的創新。
(三) 運算能力與進階系統架構不斷提升,更有效率與能力的晶片組可用於擴充機器學習的架構,且雲端服務商針對機器學習應用程式介面(API)與模型建立與設置的特定運算能力,提供以使用量計價的收費方式。
(四) 資料科學與機器學習的開放原始碼(open-source)工具與程式庫(library)持續風行,資料科學與機器學習社群相當活躍且相互合作,並十分支持開放原始碼技術。新進者與既有提供者皆對於開放原始碼的語言、工具、程式庫與架構提供一流的支援。
(五) 更快與自動化的模型建立、選定與設置仍為關鍵趨勢,因模型管理能處理產品內成千上萬種的模型與其他操作需求。
二、 公民的資料科學
(一) 定義:公民的資料科學是一套新興能力與實作,能讓使用者自資料中提出進階分析見解,而不需要具備廣泛的資料科學專長。促使公民資料科學發展的主要核心為擴增分析能力快速進展,其能簡化資料準備、提供資料科學使用指南(包含相關性、集群(Clustering)與預測),以及透過自動化模型建立與型態偵測強化使用者的見解,並進而促使眾人合作與分享。
(二) 現況:現行的模型分析與商業智慧(Business Intelligence, BI)通常多以手動方式準備資料、探索資料與某些模式(pattern)辨識。但是建立資料科學與機器學習模型的專家大多是昂貴且缺乏人才,公民資料科學的工具能透過自動化與特徵選定,引導使用者完成終端對終端的模型建立程序。
(三) 商業影響:公民資料科學是新世代使用者的分析基礎,這將使資料科學和機器學習的見解(Insight)更容易在企業中普及和取得。公民資料科學家將能填補目前短缺且高成本的資料科學與機器學習人才之缺口。將公民的資料科學家納入分析生命週期的特定階段,可讓組織內的資料科學與機器學習資源更具可擴展性與集中使用。舉例來說,若在計畫的探索階段納入公民的資料科學,能讓具備高技巧的資料科學家可更專注於尖端模型建立階段。Gartner預測,未來數年內,更為普及的公民的資料科學將提升整個企業的資料科學能力;2020年前將有超過40%的資料科學任務被自動化,並因此提高公民資料科學家的生產力;在2024年前,缺乏資料科學家的情況將不再影響企業採用資料科學與機器學習。透過自動化產出與優先提供具統計意義的見解予使用者,將能強化使用者的發現能力。
三、 機器學習
(一) 定義:機器學習是利用數學模型從資料中萃取型態與知識,來解決商業問題。主要分為三種方式:監督式學習(觀察值包含成對式的輸入與輸出,亦稱為標籤資料)、非監督式學習(無標籤),以及強化學習(評估情況的好壞)。
(二) 現況:機器學習仍是最熱門的技術概念之一,不斷成長的資料數量與複雜性是促使機器學習快速發展與採用的主要原因,越來越多的企業正探索著如何應用機器學習並已有相關試驗計畫,且技術提供者正在嘗試把機器學習的能力內嵌至軟體中。不過多數企業對於機器學習仍僅只處在淺嘗階段,因找尋執行機器學習所需的角色與相關技能,對企業來說仍相當具有挑戰性。當資料來源的數量越來越多,系統的複雜度也將持續提高,在這樣的情境下,估計未來許多產業的發展將需要有機器學習的協助。
(三) 商業影響:機器學習驅動跨業務、顧客與社交情境的業務問題改善與新解決方案,包含自動化、藥品研發、顧客參與、最適化供應鏈、預測性維護、運作效率、勞動力效率、詐欺偵測與資源最適化。
資料來源
-
Hype Cycle for Data Science and Machine Learning, 2018