科技議題

首頁> 科技議題 - 智慧科技> 人工智慧觀測:重新審視相關人工智慧技術準備度
人工智慧觀測:重新審視相關人工智慧技術準備度 AI Watch: Revisiting Technology Readiness Levels for Relevant Artificial Intelligence Technologies
2022/05
European Union
https://publications.jrc.ec.europa.eu/repository/bitstream/JRC129399/JRC129399_01.pdf
歐盟聯合研究中心 (Joint Research Centre) 於 2022 年發布〈人工智慧觀測:重新審視相關人工智慧技術準備度〉報告,透過「技術準備度」(Technology Readiness Level,簡稱 TRL),評估目前人工智慧的各項技術。本文摘要 TRL 的分類,並列舉其中三個領域的技術說明之,包括大規模多模態模型、文本辨識,以及檢查與維護機器人。
一、簡介
(一) 背景:為何需要 TRL
人工智慧 (AI) 提升人類生活,於許多產業與應用中發揮重要功能,對勞動力市場也造成顯著影響。然而,若要評估「今日的」 AI 是否能夠解決某項問題,或是否將取代某種職業,卻也存在著高度的不確定性。AI 的準備度似乎只限於以下情況:
(1) 使用足夠資料,同時也產生足夠資料的領域,且具備明確的企業目標
(2) 已開發出適合的演算法、運作方式,以及軟體
(3) 部署成本處於可接受的範圍內,包括資料、專業知識、人工監管、軟體資源、硬體及網路設備、開發時間等

此外,AI 並非一項具體、單獨的技術,而是包含多種人類與非人類的能力。目前這些能力的發展程度不一,有些仍處於研究假設階段,有些則已部署為商業應用。許多目前的產品早在數十年前已提出構想,但直到最近才落實到生活中,包括:
(1) Alexa、Siri 和 Google Home 等虛擬數位助理,雖然與想像中的功能仍有差距,但目前已成為生活中可靠的工具,解決眾多使用者的需求。
(2) AI 臉部辨識與生物辨識系統,用於智慧型手機、監視器,以及其他安全監控設備。
(3) 機器學習與其他 AI 技術應用,例如透過「推薦系統」(recommender systems) 提升零售業與串流媒體服務的使用者體驗,以及於工業與醫療保健產業中使用「故障檢測與診斷系統」(fault detection and diagnosis systems)。

問題不在於 AI 是否只能於有限的情境下運作,而是要如何評斷一項 AI 技術已發展充分,足以應用於現實世界,成為可行的商業產品,進而產生公共及商業價值,帶來真正的改變。唯有回答此一問題,才能真正了解各種 AI 研究的突破所帶來的影響究竟為何,以及從研發的各個階段進展到可行的商業產品還需要多久的時間。從決策者、研究人員,到終端消費者,皆需要一套能夠清楚說明 AI 技術的分析方法。

(二) TRL 的目標與貢獻
本報告使用「技術準備度」(Technology Readiness Level,簡稱 TRL) 評估法,來定義一組 AI 技術的成熟度。TRL 由 NASA 引入,再經由歐盟改編。本報告首先於 AI 領域中解釋九個 TRL 等級,接著以系統性的方式,套用至不同的 AI 類別,同時導入「準備度與通用性圖表」(readiness vs generality charts),來權衡技術的通用性與準備度。TRL 仍處於初期階段,本報告提供各領域大量的 AI 技術範例,並提供準備度與通用性圖表,為有興趣使用類似分析法的人提供指引。

(三) 適用範圍
本報告依照「AI Watch 操作定義」(Samoili 與其他,2020) 的分類法,盡可能考慮到所有的 AI 技術。此套分類法簡潔扼要,描述 AI 研究的核心領以及橫向主題。本報告不採用 AI 的其他特徵,例如理性行為或類似人類的行為。至於 AI 技術準備度所需的內在要素,本報告涵蓋了技術、知識、運算、資料,以及 AI 解決方案中的其他面向。本報告不涵蓋影響技術發展或採用速度的其他因素,例如部署解決方案的財務成本、勞動力市場動態、經濟效益、社會接受度等。


二、技術準備度摘要
下表根據 AI 的各項特徵,摘要列出 AI 的各級技術準備度 (TRL)。
TRL 1-發表一項新技術原理的學術論文
TRL 2-出版物或參考資料中,特別強調此項新技術的應用
TRL 3-於實驗室中測量參數
TRL 4-於實驗室中進行測試,產出測試結果
TRL 5-於相關環境 (relevant environment) 中,驗證零組件(components)
TRL 6-於相關環境中,對原型進行測試,產出測試結果
TRL 7-於操作環境 (operating environment) 中,進行原型等級的測試,產出測試結果
TRL 8-商業化產品/服務 (經認證)
TRL 9-部署

三、AI技術準備度評估
報告將AI技術分為下列幾種類別,並根據各項類別之技術,評估TRL情況 ,因原文報告技術涵蓋範疇相當多,本文後續僅摘錄部分技術
(1) 知識表現與推理,技術包含:專家系統
(2) 學習,技術包含:推薦系統、示範學習、影音內容生成
(3) 溝通,技術包含:機器翻譯、語音辨識、大規模多模態模型
(4) 感知,技術包含:臉部辨識、文本辨識
(5) 規劃,技術包含:運輸排程規劃
(6) 實體互動(機器人):技術包含自駕車、家用清潔機器人、物流機器人、檢測與維護機器人
(7) 社交與合作智慧:技術包含協商代理人

(一) 大規模多模態模型 (Massive Multi-modal models)
1. 語言模型 (LM)
在不到十年間,自然語言處理 (NLP) 的研究已被一套語言模型 (language models,LM) 所顛覆,這些語言模型可於不受監督的情況下,於極為龐大的語料庫中進行訓練。這些語言模型使用各種統計與機率技術,來判斷某一詞彙順序於句子中出現的機率,且已證實能夠捕捉到一個語言的基本特徵,也可應用於廣泛的下層任務。

技術面上,LM 透過以下兩種方式達成:
(1) 遷移學習 (transfer learning),將從一項任務中學到的知識,應用於另一項任務
(2) 規模 (scale) 提升,即電腦硬體設備的改善、模型架構的改善,以及使用更多的訓練資料

LM 背後的技術基於「深度神經網路」(deep neural networks) 與「自我監督學習」(self-supervised learning),兩者皆已存在數十年。目前的模型基於 Transformer (Vaswani 及其他,2017) 這套簡單而強大的架構,被視為 NLP 領域最新的重大技術革命。採用此架構的模型包括 BERT、GPT-3,以及CLIP。

這套方法成功的關鍵在於使用「注意力機制」(attention mechanism),允許搜尋上下文中所有詞彙之間的關係,並依賴最相似的詞彙來改善預測的準確性,無論詞彙出現在上下文的哪個位置。與「循環神經網路」或「卷積神經網路」等先前的技術相比,這是一項重大的變化。先前的技術可模擬上下文的依存關係,但受限於詞彙出現的位置,注意力機制則是依照內容來指向詞彙。

2. LM 的三個等級
第一級
從大型、多樣化的資料集中,廣泛學習適用的先驗知識 (priors),將後設知識 (meta-knowledge) 遷移至不同的領域,以及適應不同場景與語言中的語言任務。許多 LM 都是純熟的語言產生器 (language generators),例如,GPT-3 可建立任何具有語言結構的東西,包括回答問題、撰寫論文、摘要長文、翻譯語言、製作備忘錄等,與人類的行為方式幾乎沒有區別。LM 從預先訓練中獲得的語言知識相當多樣,令人驚嘆,但其適應性仍有局限,由於缺乏足夠的文本資料進行大規模的 LM 訓練,因此尚不清楚目前的 LM 將如何處理語言差異 (language variation)、形式 (formality),以及語言多樣性 (linguistic diversity)。儘管如此,目前已發布了多語言的 LM (multilingual LMs),對多種語言同時進行訓練,將成功的模式擴展至英語以外的語言,迄今為止的多語言基礎模型 (mBERT、mT5、XLM-R) 均已針對大約 100 種語言進行訓練。然而,這些模型的穩定程度,仍是一個尚待回答的問題。

第二級
LM 透過更為複雜的任務、輸入來源以及環境,來進行學習。不同的研究社群開始使用類似Transformer 的序列建模方法,而多模態 LM 已應用於圖像、語音、表格資料、蛋白質序列、有機分子,以及強化學習(reinforcement learning) 。值得注意的是視覺合成 (visual synthesis) 的例子,包括 DALL-E 以及透過 CLIP 生成的圖像。多模態模型目前的能力處於早期階段 (TRL 3~5),先前的投入仍主要集中於 RGB 圖像輸入與傳統的視覺任務。

第三級
透過推理與常識,執行高階功能,例如物理與動力學、心智理論、時間性、因果關係等。短期內,可預期大量多模態語言模型的能力會依照上述方向提升,然而這依然是尚待研究的議題 (TRL 1~3)。從長遠來看,大規模多模態語言模型有機會減少對外在註釋的依賴,可能使認知技能取得進展 (例如推理與常識),這在目前完全監督式的研究架構中是難以達成的。因此,提升高階的推理能力是現有 LM 的核心挑戰,而目前的 LM 發展傾向於專注預測下一個低階的步驟。

(二) 文本辨識
1. 文本辨識 (text recognition)
文本辨識技術透過書寫系統的圖片,自動辨識其中的符號 (symbol) 或文字 (character),將文本數位化,以電腦可處理的形式供文本處理軟體執行。文本辨識包括以下兩種,本報告著重於第一種:
(1) 離線辨識:例如從事先已掃描好的圖片、文件等提供輸入
(2) 即時辨識:例如從平板電腦、智慧型手機等裝置即時提供輸入

大量的書面、印刷以及手寫資訊累積至今,且持續在所有類型的媒體中不斷產生,若能自動進行數位化轉換,將可大大節省人力資源並提高生產力,同時提升服務品質。光學文字辨識 (OCR) 自 1990 年代以來已獲普遍採用,且隨著 20 世紀末傳真的廣泛使用,取得顯著發展。目前 OCR 已廣泛使用,但隨著社會數位化程度的提升,對不同能力的期望也隨之演進。

2. 文本辨識的四個等級
第一級
辨識具有特定模板 (template) 的打字與手寫文字,例如郵政系統、銀行支票處理、護照、發票等結構化文件 (structured documents)。使用 OCR 軟體的企業可建立結構化文件的數位副本,例如發票、收據、銀行對帳單,以及任何需要管理的會計類型文件。護照與其他需要管理的結構化文件也是 OCR 軟體的處理對象。這些系統的準確性取決於原始文件的品質,但列印的文件品質通常為 98% 或 99%,對大多數應用程式而言已經足夠。多數商業產品與軟體屬於 TRL 9。

第二級
辨識格式自由的手寫文字 (character),透過非結構化文件中的自動佈局分析 (automatic layout analysis),來辨識手寫文字,包括可分離/可分割 (separable/segmentable) 的手寫文字,以及不可分離/不可分割的手寫文字。目前 OCR 技術已結合使用機器學習與電腦視覺的演算法,於處理文件前先分析文件佈局,以確認必須提取哪些資訊。此項技術通常稱為智慧文字辨識 (ICR),由於涉及辨識手寫文本,因此在某些情況下,準確度可能不甚理想。處理結構化文本中的大寫字母與數字時,由於容易分離/分割,因此可達 97%~99% 的準確度,但在處理無約束 (unconstrained) 的文本或不可分離的手寫文本 (例如草寫) 等較為複雜的情境時,仍會發生錯誤,只是錯誤率並不妨礙此類系統大量使用,目前市場上有大量 ICR 產品與軟體 (TRL 9),是一門活躍的研究領域。

第三級
辨識格式自由、無約束的手寫詞彙 (word),即辨識非結構化文件中無約束的手寫詞彙,包括可分離/可分割的手寫詞彙,以及不可分離/不可分割的手寫詞彙。第三級的能力代表此類技術的進一步發展,辨識對象為無約束 (即不易分離/不可分割) 與自由形式手寫的詞彙 (word),而不是文字 (character)。智慧詞彙辨識 (IWR) 技術可能屬於這個級別,IWR 已針對現實世界中的文件進行優化處理,這些文件大多包含不適合由 ICR 處理的自由格式,或難以辨識的資料欄位。ICR 於文字級別進行辨識,而 IWR 則處理文件的非結構化資訊 (例如完整的詞彙或片語)。雖然 IWR 比 ICR 更先進,但仍然是一項新興技術,屬於 TRL 5 到 TRL 9,部分產品具有解碼 (掃描) 印刷或手寫文本的能力 (例如,參考 Google Vision API,用於 Google Doc 與 Google Lens app)。

第四級
文本辨識系統的高階用途為辨識複雜、非權威人士無法閱讀的文本,例如辨識、解釋並解密古老或嚴重受損的文本。在此脈絡下,目前已有相關研究與專案做出貢獻,但尚未出現從實驗室跨越到相關場景的成功驗證與展示,屬於 TRL 2 到 TRL 6。

(三) 檢查與維護機器人
檢查與維護 (I&M) 機器人技術是一項持續發展的應用領域,將機器人自動導入危險的工作環境,可顯著降低操作風險,改善工作條件。根據環境與任務需求,可選用地面或空中機器人。當一項任務必須於地面或有限空間執行時,通常會選擇地面機器人 (ground robots),例如下水道、隧道、各種管道,以及於地面進行的工業;而空中機器人(aerial robots) 通常從地面上空檢查大面積的區域,例如風力發電機、石油與天然氣平台,以及橋面下。兩種機器人技術的演變歷程不同,因此 I&M 機器人技術的通用性等級分為地面與空中機器人兩種。

1. 地面機器人
地面機器人主要用於遙控操作,應用於 I&M 已有數十年的歷史,然而於大部分的用例中,整合自動導航 (autonomous navigation)、自動評估 (automatic assessment),或自主干預 (autonomous intervention) 的 AI 技術,直到最近十年才出現。

第一級:遙控機器人 I&M
機器人平台完全由人類操作,並透過人工分析機器人所提供的資料或控制干預工具,來執行檢查與維護。這些系統使用普及、功能強大,且以實用為導向,屬於 TRL 9。管道/下水道 I&M 就是一個很好的例子,市場上大多數的解決方案皆以遙控操作,並透過影像記錄進行人工檢查。機器人干預也可透過高壓噴水器、膠水/樹脂/砂漿分配器,或鑽孔機等特殊工具來遙控操作。

第二級:輔助遙控機器人 I&M
機器人整合各項技術,以方便操作或檢查各類任務,例如感測環境以預防跌倒或卡住,或自動進行 3D 重建,以協助操作員掌握地理場景等。通常將第一級的系統升級,配備新的AI 技術,以減輕操作員的壓力,屬於 TRL 9。一個很好的例子是 RedZone Solo 機器人,用於小型管狀下水道中執行無人檢查,眾多功能中包括自動啟動詳細的視覺檢查、檢測機器人可能受困在哪些洞孔、以及自動返回基地等。

第三級:自主機器人檢查
機器人能夠於環境中,跟隨人員或路徑停靠點 (waypoints) 達到自主移動。雖然環境多數時間處於靜態,但由於日常任務 (移動轉盤、封閉環境) 或人類互動,環境會在小範圍內發生變化。機器人不會自動執行實體干預,干預需透過感測器與其他系統輔助。機器人自主導航技術已接近市場成熟度,並已於眾多操作環境中進行測試,但並不是由I&M 業界主要參與者執行,因此屬於 TRL 7。過去十年中,國內/國際研究框架以及私人研究皆透過展示與競賽,將自主導航技術推向市場。由道達爾能源 (Total) 資助的 ARGOS Challenge 競賽即為一例,競賽中,地面機器人必須對石油與天然氣的離岸平台進行檢查與基本干預。

第四級:自主機器人 I&M
機器人能夠於環境中,跟隨人員或路徑停靠點 (waypoints) 達到自主移動,以及執行自主干預或與環境互動,以修復、撿取或放置物體。雖然環境多數時間處於靜態,但由於日常任務 (移動托盤、關門) 或人際互動,環境會在小範圍內發生變化。自主機器人干預需要於部分或未知的環境中,進行精密的操作。根據電機電子工程師學會 (IEEE),自主移動操作的目標是在非結構化與動態環境中,執行複雜的操作任務,為實現此一目標,科學家必須於通用性 (generality)、高維狀態空間估計與驅動 (high dimensional state space estimation and actuation)、感測不確定性 (sensing uncertainty),以及高系統複雜性 (high system complexity) 等方面取得進展。雖然大部分必要的技術元素已有現成的,但即使是簡單的任務,例如於開放式場景中抓取與放置物體,或抓取與切割管線,仍處於開發階段。基於以上原因,本報告將第四級歸類為 TRL 3。

2. 空中機器人
受惠於空中機器人市場步向成熟,空中機器人的應用於過去十年持續增加,目前可提供工業等級的平台,具備高機動性,以及將機器人放置於 3D 空間,可於工業與服務業環境中使用。

第一級
機器人於開放區域的空中進行檢查,包括遙控、輔助遙控,以及自主導航系統。機器人不與環境互動,只作為遠端感測器 (攝影機、氣體檢測、3D 重建等)。市場上提供不同的平台,配備不同的有效載重量與電池續航力,可於 GPS 無法運作的區域執行檢查。這些系統已於不同環境中,針對 I&M 進行深入測試,測試結果良好,同時易於存取與管理,因此歸類於 TRL 9 。CyberHawk與PrecisionHawk公司已為石油與天然氣產業,開發出可作為偵測用途的空中機器人解決方案。

第二級
機器人執行空中檢查以及基本的干預或維護。這些系統重視實際使用,整合末端反應器 (end effector) 或其他工具來開發特定的維護任務。不同的原型已於操作環境中進行測試,並取得良好的效果。例如 SkyGauge 無人機能夠在大型工業基礎設施中,執行超音波測試,以進行完整性評估;Aerones High-Power Drone能夠在高空執行清潔、除冰,以及鍍膜任務,以維護風機。然而,這些解決方案仍無法進入市場,歸類於 TRL 7,預計於未來3-5年內將達到 TRL 9。

第三級
系統能夠執行空中檢查與精密的維護操作,因此能夠執行一般的維護任務,例如密封 (sealing) 與填補裂縫。空中精密操作所需的技術仍在開發中,且在硬體方面仍存在某些限制。這些檢測系統外型笨重、管理複雜,且由於空中機器人的有效載重限制,飛行時間因此縮短。此外,目前的技術必須於動作規劃 (motion planning)、環境感測 (environment perception),以及先進控制 (advance control) 等面向上取得進展,才足以解決空中機器人的實體互動問題。有鑑於此,屬於 TRL2/3。
林玥彤
英文