科技議題

首頁> 科技議題 - 政策動向> 人工智慧語言模型:技術、社會經濟和政策考量
人工智慧語言模型:技術、社會經濟和政策考量 AI language models: Technological, socio-economic and policy considerations
2023/04
Organization for Economic Co-operation and Development (OECD)
https://www.oecd-ilibrary.org/science-and-technology/ai-language-models_13d38f92-en
該篇報告在經濟合作暨發展組織(OECD;以下簡稱經合組織)人工智慧治理工作小組(AIGO)和經合組織數位經濟政策委員會(CDEP)的支持下,針對人工智慧語言模型(AI Language Models;AI LM)和自然語言處理(Natural Language Processing;NLP)的全球發展提出趨勢分析,並以經合組織人工智慧原則(Principle on Artificial Intelligence)的角度提出了相關政策建議。

自然語言處理是人工智慧(Artificial Intelligence;AI)的一個領域,能使計算機系統理解和生成近似人類的語言,而人工智慧語言模型即是其關鍵組成的要素之一。語言模型的應用非常多,包含:文本補全、文字轉語音、語言翻譯、聊天機器人、虛擬助理和語音識別。

人工智慧語言模型可以完成聽說讀寫等動作,也能以支援翻譯的應用來保護少數民族語言或瀕危語言(Endangered Language;意即:即將失傳的語言),但人工智慧技術的發展確實也存在著許多待解決的問題,包括技術問題:不透明性、可解釋性、問責制和可控性;應用問題:人權、隱私、公平性、穩定性、安全性、信任性、過度依賴和成本過高。為了因應AI帶來的種種挑戰,2019年,經合組織於人工智慧原則中指出:「AI系統應該是在穩定、可靠及安全的前提下,提供符合常規操作的功能;AI系統應該能夠正常運作,並且不會造成不合理的安全風險!」。但事實是,AI語言模型使用了透明性不足且複雜的人工神經網路(Artificial Neural Network;ANN),而許多開發者也因為缺乏足夠的專業知識,使得無法預測和無法約束的應用行為頻繁發生。因此,如何制定嚴格的品管標準、如何滿足應用環境的需求,便成為政策制定者們的重大挑戰。

目前先進的特定語言模型為英語、中文、法語,以及西班牙語,但這並不代表其他語言模型的發展不重要;大部分的少數民族語言國家的政策制定者也正積極參與數位語言資料庫的研究發展,並期望推動多語言語言模型以促進文化包容、教育發展、社會福利,以及經濟轉型。而為了提高AI語言模型的可信賴程度,該研究的最後提出基於OECD AI原則的價值闡述及政策建議:
價值原則1:人類福祉與地球永續
自然語言長期以來影響著全球人類的生活和工作方式,而AI語言模型的發展更可以為社會及經濟帶來積極的影響。今年初大流行的生成式AI也是AI語言模型的一種形式,其中例如OpenAI的Generative Pre-trained Transformer 4(GPT-4)等更被用於協助人類執行一些專業工作,包含:程式編寫、文稿撰寫,甚至各式各樣的內容創建。例如:公共管理、醫療保健、金融財政和政策法規等跨部門的部署是各個領先國家的重要議題,為了擁有足夠的數據來訓練語言模型,諸如友善且永續的環境、資金及資源的支援等問題都應該不斷地思考更適合的解決方案。

價值原則2:全人類的價值與公平正義
生成式AI仍在發展初期,所以目前所參考的資料庫可能涵蓋偏見、機密資料、虛假訊息、不當價值觀,以及涉及侵害他人智慧財產權的內容,因此,人權、民主價值觀和公平性等議題也隨著AI語言模型的發展而發酵,這樣的情況更使得其訓練數據的選擇和管理愈發重要。訓練數據所存在的資料庫中,若存在錯誤或虛假信息,便可能導致欺騙事件;特別是行為"類似人類"的語言模型,甚至會產生大規模意見操縱的問題,為此,經合組織與其夥伴積極推動相關的創新解決方案。另外,偏見也是訓練數據庫中需要處理的問題,因為偏見通常會造成刻板印象和歧視。一般來說,訓練數據庫中的參數數量愈多,模型受到特定偏差的影響就越小,不過,隨著參數數量的增加,隱私與能源消耗的問題也會需要提出新的應對機制(例如:個資安全增強及個資威脅防範技術、更低碳的系統演算方案)。

價值原則3:透明度與可解釋性
AI LM是以人工神經網絡為架構的演算法,ANN有一暱稱是「黑盒子」,換句話說就是不容易從外部去了解其中的內容,所以其不透明性及複雜性就形成了問題;即使是開發者也常常無法完全清楚ANN的變量組成方式,而易於理解、何時被使用、明確且適當的使用指導,以及濫用警告在趨勢科技的應用中卻又是重要的。為了應對透明度和可解釋性構成的核心挑戰,一些可以提供公開資訊的語言模型便陸續被開發出來(例如:AI新創Hugging Face的BigScience專案釋出的BLOOM、Meta 釋出的OPT-175B)。

價值原則4:穩定性與安全性
為了商業需求及產業進步,企業應用語言模型在競合上是可以被理解的,但因為AI LM的技術仍待完整,所以往往會無可避免地導致不可預測和無法約束的情況發生。為了解決這些問題,政策制定者必須鼓勵所有利害關係人,尤其是研究及開發人員,為系統制定嚴格的品質控制方法和標準,並採用以人為本的方法協助解決各種與安全相關的挑戰(例如:網路攻擊、詐騙、機敏資訊洩漏),以確保人工智慧系統不會造成任何不合理的風險(例如:Google其下的DeepMind提出了Sparrow模型,能從人類的反饋中進行學習、避過任何有害的事件。目前,經合組織也正在開發一個AI事件監控器,用以識別媒體報導的來源是否可靠,並開始建立大量科研基礎,為人工智慧語言模型和其他AI技術提供安全的資訊。

價值原則5:問責制
人工智慧語言模型的應用發展已進入責任承擔、事實查核,以及可控制性等複雜議題研究,畢竟如果語言模型能夠產生例如:寄送電子郵件、進行商品購買,或是在社交媒體上發言等自發性的決策活動,必定會對社會產生重大的影響。誰應該對AI語言模型與系統的正常運作負責,以及責任的判定等議題,已被各領域的專家討論了好一段時間,因此,促進問責制工具的開發與使用是其中一項可行的建議。

為了確保上述原則,可行的政策建議包括:
一、 促進人工智慧相關應用的研發投資;尤其是有助於生成式AI的安全性、準確性,以及可解釋性等功能提升的科研投資。
二、 孵化數位生態系統;AI LM的發展與部署需要巨量資料及高階的運算能力,才能順利執行日益困難的任務,也因此其運作會耗費非常高的成本。為了避免擁有充沛資金的大型企業壟斷市場、造成某些特定資源稀缺,各國政府應給予適當的協助,例如:投資少數民族語言的語言資料庫系統、允許個人或較小型的組織開發和使用語言模型。
三、 創建有利人工智慧產業發展的政策環境;將語言模型納入國家人工智慧戰略行動的部署是至為重要的,部分國家也已經開始進行這項工作,例如:英國的威爾斯政府公佈了語言技術行動計畫、西班牙政府推出了語言技術進步計畫。另外,立法及在現行的軟法(Soft Law)與硬法(Hard Law)中尋找解釋,也是為生成式AI解決高風險問題的最佳方案。
四、 為勞動力的培育及引進做好準備;隨著AI LM的自動化發展,人才的專業與職務的需求也會與以往大不相同,因此,政府應該帶領著大家為全球社會的變革做好準備,包括:科技趨勢必要技能的學習及終身進修的規劃;另外,帶領產業逐步接受工人協商及工人共享營利的商業模式,也是吸引優質專業人才的有效方法。
五、 與國際、跨領域及利害關係人(Stakeholders)合作已是必要之事;AI語言模型的研究是一項協作工作,需要來自不同學科的專家,包括語言學、計算機科學、認知心理學和政策法律。合作的形式可以是在區域或國際研討會中分享知識及經驗,並以"政策制定"及"技術解決方案"的路線,朝"降低應用風險"及"提升發展效益"的終點前進。
葉郁欣
英文