一、前言
人工智慧語言模型為自然語言處理(Natural Language Processing, NLP)技術的重要基礎,可用於文字與語音的轉換、語言翻譯、聊天機器人、語音辨識、虛擬助理等用途上。許多人認為語言模型對國家的社會和經濟等方面具有顛覆性的影響,這一點可由近期全球對如ChatGPT的大型語言模型(Large Language Models, LLMs)投資快速增長及陸續開發了更廣泛的應用上獲得驗證。此外,隨著時間的推移,LLMs變得越來越龐大,且有越來越多的語言模型為開放原始碼的形式。(如圖一)
近年來,各國政府逐漸意識到人工智慧語言模型和NLP技術在自動化處理語言任務方面的重要性,此技術能夠突破語言的藩籬,對於改善政府公共服務、推廣國家語言、提高生產力和降低成本等方面至關重要。因此,許多國家已提出相應的政策,以鼓勵和引導人工智慧語言模型的研發和應用。另一方面來說,對於某些使用非主流語言且無法獲得NLP應用的國家來說,形同錯失了機會,這也解釋了為什麼許多政府、學術機構和行業組織將發展自己的語言模型視為首要任務的原因。
人工智慧語言模型能夠在公共行政、醫療保健、銀行業和法律等多個領域應用,為經濟和社會帶來重大機遇。隨著對人工智慧語言模型的採用和應用不斷增加,各國政府在政策執行和制定方面也面臨著一些挑戰。本文將摘譯OECD的報告,彙整目前主要國家為發展人工智慧語言模型所提出的相關政策倡議及需考量的面向。
二、主要國家人工智慧語言模型和NLP技術發展概況
(一)中國大陸
中國大陸資助北京智源人工智能研究院(Beijing Academy of AI , BA AI)於2021年發布語言模型「悟道2.0」,該模型包括1.75兆個參數,超過了Google的Switch Transformer、Open AI的GPT-3,以及Google的GLaM語言模型所包含的參數數量。此外,BAAI還與手機公司小米、外送公司美團和媒體公司快手等22家中國公司合作。
(二)以色列
2021年3月以色列啟動人工智慧基礎設施國家計畫,該計畫主軸之一即為發展NLP技術,並計畫在希伯來語和阿拉伯語的基礎設施上投資5,500萬美元。計畫的成果預計將包含豐富的數據庫和語料庫、希伯來語和阿拉伯語的大規模語言模型、自動語音辨識模組、希伯來語-阿拉伯語雙向翻譯模型,以及用於日常NLP任務的預訓練模型。
(三)德國
目前德國版的GPT-2模型已經以大量的德語資料集進行訓練。德國聯邦經濟事務和氣候行動部的「SPEAKER」計畫目的為開發一個「德國製造」(made-in-Germany)的語音助手平台。此外,德國的人工智慧研究中心設有研究德語語音和語言技術的專業中心。
(四)韓國
韓國已發布針對NLP系統的國家人工智慧倡議。自2017年起韓國即持續建立韓語數據,並公布了49種類型的數據,包含韓語文件的文本摘要、韓國方言的語音數據,以及翻譯語料庫,此外,計畫再額外公布44種類型的韓語數據。
(五)加拿大
加拿大國家研究委員會進行多語言的人工智慧語言模型研發,包括用於多語言情境的機器翻譯和其他NLP系統。此外,加拿大原住民語言技術計畫為原住民語言學校、教育者、學生、社區和技術開發人員提供人工智慧語言模型的支持。
(六)法國
法國政府的國家人工智慧研究計畫其中包含四所跨學科領域研究所所執行的語言技術計畫─PIAF計畫(法語:Pour des IA Francophones),該計畫以開放和貢獻的方式建立法語的人工智慧資料集。此外,法國政府推出了一系列語言技術方面的政策倡議,包括發布針對人工智慧語言模型和NLP系統的國家人工智慧路線圖、成立語言技術實驗室,以及提案成立數位和語言技術國際中心。
(七)芬蘭
芬蘭政府與拉脫維亞公司Tilde合作為芬蘭政府及其部門提供機器翻譯的服務。Tilde開發AURA系統,用於生成芬蘭-瑞典、瑞典-芬蘭、芬蘭-英語和英語-芬蘭的文件和文本翻譯。
(八)日本
日本國立研究開發法人情報通信研究機構(National Institute of Information and Communications Technology, NICT)針對幾個語言技術領域進行研究。此外,日本的2025年全球通訊計畫(Global Communication Plan 2025)對NLP資源的開發和使用進行討論,該計畫的目標包含促進全球自由通訊、增進全球企業能力,實現包容和多元文化的社會,以及提升日本在全球舞台的能見度。
三、發展人工智慧語言模型的挑戰與考慮面向
(一)對環境的影響
隨著人工智慧語言模型的規模和複雜性增加,對計算資源的需求也相應增加,這對環境產生了一些影響,包括能源和水資源的消耗,以及二氧化碳的排放。目前,研究人員正試圖評估人工智慧語言模型對環境造成的確切影響,尤其是二氧化碳的排放量,但估計結果存在差異,且測量方法和指標仍需要進一步標準化。
(二)財務成本
使用和訓練人工智慧大型語言模型成本高,對中小企業而言是一大障礙。對此,OECD建議中小企業即便沒有資源建立自己的模型,仍可從調整現有語言模型中受益。此外,大部分語言模型以英語訓練,針對少數語言的人工智慧語言模型相對較少且進展緩慢。
(三)誤導性資訊和假新聞
由於使用者難以區分人類撰寫的文本和由人工智慧生成的文本,快速發展和廣泛應用的人工智慧語言模型很容易成為製造假新聞、錯誤資訊和操縱輿情的工具,對民主、社會凝聚力和民眾對政府的信任構成威脅。然而,另一方面,語言模型也可以應用於其他正面的用途上。例如,歐盟的Fandango計畫利用語言模型幫助記者和事實核查人員打擊假新聞,避免不實資訊的傳播。
(四)訓練數據的公平性和偏見
人工智慧語言模型所訓練的語言資源來自主導社會群體的數據,這可能引發多樣性和包容性方面的問題。為了減少人工智慧語言模型的偏見,關鍵是使用平衡的(balanced)訓練資料集,以更公平地代表不同群體。此外,在部署人工智慧語言模型之前,進行模型的驗證和確認是非常重要的,以評估和消除潛在的偏見。
(五)隱私
人工智慧語言模型可能透過洩漏或推斷私人資訊而導致隱私侵犯。同時,語言模型的安全漏洞也可能引發隱私問題。因此,在開發和使用人工智慧語言模型時,隱私增強技術和隱私設計流程非常重要。
(六)透明度和可解釋性
由於大多數人工智慧語言模型依賴複雜的神經網絡技術,因此對透明度和可解釋性構成挑戰。為提高透明度,應揭露相關資訊、制定使用指南並警惕濫用情況。此外,模型越複雜,解釋越困難,因此開發具解釋性的語言模型是值得關注的問題,確保人們能夠理解模型的運作方式並提高對語言模型的信任度。
(七)安全性
人工智慧語言模型可能面臨被濫用的風險,例如被用於開發惡意軟體或進行詐騙等。另一方面,開放原始碼的人工智慧語言模型在數位安全方面具有雙面刃的特性。一方面,它提供了更多開發者和使用者修正錯誤、預防攻擊和進行更新的機會;然而,同時也存在被惡意使用者找到漏洞並引發安全疑慮的風險。
(八)研發投入
考慮到人工智慧語言模型所產生的環境和財務成本,研發更節能的語言模型訓練機制十分重要。另一方面,由於人工智慧語言模型正在迅速發展,其進展可能以穩定的步伐進行,也可能通過軟硬體的重大突破以意想不到的方式影響人工智慧發展的軌跡。為了減輕可能對未來社會造成的風險,需要進行前瞻方面的研究,以確定和預測未來的發展。並且需要所有利益相關者之間的協調和合作,特別是研究人員和政策制定者之間的合作。
(九)人工智慧戰略與監管規範
OECD建議將人工智慧語言模型納入國家的人工智慧戰略和行動計畫,以促進可靠的語言模型開發。此外,充分利用語言模型和生成式人工智慧的同時,解決相應的挑戰和風險需要一個支持性的政策環境及機制來確保語言模型的安全。一些國家和經濟體正考慮為人工智慧制定專門的立法,例如歐盟提出的《人工智慧法案》和加拿大的《人工智慧和數據法案》。
(十)為勞動力轉型做準備
人工智慧語言模型能夠自動化越來越多的工作,包括以往被視為需要高技能的任務,這引發了大眾對工作機會被取代的擔憂。為了應對這個挑戰,政府應賦予人們在各個應用領域中有效地使用和與人工智慧語言模型互動的能力。同時,政府應與利益相關者緊密合作,以確保未來勞動力能夠順利轉型。