2022年12月初,美國人工智能實驗室(OpenAI)發(fā)布了一款名為ChatGPT的自然語言處理工具。ChatGPT一經(jīng)問世就迅速引發(fā)關(guān)注,它能“接住”網(wǎng)友提出的一系列“刁鉆問題”,比如可以用英文寫檢討、生成特定領(lǐng)域的論文等,是目前為止較為接近人類水平的對話機器人。作為以AI語言自動生成為特色的應(yīng)用,其一定程度上代表了未來“人類意圖+機器組合內(nèi)容”新型信息傳播形態(tài)的崛起,其引發(fā)的AIGC(AI Generated Content,人工智能內(nèi)容生產(chǎn))社會風險值得深入思考,并提前布局風險防控措施。
【資料圖】
AIGC的技術(shù)特色
ChatGPT通過類似微信對話框的形式,對用戶提出的問題進行解答,是AIGC領(lǐng)域較為“像人”的對話機器人,其技術(shù)特色代表了AIGC的基本技術(shù)特點與趨勢。在過去幾年,OpenAI的研究取得了很多成就,其中包括自然語言處理模型GPT-3、視覺識別模型DALL-E和強化學習模型AlphaGo,ChatGPT依靠的就是自然語言處理模型GPT-3。
GPT-3模型是一個非常強大的自然語言生成模型,它可以用于生成文本、回答問題、翻譯文本、摘要文本、文本分類等任務(wù),基于Transformer模型架構(gòu),通過預(yù)訓練大量文本數(shù)據(jù),再微調(diào)學習特定任務(wù),以此實現(xiàn)高效的自然語言處理能力。目前看來,GPT-3代表了AIGC內(nèi)容生成領(lǐng)域的發(fā)展方向,其技術(shù)特色表現(xiàn)在四個方面。一是超大規(guī)模,GPT-3擁有數(shù)百億個參數(shù),是目前為止最大的自然語言生成模型,這構(gòu)成了內(nèi)容精準生成的基礎(chǔ)。二是自動化,模型可以依據(jù)輸入文本的內(nèi)容自動調(diào)整生成文本的語言風格和內(nèi)容,通過添加個性化因素改進普通AIGC“千篇一律”的缺點。三是通用性,GPT-3可以用于多種自然語言處理任務(wù),并且在這些任務(wù)中表現(xiàn)出色。四是可擴展性,可以通過微調(diào)來學習新的任務(wù),并且隨著模型的擴展而保持較高的性能,通過添加新信息,可以對語言模型進行訓練,從而實現(xiàn)用戶自身的使用目的。
這些技術(shù)特性綜合起來,相比市面上其他聊天機器人,ChatGPT的功能更加多樣化,例如它可以按照特定的要求書寫贊美詩、寫講話稿、新聞稿甚至編寫物理仿真程序。此外,該聊天機器人的回答更為嚴謹,能夠主動承認自己的不足,面對許多高難度問題,會回答“缺乏資料”或者“我只是一個語言模型”,之后再嘗試進行解答??梢哉f,通過有目的的設(shè)置條件,AIGC可以大量、快速生產(chǎn)內(nèi)容,特別是通過細化內(nèi)容生成的條件限制,能夠產(chǎn)出與人類語言高度相似的內(nèi)容。
AIGC的社會傳播風險
AIGC的社會傳播風險問題主要指其可能被用來進行不道德,甚至違法的信息傳播活動,其核心是能夠生成“看上去很像那么回事”,但實質(zhì)上卻是虛假信息的內(nèi)容。具體來看,以ChatGPT為代表的AIGC應(yīng)用存在以下社會傳播風險。
生成假新聞。ChatGPT可以根據(jù)給定的一個或多個關(guān)鍵詞,生成看上去真實,實際上卻完全是編造的新聞。其能夠?qū)崿F(xiàn)從新聞標題到內(nèi)容甚至評論的全部自動化產(chǎn)出。例如,當給定關(guān)鍵詞“美國領(lǐng)導人”和“外交危機”,再加上限制在500字以內(nèi)的條件,ChatGPT就會按照要求的字數(shù)與關(guān)鍵詞生成一篇新聞文章,報道某國領(lǐng)導人發(fā)生了外交危機。
進行信息欺詐。由于ChatGPT能夠產(chǎn)出高質(zhì)量的人類口語文本,其可被用來進行網(wǎng)絡(luò)欺騙,比如通過寫出看上去合法的電子郵件內(nèi)容來實施財產(chǎn)詐騙,通過制造假的政策文件、政府公文來進行信息欺詐。其核心是按照使用者要求自動模仿有固定模式的文本內(nèi)容。例如,可以生成一份非?!跋駱印钡恼猩涛募?。
模仿特定話語風格進行內(nèi)容生成。ChatGPT在大量獲取網(wǎng)絡(luò)文本的同時,也可以進行人為語料輸入,對人工智能進行后期培訓。如網(wǎng)絡(luò)名人、大V等有較大影響力的意見領(lǐng)袖,其語言風格往往很有特色,ChatGPT能夠模仿特定的語言風格進行內(nèi)容生產(chǎn),其話語結(jié)構(gòu)、用詞特點等與真人高度相似,容易對受眾產(chǎn)生誤導。
整體來看,AIGC應(yīng)用的智慧化程度高,拉低了人工智能生產(chǎn)的技術(shù)使用門檻。其能夠一次性處理包括話語風格、字數(shù)、文本類型等多種語言生成要求,可以說生成條件設(shè)置得越具體,其生產(chǎn)的內(nèi)容越接近于真實。針對虛假、不實信息,類似的AIGC技術(shù)將直接降低批量制作虛假信息的技術(shù)要求,加快虛假內(nèi)容的生產(chǎn)速度,對未來的信息內(nèi)容治理提出了進一步挑戰(zhàn)。
AIGC社會傳播風險的應(yīng)對策略
近年來,隨著自然語言處理(NLP)技術(shù)的飛速發(fā)展,ChatGPT等高級語言模型在語言理解和生成方面取得了顯著的進展。然而,這些技術(shù)也帶來了虛假信息的風險。應(yīng)從以下三個方面防范AIGC成為虛假信息發(fā)源地。
落實內(nèi)容負責制:誰生成,誰生產(chǎn),誰負責。在網(wǎng)絡(luò)空間內(nèi)容治理方面,明晰的責任制度是建設(shè)清朗網(wǎng)絡(luò)空間的基礎(chǔ)。針對ChatGPT等新一代人工智能生產(chǎn)應(yīng)用,應(yīng)該延續(xù)我國現(xiàn)有的內(nèi)容責任制度,將《互聯(lián)網(wǎng)信息服務(wù)管理辦法》《互聯(lián)網(wǎng)跟帖評論服務(wù)管理規(guī)定》等延續(xù)至人工智能生產(chǎn)領(lǐng)域,落實誰生成,誰生產(chǎn),誰負責,多方共同承擔治理責任。模型開發(fā)者應(yīng)該對模型在生成虛假信息方面的風險負責。平臺提供商和內(nèi)容發(fā)布者應(yīng)該對使用ChatGPT生成的信息進行審核,以防止虛假信息的傳播。政府應(yīng)該制定有關(guān)網(wǎng)絡(luò)信息傳播的監(jiān)管法規(guī),為確保信息真實性和準確性建立機制,對虛假信息提供者進行懲罰。
以AI對AI:建立人工智能生成內(nèi)容鑒別處置機制。面對人工智能內(nèi)容生成,只能采用AI對AI的策略進行反制。應(yīng)針對不同語言模型的技術(shù)特點提前進行布局,不斷迭代人工智能內(nèi)容監(jiān)測系統(tǒng)。目前看來,ChatGPT等AIGC應(yīng)用有一些較為明顯的局限性,包括但不限于:語法和語義錯誤,在生成文本時會出現(xiàn)語法錯誤和語義不一致的情況。泛化能力有限,在處理新的任務(wù)時泛化能力較弱,它可能無法準確地回答新的問題或處理新的文本數(shù)據(jù)。缺乏邏輯推理能力,無法通過推理來得出結(jié)論,在處理復雜的問題時可能會出錯。依賴輸入文本,對輸入文本的內(nèi)容具有非常強的依賴性。這些問題在很大程度上代表了人工智能內(nèi)容生產(chǎn)的通用性缺陷,可從網(wǎng)絡(luò)內(nèi)容重復性、邏輯性、語法語義等方面著重開發(fā)監(jiān)測工具,通過分析語言特征和上下文信息來識別虛假信息,使用預(yù)訓練數(shù)據(jù)進行數(shù)據(jù)驅(qū)動的方法來檢測生成的信息,構(gòu)建人工智能生成內(nèi)容鑒別處置機制。
加大力度培養(yǎng)自主可控的自然語言生成式模型。目前市面上的人工智能語言模型并不少見,如谷歌BERT模型、阿里巴巴的PLUG模型、清華大學計算機系自然語言處理與社會人文計算實驗室的中文詩歌生成系統(tǒng)“九歌”等,能夠采用擬人化方式和用戶自由對話的也有Character.AI(角色AI)等。但相比上述能夠生成語言的模型,ChatGPT具有了更為強大的功能,其背后是未來人工智能生產(chǎn)領(lǐng)域“強者更強”的發(fā)展邏輯。ChatGPT主要通過使用人類反饋強化學習(RLHF)針對對話進行優(yōu)化,這是一種使用人類演示來指導模型實現(xiàn)所需行為的方法,其參數(shù)量從最開始的1.17億增加到1750億,預(yù)訓練數(shù)據(jù)量從5GB增加到45TB,其中GPT-3訓練一次的費用約為460萬美元,總訓練成本達1200萬美元。流行的人工智能語言模型在人們的使用中不斷獲得信息反饋,持續(xù)進化,最終讓競爭對手“望而卻步”。這提示我們應(yīng)該加強自主可控的自然語言生成式模型的研發(fā)投入與推廣應(yīng)用,最終通過市場手段促進中國人工智能發(fā)展。
(作者單位:中國社會科學院新聞與傳播研究所)
熱門