free?xxxx?亚洲,精品国产成人a区在线观看,淫+色综合

喝杯咖啡就能訓(xùn)練大模型？微軟開源項目將訓(xùn)練速度提升15倍

發(fā)布時間：2023-04-14 18:14:12 文章來源：南方都市報

當(dāng)前位置：主頁 > 資訊 > 國內(nèi) > 正文

在OpenAI大走閉源之路，幾乎已經(jīng)要變成“CloseAI”的同時，其身后老板微軟卻搞起了開源。

(資料圖)

4月13日，微軟宣布開源DeepSpeed-Chat，號稱可以通過這一項目將ChatGPT等大語言模型的訓(xùn)練速度提升15倍以上，并大幅降低成本。

事實上，訓(xùn)練速度和算力資源一直是大語言模型研發(fā)的一個難題。千億參數(shù)的ChatGPT初始所需的算力就需要1萬塊當(dāng)前最先進(jìn)的AI芯片，英偉達(dá)A100來提供，成本高達(dá)1億美元，而就算是訓(xùn)練一個參數(shù)不超百億的類ChatGPT模型，也仍需要高成本的GPU集群。

DeepSpeed-Chat團(tuán)隊表示，該項目可以有效緩解上述問題，開源之后，也能讓類ChatGPT模型更容易被缺少資金和酸鋰資源的普通研究者使用。因此，消息一出，頓時引發(fā)了熱議。

其實，微軟早在2020年就開源了深度學(xué)習(xí)訓(xùn)練優(yōu)化庫Deep Speed，項目核心貢獻(xiàn)者中有不少華人開發(fā)者。因此，此次的Deep Speed Chat也發(fā)布了中文博客，其中明確給出了在這一項目框架的加持下，各量級參數(shù)的大模型需要多長訓(xùn)練時間。

可以看到，基于多節(jié)點(diǎn)的A10080GB芯片的GPU集群配置，一個參數(shù)量為1750億(即175B)的大模型僅需20個小時的時間，花費(fèi)5000多美元。而在兩年前，同樣有1750億參數(shù)量的GPT-3基于1024張80GB的A100進(jìn)行訓(xùn)練時，仍需要1個月時間。

博客也提到，如果用DeepSpeed-Chat訓(xùn)練一個，13億參數(shù)的小型模型(大約是2019年GPT-2的參數(shù)量級)，總共也只需要2個多小時，能夠在“咖啡或午餐休息時間”完成。

而能達(dá)到如此好的效果，是因為DeepSpeed-Chat是一種針對RLHF訓(xùn)練的深度學(xué)習(xí)系統(tǒng)。

所謂RLHF是指以強(qiáng)化學(xué)習(xí)方式依據(jù)人類反饋優(yōu)化語言模型(Reinforcement Learning from Human Feedback)，一種生成領(lǐng)域的新訓(xùn)練范式。這也是ChatGPT與常見大語言模型“預(yù)訓(xùn)練+微調(diào)”的訓(xùn)練方式截然不同的地方。

這種方式簡單來說，就是大語言模型會根據(jù)人工反饋來調(diào)整自己的答案，具體來講，人工會針對初期訓(xùn)練中的多個模型給出的不同答案進(jìn)行排序，然后基于這些排序建立一個“獎懲機(jī)制”(reward)，再用強(qiáng)化學(xué)習(xí)繼續(xù)訓(xùn)練。

這種方法一方面使得ChatGPT最終生成的效果極佳，一方面也使得現(xiàn)有的深度學(xué)習(xí)系統(tǒng)在訓(xùn)練類ChatGPT模型時存在種種局限。而DeepSpeed-Chat則復(fù)刻了RLHF訓(xùn)練方式，使得模型能夠利用DeepSpeed-Inference的各種優(yōu)化，在RLHF中無縫地在推理和訓(xùn)練模式之間切換。

事實上，對于這一項目，也有觀點(diǎn)認(rèn)為，光有代碼層面的設(shè)計，缺乏算力上的支持，仍然意義不大。對此，DeepSpeed項目的核心貢獻(xiàn)者之一Zhewei Yao在知乎相關(guān)問題下表示，訓(xùn)練引擎、后端(backend)自然重要，但訓(xùn)練效率也一樣。

“如果一個人的訓(xùn)練速度比別人慢10倍，那么別人可以嘗試10次，而自己只能嘗試一次。這樣一來，雙方最終成功的概率會有很大差距。因此，我們這次開源的目的有兩個：一是為大家提供RLHF的訓(xùn)練流程；二是為大家提供更優(yōu)秀的后端，以便大家在有限的時間內(nèi)進(jìn)行更多嘗試?！?/p>

編譯：南都記者楊博雯

人工智能

記者

標(biāo)簽：