999精品,丝袜综合,大陆老熟妇性,中国老女人AV,亚洲精品国产第一区二区三区

喝杯咖啡就能訓(xùn)練大模型?微軟開源項目將訓(xùn)練速度提升15倍
發(fā)布時間:2023-04-14 18:14:12 文章來源:南方都市報
當(dāng)前位置: 主頁 > 資訊 > 國內(nèi) > 正文

在OpenAI大走閉源之路,幾乎已經(jīng)要變成“CloseAI”的同時,其身后老板微軟卻搞起了開源。


(資料圖)

4月13日,微軟宣布開源DeepSpeed-Chat,號稱可以通過這一項目將ChatGPT等大語言模型的訓(xùn)練速度提升15倍以上,并大幅降低成本。

事實上,訓(xùn)練速度和算力資源一直是大語言模型研發(fā)的一個難題。千億參數(shù)的ChatGPT初始所需的算力就需要1萬塊當(dāng)前最先進(jìn)的AI芯片,英偉達(dá)A100來提供,成本高達(dá)1億美元,而就算是訓(xùn)練一個參數(shù)不超百億的類ChatGPT模型,也仍需要高成本的GPU集群。

DeepSpeed-Chat團(tuán)隊表示,該項目可以有效緩解上述問題,開源之后,也能讓類ChatGPT模型更容易被缺少資金和酸鋰資源的普通研究者使用。因此,消息一出,頓時引發(fā)了熱議。

其實,微軟早在2020年就開源了深度學(xué)習(xí)訓(xùn)練優(yōu)化庫Deep Speed,項目核心貢獻(xiàn)者中有不少華人開發(fā)者。因此,此次的Deep Speed Chat也發(fā)布了中文博客,其中明確給出了在這一項目框架的加持下,各量級參數(shù)的大模型需要多長訓(xùn)練時間。

可以看到,基于多節(jié)點的A10080GB芯片的GPU集群配置,一個參數(shù)量為1750億(即175B)的大模型僅需20個小時的時間,花費(fèi)5000多美元。而在兩年前,同樣有1750億參數(shù)量的GPT-3基于1024張80GB的A100進(jìn)行訓(xùn)練時,仍需要1個月時間。

博客也提到,如果用DeepSpeed-Chat訓(xùn)練一個,13億參數(shù)的小型模型(大約是2019年GPT-2的參數(shù)量級),總共也只需要2個多小時,能夠在“咖啡或午餐休息時間”完成。

而能達(dá)到如此好的效果,是因為DeepSpeed-Chat是一種針對RLHF訓(xùn)練的深度學(xué)習(xí)系統(tǒng)。

所謂RLHF是指以強(qiáng)化學(xué)習(xí)方式依據(jù)人類反饋優(yōu)化語言模型(Reinforcement Learning from Human Feedback),一種生成領(lǐng)域的新訓(xùn)練范式。這也是ChatGPT與常見大語言模型“預(yù)訓(xùn)練+微調(diào)”的訓(xùn)練方式截然不同的地方。

這種方式簡單來說,就是大語言模型會根據(jù)人工反饋來調(diào)整自己的答案,具體來講,人工會針對初期訓(xùn)練中的多個模型給出的不同答案進(jìn)行排序,然后基于這些排序建立一個“獎懲機(jī)制”(reward),再用強(qiáng)化學(xué)習(xí)繼續(xù)訓(xùn)練。

這種方法一方面使得ChatGPT最終生成的效果極佳,一方面也使得現(xiàn)有的深度學(xué)習(xí)系統(tǒng)在訓(xùn)練類ChatGPT模型時存在種種局限。而DeepSpeed-Chat則復(fù)刻了RLHF訓(xùn)練方式,使得模型能夠利用DeepSpeed-Inference的各種優(yōu)化,在RLHF中無縫地在推理和訓(xùn)練模式之間切換。

事實上,對于這一項目,也有觀點認(rèn)為,光有代碼層面的設(shè)計,缺乏算力上的支持,仍然意義不大。對此,DeepSpeed項目的核心貢獻(xiàn)者之一Zhewei Yao在知乎相關(guān)問題下表示,訓(xùn)練引擎、后端(backend)自然重要,但訓(xùn)練效率也一樣。

“如果一個人的訓(xùn)練速度比別人慢10倍,那么別人可以嘗試10次,而自己只能嘗試一次。這樣一來,雙方最終成功的概率會有很大差距。因此,我們這次開源的目的有兩個:一是為大家提供RLHF的訓(xùn)練流程;二是為大家提供更優(yōu)秀的后端,以便大家在有限的時間內(nèi)進(jìn)行更多嘗試。”

編譯:南都記者楊博雯

人工智能

記者

標(biāo)簽:

最近更新