(相關(guān)資料圖)
編程客棧() 6月25日消息:大型語(yǔ)言模型(LLMs)近幾個(gè)月一直備受關(guān)注。作為人工智能領(lǐng)域最重要python的進(jìn)展之一,這些模型正在改變?nèi)藱C(jī)交互的方式。隨著各行各業(yè)紛紛采用這些模型,它們成為人工智能在全球蔓延的最佳例證。
LLMs 在處理復(fù)雜交互和知識(shí)檢索任務(wù)時(shí)表現(xiàn)出色,其中最著名的例子是由 OpenAI 開(kāi)發(fā)的 ChatGPT聊天機(jī)器人,它基于 GPT 3.5 和 GPT 4 的 Transformer 架構(gòu)。除了文本生成外,還開(kāi)發(fā)了像 CLIP(對(duì)比性語(yǔ)言圖像預(yù)訓(xùn)練)這樣的模型,用于圖像生編程客棧成,使得可以根據(jù)圖像的內(nèi)容生成文本。
為了在音頻生成和理解方面取得進(jìn)展,Google 的研究團(tuán)隊(duì)推出了 AudioPaLM,這是一個(gè)大型語(yǔ)言模型,可以處理語(yǔ)音理解和生成任務(wù)。AudioPaLM 結(jié)合了兩個(gè)現(xiàn)有模型的優(yōu)勢(shì),即 PaLM-2 模型和 AudioLM 模型,以產(chǎn)生一個(gè)統(tǒng)一的多模態(tài)架構(gòu),能夠處javascript理和生成文本和語(yǔ)音。這使得 AudioPaLM 可以處理各種應(yīng)用,從語(yǔ)音識(shí)別到語(yǔ)音轉(zhuǎn)文字。
雖然 AudioLM 在保持諸如說(shuō)話者身份和語(yǔ)氣信息方面表現(xiàn)出色,而以文本為基礎(chǔ)的語(yǔ)言模型 PaLM-2 則專注于特定于文本的語(yǔ)言知識(shí)。通過(guò)結(jié)合這兩個(gè)模型,AudioPaLM 利用了 PaLM-2 的語(yǔ)言專業(yè)知識(shí)和 AudioLM 的附加語(yǔ)言信息保存能力,從而更全面地理解和生成文本和語(yǔ)音。
AudioPaLM 使用一個(gè)聯(lián)合詞匯表,可以使用有限數(shù)量的離散標(biāo)記表示語(yǔ)音和文本。將這個(gè)聯(lián)合詞匯表與標(biāo)記化的任務(wù)描述相結(jié)合,可以在各種聲音和基于文本的任務(wù)上訓(xùn)練單個(gè)解碼器模型。傳統(tǒng)上需要單獨(dú)模型來(lái)處理的語(yǔ)音識(shí)別、文本轉(zhuǎn)語(yǔ)音合成和語(yǔ)音到語(yǔ)音翻譯等任務(wù)現(xiàn)在可以統(tǒng)一到一個(gè)架構(gòu)和訓(xùn)練過(guò)程中。
經(jīng)過(guò)評(píng)估,AudioPaLM 在語(yǔ)音翻譯方面的表現(xiàn)明顯優(yōu)于現(xiàn)有系統(tǒng)。它展示了對(duì)語(yǔ)言組合執(zhí)行零樣本語(yǔ)音到文本翻譯的能力,也就是說(shuō),它可以準(zhǔn)確地將從未遇到過(guò)的語(yǔ)言的語(yǔ)音翻譯成文本,為更廣泛的語(yǔ)言支持開(kāi)辟了可能性。
AudioPaLM 還可以基于簡(jiǎn)短的口語(yǔ)提示在語(yǔ)言之間進(jìn)行聲音轉(zhuǎn)換,并能捕捉并重現(xiàn)不同語(yǔ)言中的獨(dú)特聲音,實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換和適應(yīng)。
團(tuán)隊(duì)提到的 AudioPaLM 主要貢獻(xiàn)包括:
總而言之,AudioPaLM 是一個(gè)統(tǒng)一的大型語(yǔ)言模型,通過(guò)利用基于文本的語(yǔ)言模型的能力和整合音頻提示技術(shù),可以同時(shí)處理語(yǔ)音和文本,成為 LLM 列表中強(qiáng)有力的補(bǔ)充。
AudioPaLM Hugging Face 頁(yè)面:https://huggingface.co/papers/2306.12925
標(biāo)簽:
熱門