【資料圖】
3月4日消息,基于ChatGPT的必應(yīng)聊天已經(jīng)讓不少用戶感受到了AI的強大,而微軟于近日推出了更為強悍的全能型AI--Kosmos-1。ChatGPT是純文本LLM,而它是更強大的多模式大型語言模型(MLLM)。
Kosmos-1可以分析圖像的內(nèi)容、解決視覺難題、執(zhí)行視覺文本識別、通過視覺智商測試以及理解自然語言指令等等。
從報道中獲悉,Kosmos-1可以處理文本、音頻、圖像和視頻等內(nèi)容,構(gòu)建一個全能型的人工智能,可以像人類思維一樣來處理任務(wù)。
研究人員在他們的學術(shù)論文中寫道:“作為智能的基本組成部分,多模態(tài)感知是實現(xiàn)人工智能的必要條件”。Kosmos-1論文中的視覺示例顯示模型分析圖像并回答有關(guān)圖像的問題,從圖像中讀取文本,為圖像編寫標題,并以22-26%的準確度進行視覺智商測試。
微軟表示,它計劃向開發(fā)人員提供Kosmos-1,盡管該論文引用的GitHub頁面在本文發(fā)表時沒有明顯的Kosmos特定代碼。
熱門