隨著GPT-4的重磅發(fā)布,AI應(yīng)用又一次引爆社交媒體。2022年11月,當(dāng)OpenAI推出ChatGPT時(shí)估計(jì)沒有想到它后來會(huì)如此成功:上線2個(gè)月后月活用戶突破1億,成為史上用戶增長最快的消費(fèi)級(jí)應(yīng)用程序。在此之前最為成功的是TikTok,達(dá)到這個(gè)月活水平也用了9個(gè)月。ChatGPT的成功引爆了AI行業(yè),讓更多的普通人也開始關(guān)注。同時(shí),也引發(fā)了眾多AI從業(yè)者的思考:ChatGPT會(huì)對自己所在行業(yè)帶來什么影響?ChatGPT是否能為我所用?如何用?
作為國雙CTO,國雙技術(shù)戰(zhàn)略制定和整體產(chǎn)品研發(fā)工作的負(fù)責(zé)人,劉激揚(yáng)也在思考這些問題。國雙定位為大數(shù)據(jù)和人工智能領(lǐng)域的技術(shù)型公司,人工智能技術(shù)在產(chǎn)品和解決方案中得到廣泛應(yīng)用,支撐地位毋庸置疑,上述問題的答案事關(guān)國雙未來技術(shù)布局。
(相關(guān)資料圖)
ChatGPT突破在哪里?
劉激揚(yáng)畢業(yè)于清華大學(xué)并取得了美國匹茲堡大學(xué)計(jì)算機(jī)科學(xué)碩士學(xué)位,2014年12月加入國雙出任CTO。加入國雙前,劉激揚(yáng)服務(wù)于微軟長達(dá)16年。在微軟亞洲研究院工作期間,劉激揚(yáng)創(chuàng)建了微軟搜索技術(shù)中心,這也是微軟亞洲互聯(lián)網(wǎng)工程院的前身。他還創(chuàng)立了微軟亞洲互聯(lián)網(wǎng)工程院蘇州分院并主持工作。
作為一名技術(shù)專家,劉激揚(yáng)一直非常關(guān)注人工智能技術(shù),他在微軟的工作就與人工智能技術(shù)相關(guān),后來在國雙領(lǐng)導(dǎo)了人工智能技術(shù)研究。由于這些經(jīng)歷,劉激揚(yáng)比一般人更懂得人工智能技術(shù)的價(jià)值和該技術(shù)當(dāng)前的瓶頸所在。
在劉激揚(yáng)看來,ChatGPT大火并不是因?yàn)樗捎昧祟嵏残偷募夹g(shù),更多的是其在現(xiàn)有技術(shù)上取得的一種工程突破。
“從技術(shù)上來講,ChatGPT和之前基于深度學(xué)習(xí)識(shí)別貓、狗,仍然處于同一技術(shù)路線。因?yàn)楝F(xiàn)在語料的增加、算力的提升、訓(xùn)練相關(guān)工程能力的提升,使得更大的模型訓(xùn)練得以實(shí)現(xiàn),也使得表現(xiàn)更為智能。但總體而言,ChatGPT并不是創(chuàng)造了新的技術(shù),而只是原有技術(shù)的組合和迭代?!眲⒓P(yáng)表示。
劉激揚(yáng)介紹,從自然語言處理(NLP)技術(shù)本身來看,ChatGPT屬于文本生成領(lǐng)域,所用的技術(shù)和此前的文本生成一脈相承,目前看來,這樣端到端的模型對于分詞、語法相關(guān)的問題并沒有解決,也就是說尚未產(chǎn)生真正的理解,還是基于統(tǒng)計(jì)的可能性進(jìn)行文本生成。
OpenAI公司技術(shù)專家的說法證實(shí)了劉激揚(yáng)的看法。根據(jù)這些專家們的說法,ChatGPT使用的技術(shù)都不是新的,ChatGPT使用的是微調(diào)后的GPT-3.5,GPT-3.5是2020年發(fā)布的GPT-3的更新版,OpenAI 在2022年1月就發(fā)布了GPT-3.5的預(yù)覽,相關(guān)API也早就發(fā)布了。因?yàn)檫@些原因,當(dāng)初OpenAI發(fā)布ChatGPT時(shí)并沒有太多期望,目的只是想收集公眾的反饋進(jìn)行模型優(yōu)化。
不過,劉激揚(yáng)認(rèn)為,ChatGPT還是有突破,它比前輩們更接近人的行為模式,更符合人類的需求。它在人機(jī)交互上更為自然、智能,尤其是它能表現(xiàn)出對上下文的理解和記憶,這種體驗(yàn)是此前的各種交互機(jī)器人所不具有的,這是一個(gè)驚人的進(jìn)步,也是它能迅速出圈的重要原因。而這背后離不開大量的技術(shù)工作,其中的關(guān)鍵創(chuàng)新是ChatGPT采用了一種從人類反饋中強(qiáng)化學(xué)習(xí)的技術(shù)(RLHF),他們先訓(xùn)練了一個(gè)會(huì)生成各種內(nèi)容的大語言模型,然后,通過人來教它人類希望它怎么回答來調(diào)整,這也是ChatGPT成功的真正秘訣。
落地到行業(yè)還有多遠(yuǎn)?
隨著ChatGPT的走紅,越來越多的人開始使用它,有人用它來寫代碼、招聘信息、文案、論文等。不過,目前這些應(yīng)用主要還是消費(fèi)領(lǐng)域。那么,ChatGPT能否真正進(jìn)入行業(yè)?
劉激揚(yáng)認(rèn)為目前還有困難。ChatGPT主要是面向大眾的,這和國雙所從事的產(chǎn)業(yè)化落地完全不同,那需要在工業(yè)領(lǐng)域一個(gè)場景、一個(gè)場景地深耕。
“前者追求受眾廣泛,能夠滿足大多數(shù)人的一般需求,后者需要強(qiáng)化數(shù)據(jù)和知識(shí)雙輪驅(qū)動(dòng),針對業(yè)務(wù)問題進(jìn)行數(shù)據(jù)治理、知識(shí)治理、智能應(yīng)用構(gòu)建,結(jié)合專家的經(jīng)驗(yàn)、數(shù)據(jù)及知識(shí)、智能決策算法,解決核心業(yè)務(wù)問題?!彼f。
劉激揚(yáng)認(rèn)為,ChatGPT(或者類似的大模型)要落地到行業(yè)、賦能企業(yè)目前至少還面臨以下挑戰(zhàn):
首先是答案的正確性。ChatGPT采用的大模型技術(shù),數(shù)據(jù)主要來自網(wǎng)絡(luò),其本身并不存在真正的基礎(chǔ)數(shù)據(jù)庫、知識(shí)結(jié)構(gòu),在回答問題時(shí)它會(huì)犯錯(cuò),甚至虛構(gòu),導(dǎo)致它常?!耙槐菊?jīng)的胡說八道”,這對尋求專業(yè)性問題答案者會(huì)產(chǎn)生嚴(yán)重困擾。
其次,ChatGPT使用的大模型本質(zhì)上是一種“黑盒子”,對于為什么給出這樣的答案,ChatGPT無法給出解釋。這在很多工業(yè)應(yīng)用場景來說是不可接受的,很多時(shí)候我們不僅想知道答案,還希望知道為什么是這個(gè)答案。
第三是工程難度,也就是成本問題。ChatGPT采用的大語言模型,模型參數(shù)達(dá)到千億級(jí)別。訓(xùn)練這種模型需要很大投入,有機(jī)構(gòu)預(yù)測,GPT-3訓(xùn)練一次的成本約為140萬美元,同時(shí)平時(shí)還需要不菲的運(yùn)行費(fèi),顯然不是一般的企業(yè)能夠玩得起的。
另外,還有實(shí)時(shí)性的問題。目前英文版本的ChatGPT數(shù)據(jù)截至2021年,而中文版本的ChatGPT數(shù)據(jù)截至2020年,數(shù)據(jù)滯后的主要原因是由于語言類大模型的技術(shù)限制。而在很多工業(yè)場合,需要結(jié)合最新的數(shù)據(jù)做出決策,這一點(diǎn)也是難以接受的。
好的技術(shù)需要積累和打磨
雖然ChatGPT要真正落地行業(yè)還有一段距離,但它的成功讓人們再次看到了人工智能技術(shù)的前景,尤其是生成式AI技術(shù),劉激揚(yáng)也在評估生成式AI技術(shù)在國雙應(yīng)用的前景。
劉激揚(yáng)表示,國雙所從事的行業(yè)非常需要生成式AI技術(shù),比如知識(shí)管理就是其中之一。目前國雙與某勘探開發(fā)研究院合作的知識(shí)智能管理平臺(tái),可以向科研人員提供文章內(nèi)容摘要、問答、搜索和推薦,但缺少像ChatGPT這樣的自然對話能力,接下來會(huì)重點(diǎn)研究這一領(lǐng)域。
另外,國雙所從事的工業(yè)領(lǐng)域?qū)Υ鸢刚_性和實(shí)時(shí)性都有嚴(yán)格要求,目前單靠ChatGPT難以滿足,但可以考慮通過其他技術(shù)的結(jié)合來彌補(bǔ),比如與知識(shí)圖譜相結(jié)合,國雙也會(huì)研究生成式AI與其他AI技術(shù)的融合。
劉激揚(yáng)坦言,讓AI落地行業(yè)需要與行業(yè)深度結(jié)合,這需要長期積累,需要精心打磨產(chǎn)品,需要時(shí)間?!癈hatGPT能有今天的成功,是幾十億、上百億的投入,是連續(xù)八年默默無聞的改進(jìn)、優(yōu)化才有的,沒有這份堅(jiān)守的決心也不能有今日的成功?!彼f。
對于這份堅(jiān)守國雙深有感觸,國雙也是這么走過來的。國雙成立于2005年,第一個(gè)產(chǎn)品Web Dissector(互聯(lián)網(wǎng)流量和用戶行為監(jiān)測與分析系統(tǒng),以下簡稱WD)是2008年推出的,其早期的功能主要是網(wǎng)絡(luò)流量和用戶行為的統(tǒng)計(jì)、分析。為了滿足客戶在使用中不斷提出的新需求,國雙開始將AI技術(shù)應(yīng)用于WD,并不斷優(yōu)化,因此其功能也從后臺(tái)的全域營銷監(jiān)測拓展到前端的廣告預(yù)算分配等。
國雙與蘭蔻的合作案例至今仍為老國雙人津津樂道。蘭蔻是國雙創(chuàng)業(yè)初期的天使客戶,當(dāng)時(shí)想了解自己品牌在中國各地的認(rèn)知度。傳統(tǒng)方法是找人在全國進(jìn)行面訪和問卷調(diào)查,但這樣做周期長、成本高,準(zhǔn)確性也無法考證。于是,蘭蔻決定運(yùn)用大數(shù)據(jù)的方法進(jìn)行分析,并把這件事委托給了國雙。國雙先是準(zhǔn)備了一些關(guān)鍵字列表,然后利用WD收集通過搜索引擎查詢這些關(guān)鍵詞的流量以及訪問蘭蔻官網(wǎng)的流量,最后進(jìn)行匯總分析,結(jié)果發(fā)現(xiàn)上海、北京、廣西位列前三。廣西的上榜讓人意外,國雙又做了進(jìn)一步的深究,最后發(fā)現(xiàn)有人借助搜索引擎在作弊,騙取廣告費(fèi)。最終,國雙經(jīng)過與客戶溝通運(yùn)用大數(shù)據(jù)技術(shù)幫客戶避免了不小的損失。
在上述案例中,國雙行業(yè)專家的經(jīng)驗(yàn)發(fā)揮了很重要的作用,但畢竟還是需要人工介入。于是,國雙開始研究如何把這些專家經(jīng)驗(yàn)融入WD,通過WD來自動(dòng)識(shí)別異常流量,機(jī)器學(xué)習(xí)技術(shù)就是這樣被引入進(jìn)來。在與作弊者的不斷較量中,國雙一直在不斷優(yōu)化和改進(jìn),如今,已經(jīng)形成了基于機(jī)器學(xué)習(xí)的系列產(chǎn)品。
“國雙并非一家很大的公司,資源有限,我們不會(huì)盲目地去搞技術(shù),更多地投入都是從客戶那里看到行業(yè)、市場和需求。我們一直強(qiáng)調(diào)場景化落地,也就是幫助客戶解決實(shí)際問題,過去如此,面對大熱的ChatGPT也是如此。我們不會(huì)盲目抄作業(yè),能否利用它來真正解決行業(yè)痛點(diǎn)是最重要的標(biāo)準(zhǔn)?!眲⒓P(yáng)表示。
標(biāo)簽:
熱門