(相關(guān)資料圖)
在Gartner2022年發(fā)布的人工智能技術(shù)成熟度曲線中,“以數(shù)據(jù)為中心的人工智能”(Data-centric AI)被列為人工智能技術(shù)和應(yīng)用的四大創(chuàng)新類別之一。機(jī)器學(xué)習(xí)學(xué)者吳恩達(dá)也在2022年與IEEE Spectrum的采訪中表示,人工智能將向“數(shù)據(jù)為中心”進(jìn)行轉(zhuǎn)變。
眾所周知,數(shù)據(jù)是人工智能的重要生產(chǎn)要素,對(duì)于AI模型開發(fā)和應(yīng)用非常關(guān)鍵,被喻為AI的原料。
說起以數(shù)據(jù)為中心(Data-centric),不得不提起以模型為中心(Model-centric)的人工智能。從以模型為中心的角度來看,工程師更加偏向從模型出發(fā),通過特征工程來使數(shù)據(jù)適合其模型,而當(dāng)現(xiàn)有模型無法充分解決問題時(shí),將開發(fā)可以解決問題的新模型。人工智能領(lǐng)域此前專注于通過調(diào)整算法模型來實(shí)現(xiàn)更準(zhǔn)確的結(jié)果,但采用公開數(shù)據(jù)和低質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練的模型普適性較差,而重新訓(xùn)練的成本代價(jià)更高,最終導(dǎo)致算力資源和時(shí)間的浪費(fèi)。
從以數(shù)據(jù)為中心的角度來看,數(shù)據(jù)決定了模型的效果,通過對(duì)訓(xùn)練數(shù)據(jù)集的改進(jìn)可以提升模型的準(zhǔn)確性和魯棒性。斯坦福大學(xué)李飛飛等人在2022年8月發(fā)表的論文中指出,實(shí)現(xiàn)可信AI,數(shù)據(jù)的設(shè)計(jì)、改進(jìn)和質(zhì)量評(píng)估是關(guān)鍵。以數(shù)據(jù)為中心的人工智能將重點(diǎn)轉(zhuǎn)移到治理和增強(qiáng)用于模型訓(xùn)練的數(shù)據(jù)上,高質(zhì)量的訓(xùn)練數(shù)據(jù)集、完備的數(shù)據(jù)應(yīng)用策略將會(huì)更好的服務(wù)于模型的開發(fā)與應(yīng)用。通過數(shù)據(jù)治理、數(shù)據(jù)自動(dòng)化、建立數(shù)據(jù)供給全流程等方式,利用數(shù)據(jù)采集標(biāo)注平臺(tái)、數(shù)據(jù)管理平臺(tái)、數(shù)據(jù)質(zhì)量評(píng)估等工具和數(shù)據(jù)增強(qiáng)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等技術(shù)手段,改進(jìn)、完善、評(píng)估數(shù)據(jù),形成優(yōu)質(zhì)的標(biāo)準(zhǔn)化數(shù)據(jù)產(chǎn)品和完備的數(shù)據(jù)全生命周期管理體系,提升數(shù)據(jù)質(zhì)量,最大化釋放數(shù)據(jù)的價(jià)值。
目前,國內(nèi)外眾多研究機(jī)構(gòu)、企業(yè)為實(shí)踐以數(shù)據(jù)為中心的人工智能,正在推動(dòng)相關(guān)應(yīng)用技術(shù)服務(wù)和產(chǎn)品的研發(fā)落地。國際權(quán)威學(xué)者吳恩達(dá)在2021年舉辦了首屆“以數(shù)據(jù)為中心的人工智能競賽”,比賽僅允許通過改進(jìn)數(shù)據(jù)來提升模型的性能,將數(shù)據(jù)的重要性提升到一個(gè)新的高度。在國內(nèi),上海人工智能實(shí)驗(yàn)室建設(shè)OpenDataLab浦?jǐn)?shù)人工智能開放數(shù)據(jù)平臺(tái),匯聚海量的數(shù)據(jù)資源,包括覆蓋800多種任務(wù)類型的3000多個(gè)數(shù)據(jù)集,并提供便捷檢索和快速下載服務(wù);商湯建立了AI數(shù)據(jù)的采標(biāo)平臺(tái)和數(shù)據(jù)集管理平臺(tái),并作為商湯AI大裝置中的一環(huán),全面賦能工程化數(shù)據(jù)應(yīng)用和AI模型的研發(fā)部署;格物鈦構(gòu)建了新一代非結(jié)構(gòu)化數(shù)據(jù)平臺(tái),通過數(shù)據(jù)管理、數(shù)據(jù)可視化、數(shù)據(jù)協(xié)同等功能,打破數(shù)據(jù)質(zhì)量不一致、數(shù)據(jù)分散等問題,提升AI模型的訓(xùn)練效果。
可見,推動(dòng)將“以數(shù)據(jù)為中心的人工智能”,連接起數(shù)據(jù)團(tuán)隊(duì)和模型團(tuán)隊(duì),建立起一套標(biāo)準(zhǔn)化的數(shù)據(jù)質(zhì)量控制、組織管理與工具系統(tǒng)的標(biāo)準(zhǔn)體系,對(duì)于企業(yè)更好的利用AI模型的能力促進(jìn)業(yè)務(wù)增長顯得至關(guān)重要。目前,中國信息通信研究院依托人工智能關(guān)鍵技術(shù)和應(yīng)用評(píng)測工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,聚焦人工智能工程化應(yīng)用和發(fā)展,基于人工智能開發(fā)平臺(tái)、MLOps等研究成果,構(gòu)建面向AI工程化的《人工智能工程化數(shù)據(jù)應(yīng)用成熟度模型》標(biāo)準(zhǔn)體系。標(biāo)準(zhǔn)體系從AI數(shù)據(jù)集質(zhì)量控制出發(fā)開展數(shù)據(jù)應(yīng)用策略研究,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的提升,對(duì)人工智能產(chǎn)品落地和產(chǎn)業(yè)發(fā)展具有一定的前瞻性和長遠(yuǎn)意義。
熱門