解決AI“高分低能” 需要升級的是考核機制

2022-06-14 10:40:45   來源:科技日報

目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。

日,有媒體報道,目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。這種沉迷刷榜,忽略實用質的行為造成了部分AI模型“高分低能”的現象。那么,對于AI發展而言,基準測試是否必要?在實際應用中,基準測試哪些問題有待改進完善呢?

AI模型哪家好,基準測試來說話

AI模型應該如何衡量其能?

“目前AI模型能力的高低取決于數據,因為AI的本質是學數據,輸出算法模型。為了公衡量AI能力,很多機構、企業甚至科學家會收集、設計不同的數據集,其中一部分喂給AI訓練,得到AI模型,另外一部分數據用于考核AI模型的能力,這就是基準測試。”日,西安電子科技大學電子工程學院教授吳家驥接受科技日報記者采訪時表示。

吳家驥介紹說,機器學越來越多地用于各種實際應用場景,例如圖像和語音識別、自動駕駛汽車、醫學診斷等。因此,了解其在實踐中的行為和能變得非常重要。其魯棒和不確定的高質量估計對于許多功能至關重要,尤其是在深度學領域。為掌握模型的行為,研究人員要根據目標任務的基線來衡量其能。

2010年,基于ImageNet數據集的計算機視覺競賽的推出,激發了深度學領域一場算法與數據的革命。從此,基準測試成為衡量AI模型能的一個重要手段。微軟公司的計算機科學家馬塞洛·里貝羅表示,基準測試應該是從業者工具箱中的一個工具,人們用基準來代替對于模型的理解,通過基準數據集來測試“模型的行為”。

例如,在自然語言處理領域,GLUE科研人員讓AI模型在包含上千個句子的數據集上訓練,并在9個任務上進行測試,來判斷一個句子是否符合語法,并分析情感,或者判斷兩個句子之間是否是邏輯蘊涵等,一度難倒了AI模型。隨后,科研人員提高了基準測試難度,一些任務要求AI模型不僅能夠處理句子,還要處理來自維基百科或新聞網站的段落后回答閱讀理解問題。僅經過1年的發展,AI模型的能從不到70分輕松達到90分,超越了人類。

吳家驥表示:“科學研究要有科學問題、方法、計算、試驗對比等要素。因此在進行科學研究,包括人工智能的科研中,也必須有計算與試驗對比,也就是說AI算法的能力應該是可測量的,目的是驗證研究方法的可行、有效。因此,基準測試很有必要,這樣才可以公驗證AI算法能力的高低好壞,避免各說各話,‘王婆賣瓜自賣自夸’。”

算法最終服務實踐,而非刷榜

有人說,高分是AI模型的興奮劑。于是,有的人工智能為了取得好成績而頻頻刷榜。

微軟公司2020年發布報告指出,包括微軟、谷歌和亞馬遜在內的各種sota模型包含諸多隱含錯誤,比如把句子里的“what's”改成“what is”,模型的輸出結果就會截然不同,而在此前,從沒有人意識到這些曾被評價還不錯的商業模型竟會在應用中如此糟糕。顯然,這樣訓練出的AI模型就像一個只會考試、成績優異的學生,可以成功通過科學家設置的各種基準測試,卻不懂為什么。

“為了獲得好成績,研究人員可能會使用特殊的軟硬件設置對模型進行調整和處理,讓AI在測試中表現出色,但這些能在現實世界中卻無法施展。”西安電子科技大學研究員尚坤指出。

在智能手機領域,我們談及手機的使用體驗時一般都不免會涉及手機的能表現,這些能通常會用跑分成績來表現。然而,我們常常會遇到一款手機的跑分成績處于排行榜領先水,但是在實際使用過程中卻出現動畫掉幀、頁面滑動卡頓、應用假死等的現象。全球頂級評測網站AnandTech的一篇報道曾對這種現象提出質疑,指出某品牌手機跑分時啟動了“能模式”,而在時的使用中“能模式”很少被調用開啟。這種處理方式雖然能夠獲得高跑分,但是不能模擬用戶真實的使用情景,這讓基準測試不具有參考意義。

尚坤認為,針對上述問題,改進基準的方法主要有:一種是增加更多的數據集,讓基準變得更難。用沒有見過的數據測試,這樣才能判斷AI模型是否能夠避免過擬合。研究人員可創建一個動態數據收集和基準測試臺,針對每個任務,通過眾包的方式,提交他們認為人工智能模型會錯誤分類的數據,成功欺騙到模型的樣例被加入基準測試中。如果動態地收集數據增加標注,同時迭代式的訓練模型,而不是使用傳統的靜態方式,AI模型應該可以實現更實質的進化。

尚坤說,另一種是縮小實驗室內數據和現實場景之間的差距。基線測試無論分數多高,還是要用實際場景下的數據來檢驗,所以通過對數據集進行更貼真實場景的增強和擴容使得基準測試更加接真實場景。如ImageNet-C數據集,可根據16種不同的實際破壞程度對原有的數據集進行擴充,可以更好模擬實際數據處理場景。

應用廣泛,需盡快建立國家標準

美國麻省理工學院Cleanlab實驗室的研究指出,常用的10個作為基準的數據集中,有超過3%的標注是錯誤的,基于這些基準跑分的結果則無參考意義。

“如果說,基準測試堪稱人工智能領域的‘科舉制’,那么,‘唯分數論’輸贏,是不可能訓練出真正的好模型。要打破此種現象,一方面需要采用更全面的評估方法,另一方面可以考慮把問題分而治之,比如用多個AI模型解決復雜問題,把復雜問題轉化為簡單確定的問題。簡單且經過優化的基線模型往往優于更復雜的方法。谷歌的研究人員為常見的AI任務引入了不確定基線庫,來更好評估AI應用的穩健和處理復雜不確定的能力。”遠望智庫人工智能事業部部長、圖靈機器人首席戰略官譚茗洲指出。

雖然行業正在改變對于基準的態度,但目前基準測試研究仍然是一個小眾研究。谷歌在一份研究中采訪了工業界和學術界的53位AI從業者,其中許多人指出,改進數據集不如設計模型更有成就感。

譚茗洲表示,AI應用基準研究是構建國內統一大市場的內在需要,當前AI已經在國計民生的各類領域中得到廣泛應用,更需要設立標準對AI模型進行全面有效的評估,片面追求和采用高分AI模型,可能會讓模型在復雜極端場景下出現“智障”行為,并且可能由于訓練和推理能的低效,造成不良社會影響、經濟損失和環境破壞。

譚茗洲強調,AI應用基準研究關乎國家戰略。針對重要領域,建立我國自己的AI基準測試標準、AI數據集、AI模型評估標準等迫在眉睫。

據了解,西安電子科技大學的DvcLab也在AI基準測試這個領域進行了前瞻研究,特別是針對AI應用基準測試中數據集的整體質量與動態擴展兩個關鍵問題,正在開發可在線協作的數據標注與AI模型研發托管項目,并計劃今年陸續開源,正在為構建國家AI基準評估標準體系進行積極探索。(◎本報記者 華 凌)

標簽: 解決AI高分低能 需要升級 考核機制

相關閱讀

解決AI“高分低能” 需要升級的是考核機制

科技

目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。近日,有媒體報道,目前部分人工智

2022-06-14

高精度智能線蟲誕生可蠕動前行 讓屏幕前的

科技

近日,在2022智源大會開幕式上,北京智源人工智能研究院(以下簡稱智源研究院)發布了天演團隊最新科研成果高精度智能線蟲天寶1 0。畫面中,

2022-06-14

研究人員發現常見大麥蟲能吃掉塑料垃圾

科技

據10日發表在《微生物基因組學》雜志的一項研究,澳大利亞昆士蘭大學的研究人員發現,常見的大麥蟲(Zophobas morio,又稱超級麥皮蟲)可以

2022-06-13

將人類基因與其功能一一對應 項目數據在線

科技

人類基因組計劃完成20多年后,美國懷特黑德研究所喬納森·韋斯曼及其同事展示了在人類細胞中表達基因的第一份綜合功能圖譜。6月9日在線發表

2022-06-13

“智能皮膚”可探測微生物 有助促進靈敏機

科技

歷經6年努力,意大利和奧地利研究人員開創性地研發出一種三合一混合材料,被稱為新一代智能皮膚。其靈敏度是真實皮膚的1000倍,能探測觸覺

2022-06-13

解決AI“高分低能” 需要升級的是考核機制

科技

目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現優異,但實際應用中卻還會犯一些非常基礎的錯誤。近日,有媒體報道,目前部分人工智

2022-06-14

高精度智能線蟲誕生可蠕動前行 讓屏幕前的很多觀眾瞪大了眼睛

科技

近日,在2022智源大會開幕式上,北京智源人工智能研究院(以下簡稱智源研究院)發布了天演團隊最新科研成果高精度智能線蟲天寶1 0。畫面中,

2022-06-14

研究人員發現常見大麥蟲能吃掉塑料垃圾

科技

據10日發表在《微生物基因組學》雜志的一項研究,澳大利亞昆士蘭大學的研究人員發現,常見的大麥蟲(Zophobas morio,又稱超級麥皮蟲)可以

2022-06-13

將人類基因與其功能一一對應 項目數據在線發表于《細胞》雜志上

科技

人類基因組計劃完成20多年后,美國懷特黑德研究所喬納森·韋斯曼及其同事展示了在人類細胞中表達基因的第一份綜合功能圖譜。6月9日在線發表

2022-06-13

“智能皮膚”可探測微生物 有助促進靈敏機器人和智能假肢的研發

科技

歷經6年努力,意大利和奧地利研究人員開創性地研發出一種三合一混合材料,被稱為新一代智能皮膚。其靈敏度是真實皮膚的1000倍,能探測觸覺

2022-06-13

神秘“軸向希格斯模式”新粒子發現 研究成果在線發表于最近的《自然》雜志

科技

美國波士頓學院物理學家領導的一個跨學科團隊發現了被稱為軸向希格斯模式的新粒子,這是一種以前無法檢測到的量子激發,也是著名的希格斯玻

2022-06-13

仿生橡膠航空輪胎全流程技術鏈條貫通

科技

一架飛機沖向藍天,離不開腳上一雙能夠在高載荷、高溫、高沖擊條件下正常工作的鞋子,這雙鞋子就是航空輪胎。由于其制造技術壁壘極高,航空

2022-06-13

科學家們對“隼鳥2號”帶回的小行星樣本首次全面分析

科技

據New Atlas報道,一次為期六年的小行星往返旅行,使人們對太陽系的形成有了前所未有的認識。科學家們對從小行星龍宮返回的樣本進行了首次

2022-06-13

巨大的“鱷魚臉”恐龍被發現 “歐洲最大的陸地捕食者”

科技

據CNET報道,由南安普頓大學的古生物學家領導的一項新研究已經確定了歐洲有史以來最大的陸地捕食者之一的遺骸:一種長度超過 10 米、生活

2022-06-13

研究發現:犬類與人為友的遺傳線索

科技

據《科學報告》9日發布的一項研究發現,黑素皮質素受體-2(MC2R)基因可能在犬類的馴化中發揮了作用,使它們發展出社會認知技能,與人類交流

2022-06-10

遇見旗袍是于萬千人群中的驚鴻一瞥 沿途灑滿了愛的芬芳

旗袍,中國和世界華人女性的傳統服裝,被譽為中國國粹和女性國服。雖然其定義和產生的時間至今還存有諸多爭議,但它仍然是中國悠久服飾文化

北京市電影院有序恢復開放 周五預售部分場次已滿座

7月21日,北京市政府發布《北京市電影局關于在疫情防控常態化條件下有序推進電影院恢復開放的通知》,宣布全市低風險地區影院,可于7月24日

近期持續強降雨影響 第46屆武漢渡江節因長江水位過高取消

?武漢7·16渡江節組委會14日發布公告,由于長江武漢關水位超警戒水位,按照規定取消2020年第46屆武漢7·16渡江節。受近期持續強降雨影響,

“非遺”普及受眾最看重“動手”參觀大師工作室非常享受

過去一段時間,國家級非遺項目灰塑傳承人邵成村,多次在陳家祠等工作現場,向身邊那些帶著好奇目光的人們講解灰塑的種種技術細節:草根灰、

璧山冷酒夜市 豐富市民夜間文旅活動

7月13日,位于璧山區南門唐城夜市街區的璧山冷酒夜市開街。這是璧山區打造夜間經濟消費載體、培育夜間經濟活動品牌的舉措之一。璧山市民一

年內兩市超過500家上市公司完成回購 累計回購金額超332億元

近期A股市場持續震蕩,不少上市公司或其重要股東推出回購、增持計劃,用真金白銀力挺股價。記者根據同花順數據統計,今年以來,兩市超過500

持續發力補鏈強鏈加大研發搶占市場 渝企跑出“加速度”

玥湖路渝快電充換電站 一輛新能源汽車,離不開研發、動力、配套等多個環節。作為汽車制造重鎮,重慶在這些環節的多個板塊上,正在加速奔跑

重啟上市公司資本運作 康佳集團去年半導體業務營業收入為3.22億元

近日,康佳集團正式對外發布2021年年度業績報告。2021年,康佳集團實現全年營收491 07億元,歸屬于母公司的凈利潤為9 05億元,同比增長89 5

偉祿集團連續6年增長 去年營收同比增長37.5%

深港通標的之一的深圳企業偉祿集團近日公布2021年業績。財報數據顯示,偉祿集團全年營業收入11 95億港元,同比增長37 5%,連續6年穩步增長;

龍頭企業去年凈利倍增 整個行業營收規模有望創造歷史新高位

近日,面板龍頭TCL科技、京東方分別發布2021年度業績快報,兩家企業去年歸屬于上市公司股東的凈利潤分別增長129 3%、412 86%,實現超過百億

深圳國企全力為市民 守好“菜籃子”“米袋子”保障量足價穩

疫情防控形勢下,民生物資供應是否充足成為市民最為關注的問題之一。連日來,深農集團、深糧控股等企業,充分發揮國企擔當,全力為深圳市民