投資 >

OpenAI公開網頁爬蟲工具:資源枯竭壓力下,人工智能產業的數據版權困局

2023-08-11 16:16:38   來源:21世紀經濟報道

南方財經全媒體記者 吳立洋 上海報道


(資料圖片)

網頁爬蟲,長期存在于互聯網產業中的灰色地帶,作為一種網絡信息采集工具,爬蟲軟件既可以幫助使用者便捷地大范圍獲取網頁數據,也常常因涉嫌侵犯平臺方數據資產與用戶個人隱私而遭到質疑。

近日,OpenAI公司新發布的網絡爬蟲工具GPTBot則將這一的數據獲取渠道再次推上風口浪尖,據其發布的信息顯示,GPTBot將被用于抓取網頁數據,以訓練GPT-4或GPT-5,提升其能力與準確性。

而OpenAI這一舉動再次引發外界關于人工智能訓練“數據荒”的猜測,此前,多位業界人士與學術機構警告稱高質量的人工智能訓練文本將在幾年內消耗殆盡——若非需求迫切,本就在聚光燈下的OpenAI似乎并不需要公開這一本就飽受爭議的數據工具。

而業界同樣對OpenAI的進一步動作高度關注,如果該舉動并未引起平臺與監管的激烈反彈,是否意味著其他AI公司同樣可以依葫畫瓢應用爬蟲獲取訓練數據?在Reddit已率先宣布對第三方API接口收費后,AI產業與內容平臺又將走向更為廣泛的對立抑或合作?

“數據荒”會到來嗎

作為人工智能發展的三大基本要素(算法、算力、數據)之一,訓練用數據的重要性隨著AI產業的高速發展被進一步凸顯,具備高質量、大規模、豐富性的訓練數據正被快速消耗。

2022年10月,Epoch AI Research團隊發布的論文指出,當前語言數據集數量正以50%的速度增長,而原始數據的增長速度則為7%,如果數據使用效率不能得到大幅度提升或有新的數據源出現,用于語言模型訓練的數據可能將于2030年至2050年之間耗盡,其中高質量語言數據預計于2023至2027年耗盡。

而當前開拓和豐富數據庫的各項努力依然未取得顯著進展,此前業界曾寄希望于使用一個大模型為另一個大模型生辰訓練用數據,但Ilia Shumailov等學者的研究則發現,在訓練中使用模型生成的內容將導致進行新訓練的模型出現不可逆的缺陷,即“遞歸的詛咒”,人類生成的文本內容特別是人類與人工智能的交互數據在大模型訓練中依然必要。

“書籍、期刊論文作為人類正式出版物,其數據信息已經做了很好的質量控制,但這部分數據對大模型來說基本已經消耗完了,因此到網頁等公開渠道獲取數據成為主要數據來源。”香港科技大學(廣州)協理副校長熊輝教授在接受南方財經全媒體記者采訪時指出,相較于谷歌、微軟等擁有自身網絡平臺與長期數據積累的互聯網巨頭,隨著書籍等公共文本數據存量見底,各互聯網平臺建立藩籬反對爬取自身平臺數據或深層數據,OpenAI等單純以AI研發為主要業務的訓練數據枯竭可能將比上述Epoch AI Research的預測來得更早。

“基于當前大模型企業的數據訓練和數據消化能力,在窮盡其本身能力所能獲取的人類生產的數據后,可能到2025年這些企業就將面臨無人類生成數據可用的問題。”熊輝表示。

而這或許也是OpenAI急于將網頁爬蟲公開化的原因。其官方發布的論文顯示,早在GPT-3.0訓練所使用的753GB數據中,除21GB書籍數據與101GB期刊數據,其余數據來源中11.4GB的維基百科數據、50GB的Reddit(海外社交平臺)連接數據與570GB的Common Crawl(免費網頁數據庫,主要內容來源于網頁爬蟲)都與網頁相關,而書籍與期刊的數據庫存與增長有限,未來網頁數據在大模型訓練數據集中所占比重或將進一步提升。

但網頁數據存在的問題也非常明顯,作為相對公開的數據來源,雖然其在可獲得性與數量方面較為理想,但網頁本身的內容質量卻良莠不齊,且隨著人工智能在C端的大規模應用,越來越多本就是AI生成的文本、圖片、視頻也更加容易導致“遞歸的詛咒。”

熊輝指出,大模型使用AI生成的數據而可能產生的崩潰或偏見,本質上來源于其訓練中的自我增強循環,即模型訓練發生了樣本偏移或訓練分布偏移,陷入到一種錯誤或有限的思維定勢中,形成局部的信息繭房現象。在人工智能訓練數據來源方面,數據隱私和數據層面的缺陷導致的偏見與倫理問題,也是當前產業面臨的主要問題。

他進一步表示,要避免因數據問題而導致的模型崩潰或偏見,通常最普遍的做法時引入多元的訓練數據,即便是同一類型的數據,不同的數據來源也將一定程度上避免數據使用陷入自我增強循環,同時輔助以對抗生成等技術來判斷數據質量。

爬蟲爭議

但作為一種大規模的網頁信息爬取工具,爬蟲在互聯網產業中的使用往往伴隨著巨大爭議,網站所有者認為其攫取了自身的平臺價值,在網站上發布內容的用戶則面臨版權與個人隱私權益被侵害的風險。

在美國最為知名的爬蟲軟件案件之一發生在微軟旗下職業社交平臺LinkedIn與數據分心公司HiQ之間,后者通過爬取前者數據并進行處理后將分析結果出售給相關企業獲利,雙方關于第三方是否有權爬取網站信息展開長達五年的訴訟拉鋸。最終,該案以法院裁定HiQ違反LinkedIn用戶協議,賠償50萬美元并禁止其未經同意自動化訪問復制數據告終。

今年4月,作為OpenAI ChatGPT、谷歌Bard等多個公司大語言模型的重要數據來源,美國社交媒體平臺Reddit宣布將向訪問其應用程序編程接口的公司收費,不再免費為科技巨頭提供免費的數據內容。隨后,Twitter(現名X)CEO馬斯克亦公開指責微軟非法使用Twitter數據訓練AI模型,并聲稱將就此起訴微軟。

為應對可能的合規爭議,OpenAI在發布GPTBot時也為網站所有者提供了屏蔽爬蟲的方法——只要在網站的robots.txt(爬蟲協議)中添加對應代碼,即可禁止或允許GPTBot訪問爬取部分網站內容。

但這種把球踢給網站所有者的做法也并不能完全避免合規風險。一個最為突出的問題是,網站只是網絡信息的展示平臺,網站所有者并不天然具有其他網民發布在網站上信息內容的所有權,即便爬蟲方取得網站所有者同意,其爬取網站信息的行為依然可能觸犯內容發布者的版權權益。

王新銳表示,相關信息的安全程度將取決于OpenAI是否將對相關信息采取有效的安全技術保障措施,如加密等,但這也并不能完全排除過濾后數據爬取仍可能獲取一定個人可識別信息的可能性。

近年來,各國也在不斷加強與細化人工智能訓練數據的合規要求。例如我國最新發布的《生成式人工智能服務管理暫行辦法》中也明確提出“生成式人工智能服務提供者應依法開展預訓練、優化訓練等訓練數據處理活動,包括使用具有合法來源的數據和基礎模型;涉及知識產權的,不得侵害他人依法享有的知識產權”等要求。

除版權問題外,個人隱私同樣是網頁爬蟲在獲取數據時難以避免的敏感問題,雖然OpenAI承諾GPTBot爬取的網頁將被過濾篩選以“去除已知包含個人信息的來源”,以試圖從網站類型與源頭控制對個人可識別信息的收集,但在具體實踐中技術的有效程度仍有待檢驗。

王新銳表示,相關信息的安全程度將取決于OpenAI是否將對相關信息采取有效的安全技術保障措施,如加密等,但這也并不能完全排除過濾后爬蟲仍可能獲取一定個人可識別信息的可能性。

應對數據困局

正如前文所言,作為近年乘AI熱潮興起而嶄露頭角的新興公司,數據積累將成為OpenAI在未來產業競爭中重要的短板,而在進一步獲取數據的過程中,來源與流程合規以及愈加嚴格的監管也將成為其不得不面臨的兩難。

在這樣的背景下,效仿其他的互聯網平臺的合規舉措,在法規與行業框架的模糊地帶盡可能拓展數據來源,成為包括OpenAI在內大多數人工智能開發者的選擇。

例如,提供給網站所有者爬蟲屏蔽方式的舉措,也是承襲自其他互聯網公司的既有做法。在谷歌官網,同樣對其使用的一系列爬蟲程序和用戶代理字符串也均進行了公示說明,明確網站所有者可以通過將Googlebot, Googlebot Image, Googlebot News等爬蟲程序添加到站點robots. txt中來禁止其訪問網站。

但正如此前OpenAI已陷入藝術家與作家就版權問題對其發起的訴訟,相同的做法無論在美國或是其他國家,都面臨著不容忽視的合規問題。

王新銳表示,相較而言,我國的法律法規顯然對數據爬取采取了更嚴格的監管路徑。在我國數據爬取受到多部法律法規的監管,一旦超過合法收集、利用的限度,數據爬取將存在侵犯個人信息權益、侵犯知識產權、不正當競爭以及危害計算機信息系統類的違法甚至犯罪風險,需承擔相應民事、行政乃至刑事責任。

而隨著數據資源枯竭的危機一步步逼近,方興未艾的人工智能產業在加足馬力發展的同時,又該如何應對模型“養料”供應不足這一現實問題?

熊輝指出,在產業發展初期,各大公司肯定會窮盡一切可能的方法獲取其能夠接觸的所有數據,早期的數據獲取方式在市場驅動下必然是粗獷式的;而隨著數據資源逐漸耗盡,下一步企業的數據利用也會在管理驅動下更為精細化數據質量控制,例如做更為細致的數據標注與清洗;在此之后,如果想進一步挖掘數據價值,則有賴于進一步創新,其中包括數據來源與數據利用方式的創新,例如通過拆解流程、劃分步驟的方式,豐富數據內容的維度。

“打個比方,對于一年級還未接觸復雜乘除計算的小朋友,51÷3的數學問題比較復雜,但是將其拆解為(30+21)÷3后,就可以將其分為30÷3與21÷3兩個九九乘法表可以解決的簡單問題,與純粹由AI生成的數據不同,這一基于人類生成數據拆解所產生的步驟數據,在AI訓練中也是有價值的。”熊輝表示,通過人工或AI輔助,數據資源的進一步開發與挖掘將是緩解數據枯竭問題的主要途徑。

近日,繼日本畫師、好萊塢從業者等群體后,多家海外媒體機構也加入呼吁保護生成式人工智能訓練數據版權的行列中。在法新社、歐洲新聞圖片社等媒體簽署的一封公開信中,其督促全球立法者考慮制定法規,增強人工智能訓練數據來源透明度,并在獲取數據前征求權利人同意。

隨著AI產業的進一步發展及各行業和群體對數據價值與權利意識的覺醒,如何構建數據生產方、持有方與數據使用方之間的權利義務關系,成為從監管到每一個互聯網參與者都需要面對的現實問題。

標簽:

相關閱讀

OpenAI公開網頁爬蟲工具:資源枯竭壓力下,

投資

網頁爬蟲,長期存在于互聯網產業中的灰色地帶,作為一種網絡信息采集工

2023-08-11

香港旅發局:今年前7個月內地訪港旅客約130

投資

香港旅游發展局11日公布數據,2023年7月初步訪港旅客數字約為360萬人次

2023-08-11

深公司早報丨華大智造上半年轉虧凈虧損9802

投資

南方財經8月10日電,國家發改委發布關于完善政府誠信履約機制優化民營

2023-08-11

長城CTO回應比亞迪“在一起才,是中國汽車

投資

8月11日,長城汽車CTO(首席技術官)王遠力通過個人微博表達了對比亞迪

2023-08-11

庫迪咖啡旗下公司增資至5.2億 增幅約271%

投資

天眼查App顯示,近日,庫迪科技(福建)有限公司發生工商變更,注冊資

2023-08-11

OpenAI公開網頁爬蟲工具:資源枯竭壓力下,人工智能產業的數據版權困局

投資

網頁爬蟲,長期存在于互聯網產業中的灰色地帶,作為一種網絡信息采集工

2023-08-11

香港旅發局:今年前7個月內地訪港旅客約1308萬人次

投資

香港旅游發展局11日公布數據,2023年7月初步訪港旅客數字約為360萬人次

2023-08-11

深公司早報丨華大智造上半年轉虧凈虧損9802.7萬元;華測檢測上半年凈利潤同比增長18.62%

投資

南方財經8月10日電,國家發改委發布關于完善政府誠信履約機制優化民營

2023-08-11

長城CTO回應比亞迪“在一起才,是中國汽車”:不如先打一架再在一起吧

投資

8月11日,長城汽車CTO(首席技術官)王遠力通過個人微博表達了對比亞迪

2023-08-11

庫迪咖啡旗下公司增資至5.2億 增幅約271%

投資

天眼查App顯示,近日,庫迪科技(福建)有限公司發生工商變更,注冊資

2023-08-11

美國貨幣基金持續吸金 資產規模攀升至5.53萬億美元創歷史新高

投資

智通財經APP獲悉,由于高于5%的利率持續吸引銀行和其他短期投資的現金

2023-08-11

1至7月全國鐵路完成固定資產投資3713億元

投資

據中國國家鐵路集團有限公司8月10日消息今年1至7月,全國鐵路完成固定

2023-08-11

深度金選|電解液價格經歷“過山車”,新宙邦、天賜材料“雙雄”面臨雙重挑戰!未來之路在何方?

投資

由于產能擴張和產能快速釋放,鋰電池各環節的產能過剩已成為必然的發展

2023-08-11

Sensor Tower:7月騰訊《PUBG Mobile》海外收入環比增長15% 重回收入榜冠軍寶座

投資

智通財經APP獲悉,SensorTower商店情報平臺最新數據顯示,在七龍珠主題

2023-08-11

因合約期滿 佛山益田假日天地正式更名為南舜怡海港

投資

此前2020年5月27日,益田旅游商業集團與佛山南舜怡海港進行戰略合作,

2023-08-11

遇見旗袍是于萬千人群中的驚鴻一瞥 沿途灑滿了愛的芬芳

旗袍,中國和世界華人女性的傳統服裝,被譽為中國國粹和女性國服。雖然其定義和產生的時間至今還存有諸多爭議,但它仍然是中國悠久服飾文化

北京市電影院有序恢復開放 周五預售部分場次已滿座

7月21日,北京市政府發布《北京市電影局關于在疫情防控常態化條件下有序推進電影院恢復開放的通知》,宣布全市低風險地區影院,可于7月24日

近期持續強降雨影響 第46屆武漢渡江節因長江水位過高取消

?武漢7·16渡江節組委會14日發布公告,由于長江武漢關水位超警戒水位,按照規定取消2020年第46屆武漢7·16渡江節。受近期持續強降雨影響,

“非遺”普及受眾最看重“動手”參觀大師工作室非常享受

過去一段時間,國家級非遺項目灰塑傳承人邵成村,多次在陳家祠等工作現場,向身邊那些帶著好奇目光的人們講解灰塑的種種技術細節:草根灰、

璧山冷酒夜市 豐富市民夜間文旅活動

7月13日,位于璧山區南門唐城夜市街區的璧山冷酒夜市開街。這是璧山區打造夜間經濟消費載體、培育夜間經濟活動品牌的舉措之一。璧山市民一

年內兩市超過500家上市公司完成回購 累計回購金額超332億元

近期A股市場持續震蕩,不少上市公司或其重要股東推出回購、增持計劃,用真金白銀力挺股價。記者根據同花順數據統計,今年以來,兩市超過500

持續發力補鏈強鏈加大研發搶占市場 渝企跑出“加速度”

玥湖路渝快電充換電站 一輛新能源汽車,離不開研發、動力、配套等多個環節。作為汽車制造重鎮,重慶在這些環節的多個板塊上,正在加速奔跑

重啟上市公司資本運作 康佳集團去年半導體業務營業收入為3.22億元

近日,康佳集團正式對外發布2021年年度業績報告。2021年,康佳集團實現全年營收491 07億元,歸屬于母公司的凈利潤為9 05億元,同比增長89 5

偉祿集團連續6年增長 去年營收同比增長37.5%

深港通標的之一的深圳企業偉祿集團近日公布2021年業績。財報數據顯示,偉祿集團全年營業收入11 95億港元,同比增長37 5%,連續6年穩步增長;

龍頭企業去年凈利倍增 整個行業營收規模有望創造歷史新高位

近日,面板龍頭TCL科技、京東方分別發布2021年度業績快報,兩家企業去年歸屬于上市公司股東的凈利潤分別增長129 3%、412 86%,實現超過百億

深圳國企全力為市民 守好“菜籃子”“米袋子”保障量足價穩

疫情防控形勢下,民生物資供應是否充足成為市民最為關注的問題之一。連日來,深農集團、深糧控股等企業,充分發揮國企擔當,全力為深圳市民