投資 >

谷歌更新隱私政策,大模型“諸神之戰”背后的訓練數據隱憂-天天看點

2023-07-05 21:13:05   來源:21世紀經濟報道

21世紀經濟報道記者王俊 南方財經全媒體記者馮戀閣 實習生羅洛 北京、廣州報道“我們可能會收集公開的在線信息或來自其他公共來源的信息,幫助訓練Google的人工智能模型。”近日,谷歌更新隱私政策,表示將利用網絡公開數據訓練旗下的AI模型,相關條款已于7月1日生效。


(相關資料圖)

谷歌的這一動作引發爭議,單方面通知用戶的行為是否合法合規?此舉又是否有“囤數據”之嫌?

此前,Twitter和社交網站Reddit已經采取措施,限制第三方對其API的訪問。國外科技公司的一系列舉措背后,可能是大模型發展路上一個不可忽視的真相:訓練數據的重要性愈發顯現。隨著大模型產業的快速發展,出于市場競爭的需要,模型規模將快速膨脹,但同時可用于訓練的數據供給相對不足,且未來日趨稀缺。

未來,數據或將成為AI發展的“兵家必爭之地”。

“囤數據”訓練AI模型

近日,谷歌更新隱私政策,表示將利用網絡公開數據訓練旗下的AI模型。在隱私協議的“可公開獲取的資源”一欄,谷歌提到:“我們可能會收集公開的在線信息或來自其他公共來源的信息,幫助訓練Google的人工智能模型。”該大模型將會為谷歌翻譯、谷歌旗下聊天機器人產品“Bard”及Cloud AI等產品和功能提供助力。

對比去年年底發布的上一版隱私政策,谷歌將“收集信息以幫助訓練語言模型”的相關措辭更改為“訓練人工智能模型”,并新增明確了自家AI產品對于數據的使用權利。這似乎意味著,谷歌在訓練旗下聊天機器人及其他AI模型,或未來開發AI產品的過程中,有權使用人們在網上公開發布的任意內容。

南方財經全媒體記者在檢索后發現,7月5日,谷歌中文版隱私政策也已經進行同步更新。 

在競天公誠律師事務所合伙人袁立志看來,此次谷歌隱私政策的更新從實踐角度看不算重大變化。“無論在我國還是域外,對公開數據的正常收集和使用,在一般情況下不算違法。”不過他補充道,如果個人通過發送郵件等方式向信息處理者就相關使用表露明確拒絕,對其個人信息的收集和使用就應當停止。

北京大成律師事務所高級合伙人鄧志松也表示,就目前可獲得的信息而言,谷歌對收集與處理用戶個人信息的范圍和目的作出了詳細說明,即使以歐盟GDPR項下更為嚴格的“告知-同意”規則為標準,谷歌的這一收集與處理行為至少在形式上具有合法性。至于其實施過程中可能涉及的實質合法性判斷,及由此可能對AI等行業產生的影響,則尚待進一步觀察。

雖然此次更新并未對個人信息保護帶來影響,但暗藏背后的數據隱憂卻逐漸被公眾注意到。

“得數據者得天下”

數據是數字經濟時代的“新石油”,處在時代中的人工智能技術亦受其影響。

以OpenAI的幾代GPT模型為例,訓練數據上,GPT-1預訓練數據量僅有5GB;到了GPT-2,這個數據則增加至40GB;而在GPT3模型下,OpenAI用以訓練模型的數據集數據量達到了驚人的45TB。

“大模型時代,得數據者得天下。”對外經濟貿易大學數字經濟與法律創新研究中心執行主任張欣指出,一方面,訓練數據是大模型訓練的基石和燃料,如果沒有數據,大模型的訓練就無法開展和持續;另一方面,當前技術領域的研究顯示,各家大模型在算法層區別并不大,并且具有同質化的趨勢。在此背景下,訓練數據就成了真正區分且影響大模型性能的重要因素之一。

需求漸長,供給端卻并未馬上配合。目前,有多家處在“數據提供端”的公司對數據抓取、開源等做出了反應。比如Twitter限制了用戶每天能查看的推文數量,幾乎使數據提供服務無法使用。馬斯克表示,這是對“數據抓取”和“系統操縱”的必要反應。

今年1月,圖庫網站Getty Images對AI圖像生成器研發公司Stability AI提起法律訴訟,指其非法復制和處理版權圖像作為模型訓練數據。4月,環球音樂集團發函要求Spotify等音樂流媒體平臺切斷AI公司的訪問權限,以阻止其版權歌曲被用于訓練模型和生成音樂。

同樣在4月,Reddit官方宣布將對調用其API的公司收費,原因正是OpenAI、谷歌等公司利用該平臺上的數據訓練模型。此外,IT技術問答網站Stack Overflow也計劃向AI大模型的開發者及公司收取數據訪問費用。

6月,中文在線、同方知網與中國工人出版社等國內25家文化出版機構發出共同倡議,強調“為人工智能學習模型提供可靠、穩定、安全的內容來源”等AIGC版權保護問題的重要性。

科技公司的系列動作,一定程度反映了數據的重要性。

在7月2日全球數字經濟大會人工智能高峰論壇上,昆侖萬維科技股份有限公司CEO方漢表示,高質量數據對大模型發展至關重要。

“坦白地講,最近三年的大模型訓練積累的是對豐富的預訓練數據深度加工的能力。OpenAI所有公開的論文和講演,對訓練過程和訓練算法都是公開的,但其從不公開模型結構及數據處理。”方漢指出,目前全世界大模型預訓練團隊都試圖重現OpenAI在模型架構的動作以及預訓練數據的動作,任何一家企業的預訓練數據加工能力都至關重要。 

數據稀缺、分散難題何解?

數據的重要性不言而喻,高質量數據更是稀缺品。

早在去年,一項來自Epoch Al Research團隊的研究就揭示了一個殘酷的事實:模型還要繼續做大,但數據卻不夠用了。研究結果表明,高質量的語言數據存量將在2026年耗盡,低質量的語言數據和圖像數據的存量則分別在2030年至2050年、2030年至2060年枯竭。

這意味著如果數據效率沒有顯著提高或沒有新的數據源可用,那么到2040年,模型的規模增長將放緩。

百舸爭流是市場競爭的常態,但過分競爭也有可能為行業帶來災難。限制數據抓取,很可能導致新一輪的數據大戰,進而引發平臺之間屏蔽、數據壟斷等問題。

國際標準化組織TC/154技術專家王翔指出,大模型的蓬勃發展對訓練數據提出了很高的數量和質量要求。在供給側,人口增速、用網時間下降、制度性地理約束提高、高質量數據匱乏等都在制約大模型未來發展,SOP化和轉發習慣也降低了供給能力;在需求側,無論是主觀治理思路還是客觀基礎設施條件,以及大型語言模型所有者應對市場的考量,都會持續強化數據壟斷。

此外,大模型訓練中,面對的高質量數據的稀缺、行業數據分散等問題應如何解決?

受訪專家指出,未來健康的生態需要市場側和監管側等多方的共同建設維護。

“首先還是需要相信市場的力量”,袁立志指出,隨著優質數據的需求逐漸顯現,各個市場主體都會被“無形的手”推動向前。“數據資源的尋找、匯聚、清洗、標注等各個環節預計都會因競爭的活躍而不斷改善,以滿足市場需求。”他表示。

張欣則具體指出,目前行業內的開源數據集正在不斷增多,未來應呼吁更多人工智能企業、從業者加入,建立更加良好的行業生態。“人工智能訓練時的眾包思路也非常重要。”她認為,企業之外,還可以善用技術社群的力量提升并開拓更多的高質量數據集。

而監管側,在張欣看來,從法律法規層面明確訓練數據集的合法性獲取路徑是監管下一步應當關注的重點。“只有明確了合法獲取的路徑,大模型訓練者才有更穩定的合規預期以開展工作。”

袁立志認為,監管側數據要素市場的建設深入會為大模型領域的發展帶來良性影響。“數據要素市場建設走深意味著數據流通利用全流程提速提效,自然也惠及大模型的訓練數據收集。”

標簽:

相關閱讀

谷歌更新隱私政策,大模型“諸神之戰”背后

投資

21世紀經濟報道記者王俊南方財經全媒體記者馮戀閣實習生羅洛北京、廣州

2023-07-05

最新快訊!順德容桂城市推介會引發產業“投

投資

6月9日-10日,佛山市順德區容桂街道召開城市推介會,從產業空間、區位

2023-07-05

康恩貝績后大跌近8%,公司對二季度利潤環比

投資

7月5日,康恩貝(600572 SH)高開低走,截至收盤下跌7 92%,報5 93元

2023-07-05

易開得稱“中國航母指定凈水品牌”惹質疑,

投資

7月5日消息,近期凈水器品牌易開得在線下廣告中宣稱自己的產品是“中國

2023-07-05

天天看點:投顧新時代②丨基金投顧新規征求

投資

7月9日,《公開募集證券投資基金投資顧問業務管理規定(征求意見稿)》

2023-07-05

谷歌更新隱私政策,大模型“諸神之戰”背后的訓練數據隱憂-天天看點

投資

21世紀經濟報道記者王俊南方財經全媒體記者馮戀閣實習生羅洛北京、廣州

2023-07-05

最新快訊!順德容桂城市推介會引發產業“投資熱”,簽約企業環比增長50%|制造業當家·佛山鎮能量

投資

6月9日-10日,佛山市順德區容桂街道召開城市推介會,從產業空間、區位

2023-07-05

康恩貝績后大跌近8%,公司對二季度利潤環比下滑怎么看

投資

7月5日,康恩貝(600572 SH)高開低走,截至收盤下跌7 92%,報5 93元

2023-07-05

易開得稱“中國航母指定凈水品牌”惹質疑,沈衛星應為消費者解惑-當前看點

投資

7月5日消息,近期凈水器品牌易開得在線下廣告中宣稱自己的產品是“中國

2023-07-05

天天看點:投顧新時代②丨基金投顧新規征求意見: 券商建言牌照擴容、細化投資私募基金細則

投資

7月9日,《公開募集證券投資基金投資顧問業務管理規定(征求意見稿)》

2023-07-05

每日報道:蘋果頭顯減產 A股產業鏈“無懼”?

投資

AppleVisionPro頭顯產品發布不過一個月,就傳出削減產量的消息。

2023-07-05

全面綠色時代到來?綠色債券融資額首次超越化石燃料|天天速讀

投資

在如今這個綠色低碳轉型的時代下,企業和政府在債券市場上為環保項目融

2023-07-05

歐美社交電商“起飛”,MyyShop如何打通紅人經濟新思路?

投資

全球社交電商和紅人經濟迅速發展的情況勢不可擋。

2023-07-05

解碼預制菜投資“潛力股”:新老品牌競技激烈,研發與渠道能力受關注|每日播報

投資

7月4日,由農業農村部農業貿易促進中心、廣東省農業農村廳、珠海市人民

2023-07-05

業績預增前買入公司股票39萬元,電子城原證代內幕交易被罰,2個月前剛離職|速訊

投資

因年齡退休離職2個月后,電子城原證券事務代表內幕交易行為曝光。

2023-07-05

遇見旗袍是于萬千人群中的驚鴻一瞥 沿途灑滿了愛的芬芳

旗袍,中國和世界華人女性的傳統服裝,被譽為中國國粹和女性國服。雖然其定義和產生的時間至今還存有諸多爭議,但它仍然是中國悠久服飾文化

北京市電影院有序恢復開放 周五預售部分場次已滿座

7月21日,北京市政府發布《北京市電影局關于在疫情防控常態化條件下有序推進電影院恢復開放的通知》,宣布全市低風險地區影院,可于7月24日

近期持續強降雨影響 第46屆武漢渡江節因長江水位過高取消

?武漢7·16渡江節組委會14日發布公告,由于長江武漢關水位超警戒水位,按照規定取消2020年第46屆武漢7·16渡江節。受近期持續強降雨影響,

“非遺”普及受眾最看重“動手”參觀大師工作室非常享受

過去一段時間,國家級非遺項目灰塑傳承人邵成村,多次在陳家祠等工作現場,向身邊那些帶著好奇目光的人們講解灰塑的種種技術細節:草根灰、

璧山冷酒夜市 豐富市民夜間文旅活動

7月13日,位于璧山區南門唐城夜市街區的璧山冷酒夜市開街。這是璧山區打造夜間經濟消費載體、培育夜間經濟活動品牌的舉措之一。璧山市民一

年內兩市超過500家上市公司完成回購 累計回購金額超332億元

近期A股市場持續震蕩,不少上市公司或其重要股東推出回購、增持計劃,用真金白銀力挺股價。記者根據同花順數據統計,今年以來,兩市超過500

持續發力補鏈強鏈加大研發搶占市場 渝企跑出“加速度”

玥湖路渝快電充換電站 一輛新能源汽車,離不開研發、動力、配套等多個環節。作為汽車制造重鎮,重慶在這些環節的多個板塊上,正在加速奔跑

重啟上市公司資本運作 康佳集團去年半導體業務營業收入為3.22億元

近日,康佳集團正式對外發布2021年年度業績報告。2021年,康佳集團實現全年營收491 07億元,歸屬于母公司的凈利潤為9 05億元,同比增長89 5

偉祿集團連續6年增長 去年營收同比增長37.5%

深港通標的之一的深圳企業偉祿集團近日公布2021年業績。財報數據顯示,偉祿集團全年營業收入11 95億港元,同比增長37 5%,連續6年穩步增長;

龍頭企業去年凈利倍增 整個行業營收規模有望創造歷史新高位

近日,面板龍頭TCL科技、京東方分別發布2021年度業績快報,兩家企業去年歸屬于上市公司股東的凈利潤分別增長129 3%、412 86%,實現超過百億

深圳國企全力為市民 守好“菜籃子”“米袋子”保障量足價穩

疫情防控形勢下,民生物資供應是否充足成為市民最為關注的問題之一。連日來,深農集團、深糧控股等企業,充分發揮國企擔當,全力為深圳市民