投資 >

成本差異鑄成AI鴻溝?牛津:漢語訓(xùn)練費用是英語的2倍

2023-07-31 16:07:49   來源:金融界


【資料圖】

如今的大型語言模型(LLM)可以理解世界上很多語言,甚至是一些記載較少的語言。不過,大模型處理不同語言之間時,其性能上存在很大的差異,這是由于模型成本與其所訓(xùn)練的語言緊密掛鉤。

牛津大學(xué)最近進(jìn)行的一項研究表明,從諸多語言模型的計費方式看,英語的輸入和輸出比其他語言的輸入和輸出要便宜得多。例如,西班牙語的成本約為英語的1.5倍,簡體中文的價格約為2倍以上,緬甸撣語在15倍以上。

成本的差異也間接導(dǎo)致英語使用者和世界其他語言使用者之間形成AI鴻溝。

成本差異主要是因數(shù)據(jù)標(biāo)記化所帶來的。標(biāo)記化就是將訓(xùn)練文本分解成更小的單元,這個更小的單元就是標(biāo)記(Token)。這是一個人工智能(AI)公司將用戶輸入轉(zhuǎn)換為計算成本的過程。

研究顯示,使用英語以外的語言訪問和訓(xùn)練模型的成本都更高。例如中文,無論是在語法上還是在字符數(shù)量上,都有更復(fù)雜的結(jié)構(gòu),從而導(dǎo)致更高的標(biāo)記化(Token)率。

舉例來看,基于OpenAI公司的GPT2模型,對于“國家不同,所得稅的結(jié)構(gòu)是不同的,稅率和稅率等級也有很大的差異”這句話的處理來看,在簡體中文處理中運用到了66個Token,在英語處理中僅用到了24個Token,而在禪語處理中使用到了468個Token。

就每次輸出所需的費用而言,漢語的成本是英語的兩倍。所以在AI相關(guān)的費用中,英語的成本效益是最高的。

當(dāng)涉及到語言模型時,設(shè)計者的主要目標(biāo)是實現(xiàn)低成本和高效功能之間的平衡。隨著AI領(lǐng)域的不斷發(fā)展,科技公司必須仔細(xì)考慮語言選擇對成本和可訪問性的影響。

這種成本差異促使中國、印度等國家紛紛開發(fā)自己的母語LLM項目。

本文源自:金融界

標(biāo)簽:

相關(guān)閱讀

成本差異鑄成AI鴻溝?牛津:漢語訓(xùn)練費用是

投資

如今的大型語言模型(LLM)可以理解世界上很多語言,甚至是一些記載較

2023-07-31

農(nóng)業(yè)農(nóng)村部:7月31日全國農(nóng)產(chǎn)品批發(fā)市場豬

投資

據(jù)農(nóng)業(yè)農(nóng)村部監(jiān)測,7月31日"農(nóng)產(chǎn)品批發(fā)價格200指數(shù)"為118 36,比上周五

2023-07-31

專訪中手游冼漢迪:IP是一種文化標(biāo)簽,其背

投資

在經(jīng)歷2022年的營收下滑后,2023年中國游戲市場漸趨回暖,但在獲客成本

2023-07-31

北京發(fā)布分區(qū)暴雨紅色預(yù)警,部分地區(qū)降級發(fā)

投資

北京市氣象局消息,本市強降雨持續(xù),北京市氣象臺發(fā)布分區(qū)域暴雨紅色預(yù)

2023-07-31

日本全國平均最低時薪將首超1000日元

投資

據(jù)日經(jīng)中文網(wǎng),日本中央最低工資審議會(厚生勞動相的咨詢機構(gòu))日前決

2023-07-31

成本差異鑄成AI鴻溝?牛津:漢語訓(xùn)練費用是英語的2倍

投資

如今的大型語言模型(LLM)可以理解世界上很多語言,甚至是一些記載較

2023-07-31

農(nóng)業(yè)農(nóng)村部:7月31日全國農(nóng)產(chǎn)品批發(fā)市場豬肉平均價格為20.81元/公斤 比上周五上升4.8%

投資

據(jù)農(nóng)業(yè)農(nóng)村部監(jiān)測,7月31日"農(nóng)產(chǎn)品批發(fā)價格200指數(shù)"為118 36,比上周五

2023-07-31

專訪中手游冼漢迪:IP是一種文化標(biāo)簽,其背后是受眾群體的文化認(rèn)同

投資

在經(jīng)歷2022年的營收下滑后,2023年中國游戲市場漸趨回暖,但在獲客成本

2023-07-31

北京發(fā)布分區(qū)暴雨紅色預(yù)警,部分地區(qū)降級發(fā)布暴雨橙色預(yù)警

投資

北京市氣象局消息,本市強降雨持續(xù),北京市氣象臺發(fā)布分區(qū)域暴雨紅色預(yù)

2023-07-31

日本全國平均最低時薪將首超1000日元

投資

據(jù)日經(jīng)中文網(wǎng),日本中央最低工資審議會(厚生勞動相的咨詢機構(gòu))日前決

2023-07-31

高盛:油市轉(zhuǎn)向供應(yīng)短缺 明年二季度油價將升至93美元

投資

智通財經(jīng)APP獲悉,“大宗商品旗手”高盛表示,市場已經(jīng)擺脫了對增長的

2023-07-31

A股零售板塊午后持續(xù)拉升走強 中央商場、國芳集團漲停

投資

7月31日,A股零售板塊午后持續(xù)拉升走強,通程控股、中央商場午后雙雙漲

2023-07-31

周茂華:7月制造業(yè)市場需求和景氣度改善,國內(nèi)物價有望企穩(wěn)回升

投資

國家統(tǒng)計局31日發(fā)布2023年7月中國采購經(jīng)理指數(shù)運行情況顯示,7月份,制

2023-07-31

上海第二批供地下半場將于8月1日起拍 9宗地、總起價220億元

投資

悉,此次交易包含9幅涉宅地塊,起始總價達(dá)220 23億元,現(xiàn)場交易會將在2

2023-07-31

民銀研究:7月非制造業(yè)景氣度回落至年內(nèi)最低水平,制造業(yè)景氣度則持續(xù)改善

投資

7月非制造業(yè)景氣度回落至年內(nèi)最低水平,制造業(yè)景氣度則持續(xù)改善。

2023-07-31

遇見旗袍是于萬千人群中的驚鴻一瞥 沿途灑滿了愛的芬芳

旗袍,中國和世界華人女性的傳統(tǒng)服裝,被譽為中國國粹和女性國服。雖然其定義和產(chǎn)生的時間至今還存有諸多爭議,但它仍然是中國悠久服飾文化

北京市電影院有序恢復(fù)開放 周五預(yù)售部分場次已滿座

7月21日,北京市政府發(fā)布《北京市電影局關(guān)于在疫情防控常態(tài)化條件下有序推進(jìn)電影院恢復(fù)開放的通知》,宣布全市低風(fēng)險地區(qū)影院,可于7月24日

近期持續(xù)強降雨影響 第46屆武漢渡江節(jié)因長江水位過高取消

?武漢7·16渡江節(jié)組委會14日發(fā)布公告,由于長江武漢關(guān)水位超警戒水位,按照規(guī)定取消2020年第46屆武漢7·16渡江節(jié)。受近期持續(xù)強降雨影響,

“非遺”普及受眾最看重“動手”參觀大師工作室非常享受

過去一段時間,國家級非遺項目灰塑傳承人邵成村,多次在陳家祠等工作現(xiàn)場,向身邊那些帶著好奇目光的人們講解灰塑的種種技術(shù)細(xì)節(jié):草根灰、

璧山冷酒夜市 豐富市民夜間文旅活動

7月13日,位于璧山區(qū)南門唐城夜市街區(qū)的璧山冷酒夜市開街。這是璧山區(qū)打造夜間經(jīng)濟消費載體、培育夜間經(jīng)濟活動品牌的舉措之一。璧山市民一

年內(nèi)兩市超過500家上市公司完成回購 累計回購金額超332億元

近期A股市場持續(xù)震蕩,不少上市公司或其重要股東推出回購、增持計劃,用真金白銀力挺股價。記者根據(jù)同花順數(shù)據(jù)統(tǒng)計,今年以來,兩市超過500

持續(xù)發(fā)力補鏈強鏈加大研發(fā)搶占市場 渝企跑出“加速度”

玥湖路渝快電充換電站 一輛新能源汽車,離不開研發(fā)、動力、配套等多個環(huán)節(jié)。作為汽車制造重鎮(zhèn),重慶在這些環(huán)節(jié)的多個板塊上,正在加速奔跑

重啟上市公司資本運作 康佳集團去年半導(dǎo)體業(yè)務(wù)營業(yè)收入為3.22億元

近日,康佳集團正式對外發(fā)布2021年年度業(yè)績報告。2021年,康佳集團實現(xiàn)全年營收491 07億元,歸屬于母公司的凈利潤為9 05億元,同比增長89 5

偉祿集團連續(xù)6年增長 去年營收同比增長37.5%

深港通標(biāo)的之一的深圳企業(yè)偉祿集團近日公布2021年業(yè)績。財報數(shù)據(jù)顯示,偉祿集團全年營業(yè)收入11 95億港元,同比增長37 5%,連續(xù)6年穩(wěn)步增長;

龍頭企業(yè)去年凈利倍增 整個行業(yè)營收規(guī)模有望創(chuàng)造歷史新高位

近日,面板龍頭TCL科技、京東方分別發(fā)布2021年度業(yè)績快報,兩家企業(yè)去年歸屬于上市公司股東的凈利潤分別增長129 3%、412 86%,實現(xiàn)超過百億

深圳國企全力為市民 守好“菜籃子”“米袋子”保障量足價穩(wěn)

疫情防控形勢下,民生物資供應(yīng)是否充足成為市民最為關(guān)注的問題之一。連日來,深農(nóng)集團、深糧控股等企業(yè),充分發(fā)揮國企擔(dān)當(dāng),全力為深圳市民