【資料圖】
如今的大型語言模型(LLM)可以理解世界上很多語言,甚至是一些記載較少的語言。不過,大模型處理不同語言之間時,其性能上存在很大的差異,這是由于模型成本與其所訓(xùn)練的語言緊密掛鉤。
牛津大學(xué)最近進(jìn)行的一項研究表明,從諸多語言模型的計費方式看,英語的輸入和輸出比其他語言的輸入和輸出要便宜得多。例如,西班牙語的成本約為英語的1.5倍,簡體中文的價格約為2倍以上,緬甸撣語在15倍以上。
成本的差異也間接導(dǎo)致英語使用者和世界其他語言使用者之間形成AI鴻溝。
成本差異主要是因數(shù)據(jù)標(biāo)記化所帶來的。標(biāo)記化就是將訓(xùn)練文本分解成更小的單元,這個更小的單元就是標(biāo)記(Token)。這是一個人工智能(AI)公司將用戶輸入轉(zhuǎn)換為計算成本的過程。
研究顯示,使用英語以外的語言訪問和訓(xùn)練模型的成本都更高。例如中文,無論是在語法上還是在字符數(shù)量上,都有更復(fù)雜的結(jié)構(gòu),從而導(dǎo)致更高的標(biāo)記化(Token)率。
舉例來看,基于OpenAI公司的GPT2模型,對于“國家不同,所得稅的結(jié)構(gòu)是不同的,稅率和稅率等級也有很大的差異”這句話的處理來看,在簡體中文處理中運用到了66個Token,在英語處理中僅用到了24個Token,而在禪語處理中使用到了468個Token。
就每次輸出所需的費用而言,漢語的成本是英語的兩倍。所以在AI相關(guān)的費用中,英語的成本效益是最高的。
當(dāng)涉及到語言模型時,設(shè)計者的主要目標(biāo)是實現(xiàn)低成本和高效功能之間的平衡。隨著AI領(lǐng)域的不斷發(fā)展,科技公司必須仔細(xì)考慮語言選擇對成本和可訪問性的影響。
這種成本差異促使中國、印度等國家紛紛開發(fā)自己的母語LLM項目。
本文源自:金融界
標(biāo)簽:
據(jù)農(nóng)業(yè)農(nóng)村部監(jiān)測,7月31日"農(nóng)產(chǎn)品批發(fā)價格200指數(shù)"為118 36,比上周五
北京市氣象局消息,本市強降雨持續(xù),北京市氣象臺發(fā)布分區(qū)域暴雨紅色預(yù)
據(jù)農(nóng)業(yè)農(nóng)村部監(jiān)測,7月31日"農(nóng)產(chǎn)品批發(fā)價格200指數(shù)"為118 36,比上周五
在經(jīng)歷2022年的營收下滑后,2023年中國游戲市場漸趨回暖,但在獲客成本
北京市氣象局消息,本市強降雨持續(xù),北京市氣象臺發(fā)布分區(qū)域暴雨紅色預(yù)
國家統(tǒng)計局31日發(fā)布2023年7月中國采購經(jīng)理指數(shù)運行情況顯示,7月份,制
7月非制造業(yè)景氣度回落至年內(nèi)最低水平,制造業(yè)景氣度則持續(xù)改善。
旗袍,中國和世界華人女性的傳統(tǒng)服裝,被譽為中國國粹和女性國服。雖然其定義和產(chǎn)生的時間至今還存有諸多爭議,但它仍然是中國悠久服飾文化
7月21日,北京市政府發(fā)布《北京市電影局關(guān)于在疫情防控常態(tài)化條件下有序推進(jìn)電影院恢復(fù)開放的通知》,宣布全市低風(fēng)險地區(qū)影院,可于7月24日
?武漢7·16渡江節(jié)組委會14日發(fā)布公告,由于長江武漢關(guān)水位超警戒水位,按照規(guī)定取消2020年第46屆武漢7·16渡江節(jié)。受近期持續(xù)強降雨影響,
過去一段時間,國家級非遺項目灰塑傳承人邵成村,多次在陳家祠等工作現(xiàn)場,向身邊那些帶著好奇目光的人們講解灰塑的種種技術(shù)細(xì)節(jié):草根灰、
7月13日,位于璧山區(qū)南門唐城夜市街區(qū)的璧山冷酒夜市開街。這是璧山區(qū)打造夜間經(jīng)濟消費載體、培育夜間經(jīng)濟活動品牌的舉措之一。璧山市民一