來源:硬AI
高質量數據的緊缺正成為AI發(fā)展的重要障礙。
4月1日,據媒體報道,隨著OpenAI、Google等企業(yè)不斷深入發(fā)展AI技術,科技巨頭們遇到了一個新問題:現(xiàn)有的互聯(lián)網信息量可能不足以支撐他們訓練更先進的AI系統(tǒng)。
科技巨頭的AI系統(tǒng),比如能與人類聊天的ChatGPT,是通過學習網上的信息變得越來越聰明的。但現(xiàn)在,高質量、有用的信息日益緊缺,同時,一些網站開始限制AI公司訪問他們的數據。據業(yè)界一些高管和研究人員表示,AI行業(yè)對高質量文本數據的需求可能在兩年內超過供應,這將可能減緩AI技術的發(fā)展速度。
面對信息不足的問題,AI公司正在嘗試各種方法來尋找新的信息源。比如OpenAI正在考慮用YouTube視頻里的對話來訓練它們的下一代智能模型GPT-5。有的公司甚至創(chuàng)造合成數據來學習,盡管這種方法被許多研究人員認為可能會導致系統(tǒng)發(fā)生嚴重故障,但不失為克服數據短缺的一種潛在途徑。
據悉,這些努力大多保密進行,因為找到有效的解決方案可能成為企業(yè)在激烈競爭中的關鍵優(yōu)勢。隨著數據需求不斷增長,找到新的學習材料、與數據所有者的合作,讓AI系統(tǒng)變得更加聰明,就成了這個行業(yè)的重要備戰(zhàn)區(qū)。
OpenAI的GPT-5面臨10萬億到20萬億tokens的數據短缺
AI語言模型的構建依賴于從互聯(lián)網上收集的大量文本數據,這些數據包括科學研究、新聞文章、維基百科條目等。這些材料被分解成“tokens”,tokens可以是完整的單詞或單詞的一部分。AI模型通過分析和理解這些tokens之間的關系和模式,學會了如何生成流暢、自然的語言,從而能夠回答問題、撰寫文章甚至創(chuàng)作詩歌。
模型的能力在很大程度上取決于它訓練的數據量。通常情況下,數據越多,模型的性能就越好,因為它有更多的例子來學習不同的語言用法和復雜性。
OpenAI通過為其GPT系列模型提供海量訓練數據,不斷提升性能,借此成為世界頂尖AI公司。這展示了大數據訓練對于AI發(fā)展的重要性。
但是,隨著GPT-4模型的不斷擴大,OpenAI對數據的需求也在急劇增長。Epoch研究所的AI研究員Pablo Villalobos估計,GPT-4訓練涉及的數據量高達12萬億tokens,而未來模型,如GPT-5,可能需要60萬億到100萬億tokens。因此,即便是利用所有可用的高質量語言和圖像數據,研發(fā)GPT-5仍可能面臨10萬億到20萬億tokens的數據短缺。至于如何彌補這一巨大的數據缺口,目前尚無明確方案。
據媒體報道,為應對數據短缺挑戰(zhàn),AI公司正在嘗試各種方法來尋找新的信息源。Meta創(chuàng)始人扎克伯格近期強調,公司通過Facebook和Instagram等平臺擁有的大量數據,為其AI研發(fā)提供了重要優(yōu)勢。扎克伯格表示,Meta能夠利用網絡上數以百億計的公開共享圖片和視頻,這些數據的規(guī)模超過了大多數常用數據集,盡管其中高質量數據的比例尚不明確。
而OpenAI則考慮使用其自動語音識別工具Whisper轉錄的高質量視頻和音頻示例。此外,OpenAI還在考慮建立一個數據市場,以評估每個數據點對模型訓練的貢獻并據此向內容提供者支付費用,這一創(chuàng)新想法也引起了Google的關注。
Epoch研究所預測AI數據短缺危機將推遲至2028年
兩年前,Villalobos和他的同事寫道,到2024年年中,對高質量數據的需求超過供給的可能性為50%,到2026年發(fā)生這種情況的可能性為90%。自那以后,他們變得更加樂觀,在AI研究員Pablo Villalobos及其團隊的審慎評估下,新的預期顯示,這種短缺風險將延遲至2028年。
這項樂觀的更新基于對當前數據質量和可用性的深刻洞察。Villalobos指出,互聯(lián)網上的絕大多數數據并不適合作為AI訓練材料。在無盡的信息流中,只有一小部分數據(遠低于先前預計)能對AI模型的增長和發(fā)展做出實質性貢獻。
同時,各大社交媒體平臺和新聞出版商已開始限制其數據被用于AI訓練。他們擔心如果數據被自由用于AI訓練,可能導致內容創(chuàng)造者和平臺本身失去應得的經濟回報。
此外,普羅大眾對于個人隱私的保護意識顯著提升,許多人對于將私人對話如iMessage中的聊天記錄提供給AI訓練的意愿較低,人們可能擔心他們的隱私可能會受到侵犯。
最近,一位女記者就OpenAI最新模型Sora的訓練數據向CTO Murati提問時,Murati未能明確回答,這引發(fā)了業(yè)界對OpenAI管理層對于訓練數據來源的關注度的質疑。這一事件觸發(fā)了更廣泛的討論,關于公共領域數據的所有權問題——我們在網絡上發(fā)布的內容,究竟是屬于個人私密還是公共共享的資產?
因此,這些因素共同導致了數據獲取的困境。隨著用戶和監(jiān)管機構對數據使用的監(jiān)控趨嚴,研究者們必須在保護隱私與數據采集之間找到新的均衡。
13560189272
地址:廣州市天河區(qū)黃埔大道西201號金澤大廈808室