AI沙龍

訓練資料成為稀缺資源了嗎?為什麼會有人提出「優質訓練資料」料即將不足?

近日紐約時報報導,因為缺乏訓練數據,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片,以作為訓練模型資料。另外也有報導指出,Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。報導都指出,幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困境,而必須走入灰色地帶來支持模型的開發。這個新聞資訊究竟暗示了什麼?有版權的資料將成為新的「數位石油」嗎?

筆者身為數位時代的科技麻瓜,我們都非常習慣網路上什麼都有這樣的的概念。不管是什麼新舊知識,我們都可以上網Google一下,不管是文章、影片、懶人包,甚至是一些極為冷僻的內容,應該都可以找得到。那麼為什麼這些大公司會覺得訓練資料不足呢?其實會需要回到兩個最為關鍵的問題「為什麼需要持續訓練?」和「什麼叫做優質資料?」。

隨著去年Google帶頭發佈「多模態」生成式AI模型開始,單一模型可以處理的多元任務就像是各家挑戰的龍門一樣,這也形成各家不斷增加模型大小,為求增加模型可以處理不同任務的「腦容量」。這如同摩爾定律的詛咒,先不論是否有殺手級應用,或是對於算力的需求證據,先追求模型的線性成長。這也是一派人認為AGI的發展路徑。在這樣的前提假設下,模型為增加能力,勢必越來越肥大,而增加的「腦容量」也會需要相應的訓練資料來進行訓練,不然就會像是把一個現代天才給放到了中世紀鄉村,難免有些英雄無用武之低的困境。

這個情況下,各種專業領域或特定內容的訓練資料就會特別重要了。雖然機器學習本來就有像是創造合成資料訓練的模式,但合成資料本身對於資料多元性的幫助,或是資料本身的偏見或錯誤可能不斷加重,所以即便是可能涉法,這些科技巨頭還是要試著去取得更多原生優質資料作為訓練資料。

「優質資料」的本身並沒有絕對的定義,它可能是通過特定的篩選機制所產生出在特定領域具有價值的內容,像是科學期刊的內容。或是通過時間及人數的認證,確認其內容具備高度的認同價值,像是維基百科或是開源內容。這樣的內容除了本身產量就有限,絕大部分也都是受到版權的保護,難無償直接使用。

應用AI呈指數型成長

本圖片由AI生成

本圖片由AI生成

而回到一開始的麻瓜疑惑,網路上明明什麼都有,難道這麼多的資料還不夠嗎?這就得回到網路資料內容的有效性。前面提到的合成資料對於偏見、假資訊的問題,網路資料一樣也有。同時可能還有違法、錯誤、色情、暴力、廣告等各種污染資訊的因子,因此直接取用無審核條件的公開資訊,只怕數據清理的成本會比版權授權來得更重,而且清理完究竟還剩下多少數據量,實在也不好說。

那麼依照這樣的趨勢發展,優質資訊的版權方是不是就進入了科技發展紅利期了呢?其實除了模型不斷長大的這派,目前同時也有像是專家混合Mixture of Experts (MoE)這樣的架構,與其讓模型一個打十個,從架構裡面就將任務分門別類,由不同的模型來處理,這樣除了處理速度更快,同時也不需要持續增加的龐大訓練量。所以目前看來,版權方要能坐地喊價,可能還早了一點。

而這些資訊對於一般使用者來說,又有什麼重要性呢?先不論AGI是否在大家有生之年能順利問世,我們從2022年開始使用ChatGPT到如今,其實各個生成式AI的發展都是每日一變。確實隨著開發者在應用上的fine tuning或是使用習慣的演進,我們更知道AI可以怎麼進入到工作中,進入到工作中的AI也確實悄悄在變得更方便、更聰明。OpenAI自己也發佈目前企業應用AI還是指數型的成長中。雖然追逐更大更強,勢必還是各巨頭在資本市場或是競爭立場上必須持續前進的方向。但對於科技麻瓜的一般上班族來說,這個時代確實已經不容我們忽視AI了。對於AI的理解和應用,可能就如上個世代對於Office工具,再上個世代對於電腦的使用一樣,是不可避免的改變。

raw-image

本文由 GPT工作術|與你一起補給工作的AI能量沙龍 授權轉載

更多科學與科技新聞都可以直接上 明日科學網 http://www.tomorrowsci.com
圖片來源:GPT工作術|與你一起補給工作的AI能量沙龍