MIT將其帶有歧視用語且用於訓練人工智慧的資料庫永久下架
MIT 日前將其開放給開發人員使用來訓練人工智慧的 8000 萬張微小圖像(80 Million Tiny Images)資料庫永久下架。原因是有研究人員發現,其資料庫內對許多女性、黑人與亞洲人標記上了帶有歧視、不良的用語。 MIT 也已針對此疏忽進行道歉。
8000 萬張微小圖像
有許多網站、應用程式都仰賴神經網路(nerual networks)來辨識照片中的人體、物體,而為達成此目標,開發人員通常需使用大量、標籤過後的圖庫以監督式學習(supervised learning)來訓練其開發的神經網路模型。而 MIT 的 8000 萬張微小圖像便是為此開放提供給開發人員使用。其在 2008 年開放,受限於當時的電腦視覺演算法的限制,每張圖像的大小僅有 32×32 個像素。
由於目前已有其他更佳的圖庫為此用途進行模型的訓練, 8000 萬張微小圖像現在通常被用於衡量電腦視覺演算法的能力。訓練用的圖庫則使用更符合現代用途的 ImageNet。
歧視標籤
矽谷新創公司,UnifyID 的首席科學家,維奈·普拉布(Vinay Prabhu)與在都柏林大學(University College Dublin)就讀博士學位的阿比巴·伯漢(Abeba Birhane)在仔細檢驗了 8000 萬張微小圖像資料庫後,發現了內部有數千張影像對女性、黑人、亞洲人標記了歧視性用語。
在得知此消息後,負責該資料庫的 MIT 電腦科學與人工智慧研究室(Computer Science and Artificial Intelligence Lab,簡稱 CSAIL)表示由於該資料庫的影像過小,無法經由人工方式進行篩檢,因此將對其永久下架。
問題
該研究室的教授,安東尼奧·托爾巴(Antonio Torralba)在與 The Register 的訪談中解釋了這些標籤是如何進到資料庫的:「該資料庫內含有從 WordNet 中直接取得的 53,464 種不同的名詞。而我們藉由自動化程式,以這些名詞在網路上進行搜尋,配合當時所能取得的篩選工具過濾出各種有關、可以下載的影像」。
WordNet 原先是由普林斯頓大學認知科學實驗室(Princeton’s Cognitive Science Laboratory)的喬治·阿米蒂亞·米勒(George Armitage Miller)所創建,該資料庫將對各種名詞以其相關性進行相連,是能以關聯性搜尋的文字資料庫。伯漢表示:「當你需要建立一個龐大的資料庫時,你需要建立某種架構。而這就是 WordNet 能派上用場的地方,其能夠協助電腦視覺的研究人員分類、標籤其影像」。然而 WordNet 內含有許多歧視性的用語,這對於一個文字資料庫而言並不是什麼問題,但將其配合影像、人工智慧訓練使用時,就造成了此次 8000 萬張微小圖像的問題。
不僅是 8000 萬張微小圖像,資料庫中帶有歧視性標籤的問題也同樣出現在 ImageNet 中。但由於比例較低,且較容易發現問題影像進行過濾,因此影響並不大。不過普拉布與伯漢則表示,這些標籤仍有可能會影響到許多上市、開放給使用者使用的產品,甚至可能會傷害到部分族群的權益,因此學界對此應該更加警慎、採取更爲小心的研發過程。
圖片來源:Oracle Big Data Blog
參考資料:
- Quach, K. (2020, July 01). MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs. Retrieved July 07, 2020. TheRegister
更多科學與科技新聞都可以直接上 明日科學網站 www.tomorrowsci.com