(圖:Oracle Big Data Blog)

MIT 日前將其開放給開發人員使用來訓練人工智慧的 8000 萬張微小圖像(80 Million Tiny Images)資料庫永久下架。原因是有研究人員發現,其資料庫內對許多女性、黑人與亞洲人標記上了帶有歧視、不良的用語。 MIT 也已針對此疏忽進行道歉。

8000 萬張微小圖像

有許多網站、應用程式都仰賴神經網路(nerual networks)來辨識照片中的人體、物體,而為達成此目標,開發人員通常需使用大量、標籤過後的圖庫以監督式學習(supervised learning)來訓練其開發的神經網路模型。而 MIT 的 8000 萬張微小圖像便是為此開放提供給開發人員使用。其在 2008 年開放,受限於當時的電腦視覺演算法的限制,每張圖像的大小僅有 32×32 個像素。

由於目前已有其他更佳的圖庫為此用途進行模型的訓練, 8000 萬張微小圖像現在通常被用於衡量電腦視覺演算法的能力。訓練用的圖庫則使用更符合現代用途的 ImageNet。

歧視標籤

矽谷新創公司,UnifyID 的首席科學家,維奈·普拉布(Vinay Prabhu)與在都柏林大學(University College Dublin)就讀博士學位的阿比巴·伯漢(Abeba Birhane)在仔細檢驗了 8000 萬張微小圖像資料庫後,發現了內部有數千張影像對女性、黑人、亞洲人標記了歧視性用語。

在得知此消息後,負責該資料庫的 MIT 電腦科學與人工智慧研究室(Computer Science and Artificial Intelligence Lab,簡稱 CSAIL)表示由於該資料庫的影像過小,無法經由人工方式進行篩檢,因此將對其永久下架。

問題

該研究室的教授,安東尼奧·托爾巴(Antonio Torralba)在與 The Register 的訪談中解釋了這些標籤是如何進到資料庫的:「該資料庫內含有從 WordNet 中直接取得的 53,464 種不同的名詞。而我們藉由自動化程式,以這些名詞在網路上進行搜尋,配合當時所能取得的篩選工具過濾出各種有關、可以下載的影像」。

WordNet 原先是由普林斯頓大學認知科學實驗室(Princeton’s Cognitive Science Laboratory)的喬治·阿米蒂亞·米勒(George Armitage Miller)所創建,該資料庫將對各種名詞以其相關性進行相連,是能以關聯性搜尋的文字資料庫。伯漢表示:「當你需要建立一個龐大的資料庫時,你需要建立某種架構。而這就是 WordNet 能派上用場的地方,其能夠協助電腦視覺的研究人員分類、標籤其影像」。然而 WordNet 內含有許多歧視性的用語,這對於一個文字資料庫而言並不是什麼問題,但將其配合影像、人工智慧訓練使用時,就造成了此次 8000 萬張微小圖像的問題。

不僅是 8000 萬張微小圖像,資料庫中帶有歧視性標籤的問題也同樣出現在 ImageNet 中。但由於比例較低,且較容易發現問題影像進行過濾,因此影響並不大。不過普拉布與伯漢則表示,這些標籤仍有可能會影響到許多上市、開放給使用者使用的產品,甚至可能會傷害到部分族群的權益,因此學界對此應該更加警慎、採取更爲小心的研發過程。

圖片來源:Oracle Big Data Blog

參考資料:

  1. Quach, K. (2020, July 01). MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs. Retrieved July 07, 2020. TheRegister

更多科學與科技新聞都可以直接上 明日科學網站 www.tomorrowsci.com

You May Also Like

劍橋大學:全球比特幣瞬間耗電量已等同 7 座核電廠

或約 2180 萬塊太陽能板的發電量,又等同奧地利、哥倫比亞的每年全國耗電量。 英國劍橋大學的替代金…

這輛全球最大的電動車,電池容量相當於 7 輛 Tesla

瑞士的一輛電動車,使得 Tesla P100D 形同小巫見大巫。這輛電動車不是碳纖維超跑,而是一個更…

Megabots 拍賣巨型格鬥機器人,結標價高達 520 萬台幣

美國新創公司 MegaBots 因為資金拮据,日前在 eBay 上拍賣一款巨型格鬥機器人。起標價為 …

Western Digital 使用微波技術將硬碟容量提升到 40 TB 以上

目前市面上最大的硬碟約能儲存 14 TB 的資料。但美國硬碟供應商 Western Digital …

美國FDA批准IQOS可宣稱減少接觸有害化學物質並進行銷售

美國食品藥品管理局(FDA)於日(7)前正式許可菲利普莫里斯公司(Philip Morris Pro…

歐盟若跟進美英封殺華為,中國可能對 Nokia、等品牌採報復性管制

根據《華爾街日報》報導,若是歐盟跟隨美國和英國禁止 5G 網路使用華為技術,中國擬對兩家公司在中國生…