(圖:Oracle Big Data Blog)

MIT 日前將其開放給開發人員使用來訓練人工智慧的 8000 萬張微小圖像(80 Million Tiny Images)資料庫永久下架。原因是有研究人員發現,其資料庫內對許多女性、黑人與亞洲人標記上了帶有歧視、不良的用語。 MIT 也已針對此疏忽進行道歉。

8000 萬張微小圖像

有許多網站、應用程式都仰賴神經網路(nerual networks)來辨識照片中的人體、物體,而為達成此目標,開發人員通常需使用大量、標籤過後的圖庫以監督式學習(supervised learning)來訓練其開發的神經網路模型。而 MIT 的 8000 萬張微小圖像便是為此開放提供給開發人員使用。其在 2008 年開放,受限於當時的電腦視覺演算法的限制,每張圖像的大小僅有 32×32 個像素。

由於目前已有其他更佳的圖庫為此用途進行模型的訓練, 8000 萬張微小圖像現在通常被用於衡量電腦視覺演算法的能力。訓練用的圖庫則使用更符合現代用途的 ImageNet。

歧視標籤

矽谷新創公司,UnifyID 的首席科學家,維奈·普拉布(Vinay Prabhu)與在都柏林大學(University College Dublin)就讀博士學位的阿比巴·伯漢(Abeba Birhane)在仔細檢驗了 8000 萬張微小圖像資料庫後,發現了內部有數千張影像對女性、黑人、亞洲人標記了歧視性用語。

在得知此消息後,負責該資料庫的 MIT 電腦科學與人工智慧研究室(Computer Science and Artificial Intelligence Lab,簡稱 CSAIL)表示由於該資料庫的影像過小,無法經由人工方式進行篩檢,因此將對其永久下架。

問題

該研究室的教授,安東尼奧·托爾巴(Antonio Torralba)在與 The Register 的訪談中解釋了這些標籤是如何進到資料庫的:「該資料庫內含有從 WordNet 中直接取得的 53,464 種不同的名詞。而我們藉由自動化程式,以這些名詞在網路上進行搜尋,配合當時所能取得的篩選工具過濾出各種有關、可以下載的影像」。

WordNet 原先是由普林斯頓大學認知科學實驗室(Princeton’s Cognitive Science Laboratory)的喬治·阿米蒂亞·米勒(George Armitage Miller)所創建,該資料庫將對各種名詞以其相關性進行相連,是能以關聯性搜尋的文字資料庫。伯漢表示:「當你需要建立一個龐大的資料庫時,你需要建立某種架構。而這就是 WordNet 能派上用場的地方,其能夠協助電腦視覺的研究人員分類、標籤其影像」。然而 WordNet 內含有許多歧視性的用語,這對於一個文字資料庫而言並不是什麼問題,但將其配合影像、人工智慧訓練使用時,就造成了此次 8000 萬張微小圖像的問題。

不僅是 8000 萬張微小圖像,資料庫中帶有歧視性標籤的問題也同樣出現在 ImageNet 中。但由於比例較低,且較容易發現問題影像進行過濾,因此影響並不大。不過普拉布與伯漢則表示,這些標籤仍有可能會影響到許多上市、開放給使用者使用的產品,甚至可能會傷害到部分族群的權益,因此學界對此應該更加警慎、採取更爲小心的研發過程。

圖片來源:Oracle Big Data Blog

參考資料:

  1. Quach, K. (2020, July 01). MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs. Retrieved July 07, 2020. TheRegister

更多科學與科技新聞都可以直接上 明日科學網站 www.tomorrowsci.com

You May Also Like

Google 助理將推出口譯模式,可即時翻譯 27 種語言

Google 稍早在 2019 年美國消費電子展 (CES) 上,針對旗下 Google 助理(Go…

特斯拉CEO 伊隆·馬斯克(Elon Musk)說,現在是時候“與亞馬遜分道揚鑣了”

特斯拉(Tesla)執行長埃隆·馬斯克(Elon Musk)在推特(twitter) 上發了一些針對…

澳洲研究團隊成功研發出世界上第一個人類仿生眼睛,預計移植入人體內進行試驗

澳洲墨爾本的蒙納許大學(Monash University)的一個研究團隊打造了他們說能夠透過大腦移…

印度成功試射反衛星飛彈,製造太空垃圾引擔憂

印度政府稍早對外展示,該國已具備可發射飛彈摧毀軌道衛星的能力,讓印度成為繼中國、美國及俄國之後,第四…

Instagram 小盒子變身 Messenger 圖示 臉書旗下服務跨平台整合有譜

根據更新頁面, Instagram 的私訊更新包含新的外觀顏色、支援所有 emoji 表情符號回應、…

科學家研發能撰寫程式的人工智慧

BAYOU 是一個由美國萊斯大學(Rice University)電腦科學團隊開發,美國軍方及 Go…