MIT將其帶有歧視用語且用於訓練人工智慧的資料庫永久下架

MIT 日前將其開放給開發人員使用來訓練人工智慧的 8000 萬張微小圖像（80 Million Tiny Images）資料庫永久下架。原因是有研究人員發現，其資料庫內對許多女性、黑人與亞洲人標記上了帶有歧視、不良的用語。 MIT 也已針對此疏忽進行道歉。

8000 萬張微小圖像

有許多網站、應用程式都仰賴神經網路（nerual networks）來辨識照片中的人體、物體，而為達成此目標，開發人員通常需使用大量、標籤過後的圖庫以監督式學習（supervised learning）來訓練其開發的神經網路模型。而 MIT 的 8000 萬張微小圖像便是為此開放提供給開發人員使用。其在 2008 年開放，受限於當時的電腦視覺演算法的限制，每張圖像的大小僅有 32×32 個像素。

由於目前已有其他更佳的圖庫為此用途進行模型的訓練， 8000 萬張微小圖像現在通常被用於衡量電腦視覺演算法的能力。訓練用的圖庫則使用更符合現代用途的 ImageNet。

歧視標籤

矽谷新創公司，UnifyID 的首席科學家，維奈·普拉布（Vinay Prabhu）與在都柏林大學（University College Dublin）就讀博士學位的阿比巴·伯漢（Abeba Birhane）在仔細檢驗了 8000 萬張微小圖像資料庫後，發現了內部有數千張影像對女性、黑人、亞洲人標記了歧視性用語。

在得知此消息後，負責該資料庫的 MIT 電腦科學與人工智慧研究室（Computer Science and Artificial Intelligence Lab，簡稱 CSAIL）表示由於該資料庫的影像過小，無法經由人工方式進行篩檢，因此將對其永久下架。

問題

該研究室的教授，安東尼奧·托爾巴（Antonio Torralba）在與 The Register 的訪談中解釋了這些標籤是如何進到資料庫的：「該資料庫內含有從 WordNet 中直接取得的 53,464 種不同的名詞。而我們藉由自動化程式，以這些名詞在網路上進行搜尋，配合當時所能取得的篩選工具過濾出各種有關、可以下載的影像」。

WordNet 原先是由普林斯頓大學認知科學實驗室（Princeton’s Cognitive Science Laboratory）的喬治·阿米蒂亞·米勒（George Armitage Miller）所創建，該資料庫將對各種名詞以其相關性進行相連，是能以關聯性搜尋的文字資料庫。伯漢表示：「當你需要建立一個龐大的資料庫時，你需要建立某種架構。而這就是 WordNet 能派上用場的地方，其能夠協助電腦視覺的研究人員分類、標籤其影像」。然而 WordNet 內含有許多歧視性的用語，這對於一個文字資料庫而言並不是什麼問題，但將其配合影像、人工智慧訓練使用時，就造成了此次 8000 萬張微小圖像的問題。

不僅是 8000 萬張微小圖像，資料庫中帶有歧視性標籤的問題也同樣出現在 ImageNet 中。但由於比例較低，且較容易發現問題影像進行過濾，因此影響並不大。不過普拉布與伯漢則表示，這些標籤仍有可能會影響到許多上市、開放給使用者使用的產品，甚至可能會傷害到部分族群的權益，因此學界對此應該更加警慎、採取更爲小心的研發過程。

圖片來源：Oracle Big Data Blog

參考資料：

Quach, K. (2020, July 01). MIT apologizes, permanently pulls offline huge dataset that taught AI systems to use racist, misogynistic slurs. Retrieved July 07, 2020. TheRegister

更多科學與科技新聞都可以直接上明日科學網站 www.tomorrowsci.com

MIT將其帶有歧視用語且用於訓練人工智慧的資料庫永久下架

8000 萬張微小圖像

歧視標籤

問題

新生兒染RSV，住院險重症　孕媽咪疫苗打造寶寶「隱形護盾」

太陽天文學家拍攝到迄今最清晰日冕動態影像

「你來啦！」蜜蜂嗡嗡聲促使花朵分泌更多花蜜

靈感來自 QLED！鑽石量子感測器升級細胞級監測

聽覺能力大調查：每個人「聽穿雜音」的本領大不同

8000 萬張微小圖像

歧視標籤

問題

你也可能喜歡