【數學心】第575章人工神經網絡中發現了「真」神經元

繁简轉換
[繁]
[简]

選擇背景顏色

選擇字體大小
[特大]
[大]
[中]
[小]

[回報錯誤]

《數學心》第575章人工神經網絡中發現了「真」神經元

　　無論是字面上、符號上還是概念上的表達，這種神經元都會對相同的概念做出反應。

　　OpenAI 的研究者們在人工神經網絡 CLIP 上發現了「真」神經元，這種機制解釋了 AI 模型對令人驚訝的視覺呈現進行分類時，為何擁有如此的準確性。研究人員表示，這是一項重要發現，可能對計算機大腦乃至人類大腦的研究產生重大影響。

　　這或許意味著通用人工智能距離我們並沒有想象的那麽遠。但理解了抽象概念的神經元，卻也會做出一些令人啼笑皆非的理解。

　　15 年前，Quiroga 等人發現人腦中包含多模態神經元。這些神經元能夠對圍繞常見高級主題的抽象概念簇產生反應，而不是任意特定的視覺特征。其中最著名的神經元當屬 Halle Berry 神經元，它能夠對美國女演員「哈莉·貝瑞」的照片、圖像和文本產生反應。

　　今年 1 月初，OpenAI 提出了一種通用視覺系統 CLIP，其性能媲美 -50，並在一些有挑戰性的數據集上超過現有的視覺系統。給出一組以語言形式表述的類別，CLIP 能夠立即將一張圖像與其中某個類別進行匹配，而且它不像標準神經網絡那樣需要針對這些類別的特定數據進行微調。

　　最近，OpenAI 又有了一個驚人發現:CLIP 模型中出現了多模態神經元！這類神經元能夠對以文本、符號或概念形式呈現的相同概念作出反應。例如「Spider-Man」神經元(類似 Halle Berry 神經元)能夠對蜘蛛圖像、文本「spider」的圖像和漫畫人物「蜘蛛俠」做出響應。

　　在 CLIP 模型中發現的神經元具備與人腦中 Halle Berry 神經元類似的功能，相比之前的人工神經元有所進步。

　　這一發現為合成視覺系統與自然視覺系統中的普遍機制——抽象提供了線索。研究人員發現 CLIP 的最高層將圖像組織為 idea 的松散語義集合，從而為模型的通用性和表示的緊湊性提供了簡單解釋。

　　OpenAI 表示:這一發現或許可以解釋 CLIP 模型的分類準確率，也是理解大型語言模型在訓練過程中學習到的關聯和偏見的重要一步。

　　那麽，CLIP 中的多模態神經元到底是什麽樣子呢?OpenAI 研究人員利用可解釋性工具進行了探究，發現 CLIP 權重內的高級概念包含很多人類視覺詞匯，如地區、面部表情、宗教圖像、名人等。通過對神經元影響力的探究，我們可以更加了解 CLIP 如何執行分

　　CLIP 中的多模態神經元

　　OpanAI 的論文《Multimodal Neurons in Artificial Neural 》建立在近十年來對卷積網絡解釋的研究基礎上，該研究首先觀察到許多經典方法可以直接應用於 CLIP。OpenAI 使用兩種工具來理解模型的激活，分別是特征可視化(通過對輸入進行基於梯度的優化來最大化神經元的激活)和數據集示例(觀察數據集中神經元最大激活圖像的分布)。

　　通過這些簡單的方法，OpenAI 發現 CLIP RN50x4(-50 利用擴展規則擴增 4 倍)中的大多數神經元都可以得到解釋。這些神經元似乎是「多面神經元」的極端示例，

它們只在更高層次的抽象上對不同用例做出響應。　　例如，對於夏季和冬季兩個不同季節，文本、人臉、Logo、建築物、室內、自然和姿態等表現出了不同的效果:

　　對於美國和印度兩個不同國家，文本、人臉、Logo、建築物、室內、自然和姿態等也呈現出了不同的效果:

　　OpenAI 驚奇地發現，其中很多類別似乎是利用顱內深度電極記錄的癲癇患者內側顳葉中的鏡像神經元，包含對情緒、動物和名人做出反應的神經元。

　　然而，OpenAI 對 CLIP 的研究發現了更多這類奇怪但絕妙的抽象，包括似乎能計數的神經元、對藝術風格做出響應的神經元，甚至對具有數字修改痕跡的圖像做出響應的神經元。

　　多模態神經元的構成是怎樣的

　　這些多模態神經元能夠幫助我們理解 CLIP 如何執行分類。使用一個稀疏線性探針即可以很容易地查看 CLIP 的權重，從而了解哪些概念結合在一起實現了數據集上的最終分類。

　　如下圖所示，存錢罐似乎是由一個「finance」神經元和瓷器( )神經元組成的。「Spider-Man」神經元也表現為一個蜘蛛檢測器，並在「谷倉蜘蛛」(barn spider)的分類中發揮重要作用。

　　對於文本分類，OpenAI 的一個關鍵發現是，這些概念以類似於 word2vec 目標函數的方式包含在神經元中，它們幾乎是線性的。因此，這些概念構成了一個單代數，其行為方式類似於線性探針。通過線性化注意力，我們也可以像線性探針那樣檢查任意句子，具體如下圖所示:

　　CLIP 的抽象化程度揭示了一種新的攻擊向量(vector of attack)，OpenAI 認為這種向量並未在以往的系統中表現出來。和很多深度網絡一樣，模型最高層上的表征完全由這類高級抽象控制。但是，區分 CLIP 的關鍵在於程度(degree)，CLIP 的多模態神經元能夠在文字和符號之間實現泛化，而這可能是一把雙刃劍。

　　通過一系列精心設計的實驗，OpenAI 證明了可以利用這種還原行為來欺騙模型做出荒謬的分類。此外，OpenAI 觀察到，CLIP 中神經元的激發通常可以借助其對文本圖像的響應來控制，從而為攻擊該模型提供了一個簡單的向量。

　　舉例而言，金融神經元可以對存錢罐和貨幣符號串「$$$」做出響應。通過強製性地激活金融神經元，我們可以欺騙 CLIP 模型將一條狗分類為存錢罐。具體如下圖所示:

　　OpenAI 將這類攻擊稱為「typographic attack」。研究人員窮盡 CLIP 模型魯棒性讀取文本的能力，發現即使是手寫文本圖像也能騙過模型。如下圖所示，在「史密斯奶奶」青蘋果表面貼上寫著「iPod」的紙張，系統將其錯誤分類為「iPod」。

　　研究人員認為這類攻擊還可能以更微妙、不明顯的形式出現。CLIP 的輸入圖像往往用多種細微複雜的形式進行抽象，這可能會對一些常見模式進行過度抽象——過度簡化，進而導致過度泛化。

　　偏見和過度泛化

　　CLIP 模型基於精心收集的網絡圖像進行訓練，但它仍然繼承了許多未經檢查的偏見與關聯。研究人員發現 CLIP 中的許多關聯是良性的，但也有一些關聯會帶來損害，如對特定個人或組織的貶損。例如，「Middle East」(中東)神經元與恐怖主義存在關聯，「」(移民)神經元對拉丁美洲有反應，甚至有的神經元還對黑皮膚人群和大猩猩產生反應。這映射了早期其他模型中存在的圖像標注問題，而這是不可接受的。

　　這些關聯對此類強大視覺系統的應用提出了極大挑戰。不管是經過微調還是使用零次學習，這些偏見和關聯大概率仍會存在於系統中，而它們也將以可見或不可見的方式影響模型部署。我們或許很難預測很多帶偏見的行為，如何度量和糾正它們是非常困難的事情。OpenAI 認為這些可解釋性工具可以提前發現關聯和歧視，進而幫助從業者規避潛在的問題。

　　OpenAI 表示他們對 CLIP 的理解仍在繼續，而是否發布 CLIP 模型的大型版本尚屬未知。

　　這一研究或許會對 AI 技術，甚至神經科學研究打開一條新路。「因為我們不了解神經網絡運作的機制，因此很難理解它們出錯的原因，」OpenAI 的聯合創始人、首席科學家 Ilya Sutskever 說道。「我們不知道它們是否可靠，或它們是否存在一些測試中未發現的漏洞。」

　　此外，OpenAI 還發布了用於理解 CLIP 模型的工具，例如 OpenAI ，它最近更新了 CLIP RN50x4 中每個神經元的特征可視化、數據集示例和文本特征可視化。

鍵盤左右鍵 ← → 可以切換章節