91精品国产综合久久四虎久久_国产成人午夜高潮毛片_99er视频精品免费观看_2020亚洲熟女在线观看_日本女优人体写真_国内黄色毛片_年轻的老师中文版在线_丰满女邻居做爰_久久久久久精品成人免费图片

神經(jīng)網(wǎng)絡(luò)如何學(xué)習(xí)分布式的表示
深度學(xué)習(xí)的有效性通常歸因于神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)到豐富數(shù)據(jù)表示的能力

分布式表示的概念是深度學(xué)習(xí)的核心,特別是在它用于自然語言任務(wù)時。那些剛剛進入這個領(lǐng)域的人可能會很快將它簡單理解為代表某些數(shù)據(jù)的矢量。雖然這是事實,但在更概念化的層面上去理解分布式表示會增強我們對深度學(xué)習(xí)的有效性的理解。

為了研究不同類型的表示方式,我們可以做一個簡單的思考練習(xí)。假設(shè)我們有一大堆“內(nèi)存單元”來存儲有關(guān)形狀的信息。我們可以選擇用單個存儲單元來表示每個單獨的形狀,如圖1所示。

Figure1-5eadbb96f1ac8c2b926b58d5a940f644

圖1. 稀疏或叫本地化的非分布式的形狀的表示。圖片由Garrett Hoffman提供

這種被稱為“稀疏”或“本地”的非分布式表示在很多方面是效率低下的。首先,隨著我們觀察的形狀數(shù)量的增加,表示的維度將會增加。更重要的是,它沒有給出關(guān)于這些形狀之間如何相互關(guān)聯(lián)的任何信息。而這是分布式表示真正的價值所在:它有通過概念來發(fā)現(xiàn)數(shù)據(jù)之間“語義相似性”的能力。

Figure2-9b757823f56b45a64820ab55a65918dd

圖2 對形狀的分布式表示。圖片由Garrett Hoffman提供

圖2顯示了同一組形狀的分布式表示。它用與方向和形狀概念相關(guān)的多個“記憶單元”表示形狀的信息?!坝洃泦卧焙嘘P(guān)于每個形狀以及形狀之間如何相互關(guān)聯(lián)的信息。當(dāng)通過分布式表示法(例如圖3中的圓圈)來表示一個新形狀時,我們不會再增加維度。而且即使我們之前沒有見過圓,我們也知道關(guān)于圓的一些信息,因為它與其他形狀有關(guān)。

Figure3-aa3da219493b848c894ee14c49bef24c

圖3. 一個圓的分布式表示。這種表示法更有用,因為它為我們提供了有關(guān)這種新形狀與其他形狀如何相關(guān)的信息。圖片由Garrett Hoffman提供

上面這個形狀的例子過于簡單,但它可以看成是對分布式表示的高層抽象的簡介。 請注意,在上面對于形狀的分布式表示的例子里,我們用了四個概念或特征(垂直、水平、矩形、橢圓)來表示。在這種情況下,我們必須事先知道這些重要和顯著的特征是什么。但在很多情況下,這是一件很難或不可能的事情。正因為如此,特征工程在經(jīng)典機器學(xué)習(xí)技術(shù)中才變得如此重要。找到對于數(shù)據(jù)的良好表示對于分類或聚類等任務(wù)的成功至關(guān)重要。深度學(xué)習(xí)能獲得巨大成功的原因之一是神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)豐富的分布式數(shù)據(jù)表示的能力。

為了檢驗這一點,我們將重新審視我們在LSTM教程中處理的問題——用StockTwits的社交媒體帖子來預(yù)測股市情緒。在這個教程中,我們構(gòu)建了一個多層LSTM,以預(yù)測來自原始文本里的消息的情感。在處理消息數(shù)據(jù)時,我們創(chuàng)建了一個映射表來記錄一個詞匯到一個整數(shù)索引的關(guān)系。

詞匯到整數(shù)的映射是我們數(shù)據(jù)的非分布式稀疏表示。例如,buy這個單詞被映射到索引值25,long這個單詞被表示為索引68。需要注意的是,這個方法和一個長度為vocab_size的“one-hot編碼”(索引中有1表示該單詞,而其他位置都是0)向量表示方式是等價的。這兩個表示法是相互獨立的,盡管在它們在語義上是相似的。兩種方法里的兩個詞之間是沒有關(guān)系信息的,兩種方法里的詞都僅被表示為在映射里的位置。

用于學(xué)習(xí)單詞的分布式表示的規(guī)范方法是Word2Vec模型。Word2Vec的skip-gram模型的體系結(jié)構(gòu)如圖4所示。它用單個單詞作為輸入,將其傳遞給該單詞獨有的單個線性隱藏層,并使用softmax激活層預(yù)測繞著它的上下文窗口中出現(xiàn)的其他單詞。

Figure4-cbbef751ee84945c8491c7e896fb8464

圖4. 單詞的分布式表示。圖片來自谷歌的“Distributed Representations of Words and Phrases and their Compositionality”一文,并許可使用

Word2Vec模型使用J.R. Firth的哲學(xué):“你可以通過一個詞的上下文來理解一個詞”。這一哲學(xué)可以很容易地在TensorFlow中被實現(xiàn)。通過學(xué)習(xí)隱藏層的權(quán)重(作為我們的分布式表示),出現(xiàn)在類似上下文中的單詞將具有類似的表示。Word2Vec是專門設(shè)計用于從單詞的上下文中學(xué)習(xí)單詞的分布式表示的模型,也被稱為“詞嵌入”。通常是預(yù)先用Word2Vec進行訓(xùn)練來獲得這些嵌入,然后它們再被用作其他語言任務(wù)的模型的輸入。

另外一種方案是,作為特定任務(wù)的模型訓(xùn)練過程的一部分,可以用端到端的方式學(xué)習(xí)來獲得分布式表示。這就是我們在股票市場情緒LSTM模型中學(xué)習(xí)的詞嵌入?;叵胍幌逻@個LSTM模型的體系結(jié)構(gòu)(參見圖5),其中我們將單詞稀疏表示輸入到一個嵌入層。

Figure5-bb5d651bc4fda2133127d0478aae02a0

圖5. 展開具有嵌入層的單層LSTM網(wǎng)絡(luò)。圖片由Udacity提供,并獲許可使用

用這種范式訓(xùn)練,分布式表示將專門學(xué)習(xí)與任務(wù)相關(guān)的事物的表示。在我們的例子中,分布式表示應(yīng)該專門學(xué)習(xí)情感詞周圍的語義上下文。我們可以通過提取詞語嵌入并查看一些示例來檢查這一點。

我們使用tSNE來可視化幾個“bearish(熊市)-bullish(牛市)對”之間的關(guān)系(參見圖6)??梢宰⒁獾絾卧~對之間從左到右方向表示的情緒概念,例如bearish(熊市)-bullish(牛市),overvalued(定價過高)-undervalued(定價過低),short(短期)-long(長期)等。

Figure6-9335105503833cebf83ba1db2f6bb76f

圖6. 可視化詞嵌入。展示了我們的分布式表示所捕獲的情感概念的語義關(guān)系。圖片由Garrett Hoffman提供

這些表示并不完美。在理想狀況下我們希望看到詞對更加垂直對齊,并且我們也有一些情緒反轉(zhuǎn)的詞對。不過上面的結(jié)果在有限的訓(xùn)練中已經(jīng)表現(xiàn)得相當(dāng)不錯。 我們模型的這種學(xué)習(xí)分布式表示的能力是它在預(yù)測情緒時能夠達到高準(zhǔn)確度的主要原因。

神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)到分布式數(shù)據(jù)表示的能力是深度學(xué)習(xí)能對于許多不同類型的問題非常有效的主要原因之一。這個概念的力量和美感使得表示學(xué)習(xí)成為深度學(xué)習(xí)研究中最令人興奮和最活躍的領(lǐng)域之一。學(xué)習(xí)跨多種領(lǐng)域(例如,單詞和圖像、不同語言的單詞)的共享表示的方法正在推進添加圖像字幕和機器翻譯的進步。我們可以肯定,更好地理解這些表示形式將持續(xù)作為推動人工智能發(fā)展的一個主要因素。

這篇文章是O’ReillyTensorFlow的合作。 請參閱我們的編輯獨立聲明

Garrett Hoffman

Garrett Hoffman是StockTwits的高級數(shù)據(jù)科學(xué)家,主要致力于使用數(shù)據(jù)科學(xué)和機器學(xué)習(xí)來了解社交動態(tài),并開發(fā)研究和探索的工具來給超過100萬投資者組成的社區(qū)使用。Garrett擁有數(shù)學(xué)和計算機科學(xué)方面的技術(shù)背景,但更加鐘愛從以人為本的角度(使用我們所了解或可以了解的復(fù)雜系統(tǒng)來推動最佳決策、體驗和產(chǎn)出)來處理數(shù)據(jù)問題。

Neurons (source: Pixabay)