熱門推薦:
伊芙·卡莉雖然不知道林灰為什麽突然這麽問。
但這種有可能得到林灰提點的機會,伊芙·卡莉怎可能輕易放棄。
伊芙·卡莉先是給林灰陳述了一下當前西方在計算語義文本相似度的時候向量通常客串的角色。
而後伊芙·卡莉才正式開始回答林灰先前問她的問題:
“引入向量後才能使得機器更方便的處理語義文本的信息。
如果不引入向量的話在處理語義文本相似度的時候我們能選擇的方案很少。
而且不引入向量的情況下,我們在計算語義文本相似度所選擇的方案多多少少都有點LOW。
比如說,基於字符串的方法,這種方法都是對原始文本進行比較。
主要包括編輯距離、最長公共子序列、N-Gram相似度等來進行衡量。
就以編輯距離來說吧,其衡量兩個文本之間相似度的根據是依據兩個文本之間由一個轉換成另一個所需的最少編輯操作次數。
這種算法界定的編輯操作包括增加、刪除、替換三種。
最長公共子系列是根據……
這套衡量標準甚至有點像格式來衡量一般。
基於字符串的方法雖然原理簡單、實現方便。
但這種方法沒有考慮到單詞的含義及單詞和單詞之間的相互關系。
涉及到同義詞、多義詞等問題都無法處理。
目前很少單獨使用基於字符串的方法計算文本相似度。
而是將這些方法的計算結果作為表征文本的特征融入更加複雜的方法中。
除了這種方法之外,還有……”
林灰對於這些也是了解一些的。
他只是想通過伊芙·卡莉之口判定一下這個時空的研究到底是什麽進展的。
基於字符串通過編輯操作、最長公共子系列的方式衡量語義文本相似度確實有點低端。
但低端不等於沒用,不能因此就說這種算法沒價值。
設想一下,如果文本識別領域取得突破的話。
把界定文本相似度的判斷方法和文本識別算法結合在一起的話。
反而是基於字符串判定文本相似度這種方法最為貼切。
畢竟這種基於字符串的判別方法和計算機視覺的直觀邏輯形式最為接近的一種。
事實上文本識別算法在後世同樣是很尋常的技術。
甚至於隨便一個聊天軟件的截圖工具都能很好的勝任文本識別的任務。
而現在這個時空哪怕一些專門打出文本識別為噱頭的軟件。
實際上進行的工作只是掃描文稿轉成PDF而已。
涉及到實際的文本識別效率低的一批。
林灰感覺似乎又無意間發現了一個商機。
雖然是發現了一個商機,也不適合現在去做。
畢竟涉及到文本識別這方面還是跟計算機視覺這個領域有關系的。
所謂的計算機視覺說白了就是讓機器看東西。
這個算是人工智能的一個領域。
這個領域的研究是為了讓計算機和系統能夠從圖像、視頻和其他視覺輸入中獲取有意義的信息。
根據這些信息機器采取行動或提供建議。
如果說人工智能賦予計算機思考的能力。
那麽計算機視覺就是賦予發現、觀察和理解的能力。
計算機視覺雖然不能說多麽複雜吧。
但起碼門檻比自然語言處理要高得多。
顯然不適合林灰現在摻和。
不過林灰有耐心,林灰默默地將這件事放在了心裡。
林灰覺得不能目光太短淺。
有些東西雖然現在看起來很雞肋。
未必就代表長遠角度沒有用途。
心念及此,林灰突然覺得很慶幸。
重生之後,前世的經驗讓其遊刃有余。
另一方面,重生帶給他讓他受益的就是思維上的改變。
涉及到很多事物林灰都會下意識地考慮到長線價值。
甚至不經意間會考慮到十年二十年之後的事情。
有這種長線思維方式。
林灰覺得假以時日他一定能走到一個鮮有人企及的高度。
但這些想法就不足為外人道也。
雖然就基於字符串評價文本相似度的方法和伊芙·卡莉有些分歧。
但林灰並沒有表露出來,學術上的交流很多時候也只是求同存異而已。
伊芙·卡莉還在繼續陳述著她的看法:
“……我覺得將向量引入到語義文本相似度的衡量確實是一個不錯的主意。
不過在介入向量之後,就像打開了潘多拉的魔盒一樣。
向量在處理一些語義複雜的文本信息時。
極其容易形成一些高維空間,造成維度爆炸。
出現這種情況後,應用場景經常會變得極其糟糕。
經常出現維度爆炸的問題。
事實上,現在維度爆炸問題已經很製約我們的研究了。
Dear林,不知道您關於這個問題有什麽看法呢?”
林灰道:“維度爆炸主要是高維難處理的問題。
既然如此,為什麽不考慮將高維進行降維呢?”
林灰的語氣是那樣的風輕雲淡。
彷佛在敘述一件自然而然的事情一般。
降維?將高維的什麽進行降維??
聽了翻譯同傳過來的信息。
伊芙·卡莉有種要吐血的感覺。
她有點想學中文了。
她不知道林灰表達的原意就是將高維轉化為低維。
還是說林灰在表述的時候說的是將高維的某物轉化的低維但翻譯在轉達的時候卻省略了什麽東西。
如果是省略了一些重要的名詞那實在是太糟糕了。
到底林灰想表達是將高維數據轉化為低維數據?
還是說將高維模型轉化為低維模型?
抑或是什麽其他含義?
伊芙·卡莉很想詢問一下。
不過考慮到林灰先前為了米娜·卡莉做出的貼心之舉。
伊芙·卡莉並不好就這種事情讓林灰帶來的翻譯陷入到不安之中。
仔細思索林灰話裡的含意。
首先伊芙·卡莉覺得林灰想說的應該不是將高維數據降低成低維數據。
在進行自然語言處理時如果出現了高維數據的話。
在分析高維數據時,確實是可以進行降維的。
也必須要進行降維!
高維數據模型雖然收集到的數據點很多。
但是所收集到的數據通常會散布在一個極其分散廣袤的高維空間中。
這種情況下很多統計方法都難以應用到高維數據上。
這也是“維度災難”存在的原因之一。
遇到這種維度災難,不降維的話高維數據是很難進行處理的。
作為數據去噪簡化的一種方法,降維處理對處理大多數現代機器學習數據很有幫助。
通過降低數據的維度,理論上講可以把這個複雜棘手的問題變得簡單輕松。
機器學習領域中所謂的降維就是指采用某種映射方法。
將原高維空間中的數據點映射到低維度的空間中。
這麽做是為了除去噪音同時保存所關注信息的低維度數據。
這樣對研究人員理解原本的高維數據所隱含的結構和模式很有幫助。
原始的高維度數據通常包含了許多無關或冗余變量的觀測值。
降維可以被看作是一種潛在特征提取的方法。
降維這種方法經常用於數據壓縮、數據探索以及數據可視化。
話雖如此,但降維並不是像科幻書裡描述的那般扔一個二向箔就完事了。
涉及到降維是一件極其麻煩的事情!
在選擇降維方法的時候,人們不得不考慮很多因素。
首先要考慮輸入數據的性質。
比如說,對於連續數據、分類數據、計數數據、距離數據,它們會需要用到不同的降維方法。
對數據的性質和分辨率的考慮是十分重要的。
如果不考慮輸入數據的性質貿然進行降維的話雖然能夠使得這些這些高維模型低維化。
極有可能使得原本離散的數據直接“糊”在一起。
這種情況比高維離散還要糟糕。
在應用正式的降維技術之前。
還要對高維數據進行適當的預處理。
畢竟不是所有的數據都是樣本數據。
而有的時候進行預處理時。
最佳的預處理方式又是引入降維。
這就會陷入一個瘋狂套娃的循環之中。
總而言之,對高維數據進行降維是一件超級麻煩的事情。
在實際進行處理時一般自然語言處理方向的研究人員一般都竭力避免出現高維爆炸的情況。
而不是等出現高維數據之後再進行低維處理。
高維數據的低維處理某種程度更像是一種迫不得已的異常麻煩的補救措施。
很多東西因為麻煩就足以讓人說再見了。
繁複的過程意味著容易出錯。
而美好的事物所呈現的形式應該是簡潔的。
就像歐拉公式一般。
正因為如此,伊芙·卡莉覺得林灰這種天才想表達的意思絕對不是將高維數據降維成低維數據。
如果林灰想表達的意思不是對高維數據做手腳。
而是說對傳統的向量空間模型做文章?
將高維向量空間模型轉化為維度較低的空間向量模型?
這種思路倒是不錯。
但這種嘗試先前並不是沒人做過。
很早之前就有人進行了嘗試。
早在上世紀末期就有人提出了潛在語義分析模型。
潛在語義分析模型是基於空間向量模型而提出的。
潛在語義分析模型其基本思想是在得到文本的空間向量表示後。
通過奇異值分解,將高維且稀疏的空間向量映射到低維的潛在語義空間當中。
在得到低維的文本向量和單詞向量之後。
再用余弦相似度等度量方式來計算文本間的語義相似度。
潛在語義分析的本質思想就是通過降維來去除原始矩陣中的噪音,從而提高計算準確度。
雖然這種思路不錯,但這種方法並沒有普適性。
這是因為潛在語義分析模型在架構模型的過程中采用的奇異值分解。
這種做法使得計算複雜度增高,並且可移植性較差。
在這種方法提出來之後。
並不是沒人嘗試對這種方法進行過改進。
同樣是上世紀末。
有研究人員提出了概率潛在語義分析模型。
這種模型是基於概率,而不是基於奇異值分解。
這種模型相比於潛在語義分析模型的主要差異是增加一個主題層。
而後使用期望最大化算法訓練主題,並找到一個概率性的潛在主題模型。
以此用來預測文本空間向量中的觀察數據。
在這種概率潛在語義分析模型中,多義詞被歸入不同的主題下,而同義詞被歸入同一主題下。
這樣可以避免同義詞和多義詞對文本相似度計算的影響。
然而,概率潛在語義分析模型的參數隨著文檔數量的增加而線性增長。
很容易出現過擬合和泛化不良。
這種情況很大程度又是因為維度爆炸。
因為過擬合只在高維空間中預測相對少的參數和低維空間中預測多參數這兩種情況下發生。
一個為了避免維度爆炸而提出的模型卻出現了維度爆炸。
多少有點悲劇。
事實上,並不是只有上述兩個模型提出來。
這之後還有很多研究團隊都在從模型層面的做了不同程度的嘗試。
但這些模型要麽是南轅北轍,不利於降維。
要麽是在降維的同時又帶來了新的問題。
總之,這些模型都有各種行不通的地方。
盡管伊芙·卡莉相信林灰是個天才。
但伊芙·卡莉覺得林灰也很難在前人無數次嘗試的情況下找到一種全新的能夠規避維度爆炸的低維模型。
伊芙·卡莉考慮了很久也沒想通林灰究竟表達的是什麽意思。
伊芙·卡莉把她剛才她的思考過程對林灰進行了闡述。
林灰聽得很認真。
聽完之後,林灰笑道:“你都想到了這麽多種高維向低維轉化的情形。
而且先前你也提到了機器識別文本時為了要機器識別自然語言往往將自然語言數值化。
而後為了將這些數值進行屬性區分進一步進行了向量化。
既然你能明白這些,那你就應該知道涉及到自然語言處理方向的問題之所以很容易出現維度爆炸很大程度是因為原始數據就維度極高。
【認識十年的老書友給我推薦的追書app,咪咪閱讀!真特麽好用,開車、睡前都靠這個朗讀聽書打發時間,這裡可以下載】
這種情況下我們為什麽不直接從源頭上解決問題對原始數據做些文章呢?”
聽到林灰這話,伊芙·卡莉似乎靈魂深處被觸動了一般,
觸電般的感覺襲來,伊芙·卡莉突然激動了起來。
伊芙·卡莉顫聲道:“你的意思是說,直接對原始的高維數據進行低維化處理?
處理得到低維化數據之後,在架構模型進行語義文本相似度分析?”
和聰明人說話就是比較省時省力。
林灰想要表達的差不多就是這個意思。
現在這個時空常用的編碼手段常用的還是1hot編碼來說吧。
這種編碼雖然再相當長的歷史時期內發揮了積極作用。
但這種編碼也經常帶來很多麻煩事情。
前世往後幾年的話,詞向量按照基本都是通過分布式向量進行編碼。
分布式編碼相當於將原始數據投射到了一個較低維度的空間。
如此一來將原始數據從稀疏的高維空間壓縮嵌入到較低維度的向量空間中。
這對於後續的處理無疑是很有幫助的。
當然了投射不是說投射就投射。
還得經過神經網路學習的訓練。
至於怎麽訓練?
這就是純粹技術上的事情了。
前世,詞向量的分布式表示還有一個專有名詞叫做詞嵌入。
雖然林灰現在跟伊芙·卡莉所說的內容已然涉及到分布式詞向量的部分原理。
但林灰倒也不怕伊芙·卡莉剽竊想法。
畢竟他說的只是一部分原理。
選擇性的真相有時候比謊言更具誤導性。
至於伊芙·卡莉能從林灰這獲得多少信息,主要取決於兩人的磨合程度。
其實林灰挺希望有朝一日能全部告訴伊芙·卡莉的。
因為伊芙·卡莉能夠獲悉全部信息的話只有一種情況。
那就是她甘願充當林灰的工具人。
對自己的工具人自然沒必要隱瞞什麽。
林灰也急切需要一個純粹的學術方面的工具人。
畢竟科研什麽的能指點下方向收獲論文才是最理想的。
過於深入其中的話,未必會變強,但一定會變禿。
眼前的伊芙·卡莉聰明一點就透領悟性強。
伊芙·卡莉年輕有激情,這可優秀準科研人最應該具有的素質。
最關鍵的是伊芙·卡莉似乎很單純,很好騙。
這麽好騙的姐姐。
不把她忽悠來肝論文似乎是不應該啊……
似乎是不用那麽麻煩。
事情比林灰想象的順利。
跟伊芙·卡莉深入聊了一會。
伊芙·卡莉似乎是下定決心一般。
鼓起勇氣對林灰說道:“如果, 我是說如果可以的話,我能做你的助手麽?”
聽了她這話,林灰似乎很猶疑的樣子。
伊芙·卡莉也知道她這個請求有點冒犯。
盡管伊芙·卡莉動起這個念頭有點倉促。
但伊芙·卡莉相信她內心做出的選擇。
和林灰的談話漸漸深入,伊芙·卡莉一時間似乎接觸到了一個嶄新的世界。
來的路上,伊芙·卡莉就感覺到林灰對他無言的呼喚:“你渴望推開那扇門麽?”
此次和林灰交流,聽到了林灰剛才的話語,伊芙·卡莉似乎親眼目睹了林灰推開那扇門一般。
能同林灰一起推開那扇門的機會伊芙·卡莉自然不會放過。
看見林灰似乎很遲疑,伊芙·卡莉忙道:“我願意簽訂協議,我會對你的研究成果嚴格保密的……”
伊芙·卡莉接著道:“我也不需要科研經費……”
一個遠涉重洋萬裡之外趕來的學者態度恭謹到如此這般。
林灰如果不答應的話似乎顯得很不盡人情。
林灰果斷答應了伊芙·卡莉的請求。
協議肯定是要簽的,林灰不想成果被竊取。
但科研經費以及相應報酬還是要照發的。
員工可以有用愛發電的念頭。
但boss卻不能真的讓員工用愛發電。
那樣很容易原地暴斃族譜斷絕的。
chaptere