【科技無垠】第七章這究竟會訓練出個什麽玩意兒？

繁简轉換
[繁]
[简]

選擇背景顏色

選擇字體大小
[特大]
[大]
[中]
[小]

[回報錯誤]

《科技無垠》第七章這究竟會訓練出個什麽玩意兒？

　　“ChatGPT你知道吧?‘言心’也是一個語言模型，跟ChatGPT的差別就是，相比之下，‘言心’更擅長中文語料。”

　　這個話題一旦展開，是怎麽也繞不過去現今大火的聊天機器人ChatGPT的，ChatGPT推出2個月即擁有1億月活用戶，在消費者應用程序裡，它是歷史上最快達到這個數字的。

　　如今，它就是聊天機器人的標杆產品，火的一塌糊塗。

　　“ChatGPT的三代模型的核心架構都是Transformer，從本質上講，它依然是基於海量數據的延伸，並沒有新的顛覆性技術，也沒有從本質上超出現有的技術。”

　　說起ChatGPT，程旭對此很不以為然——現階段，人工智能的理論並沒有新的進展，誰強並不是強在理論先進、技術高超上，而是強在硬件實力、強在算力堆積上。

　　換句話說，就是錢——就拿ChatGPT來說，它訓練一次幾乎就差不多需要三千萬人民幣以上的資金。

　　更別說每年的運營，據估算，每年僅是CPU和GPU的成本就能達到十億人民幣這個級別，再加上其他的費用，這真的不是一般企業能夠承受的住的。

　　哪怕是千尋這樣的巨頭搜索企業，搞出“言心”這個語言模型，也是持續投入了十年以上，每年的投入幾乎是整個千尋科技利潤的五分之一——這絕對是一個驚人的數字。

　　“但微軟是真的舍得投錢啊，十億美金十億美金的，錢跟不是錢似的往裡投資。”

　　說著的時候，潘正甚是羨慕:“他們甚至給OpenAi團隊配了一台性能極為強悍的超算，看著就讓人眼紅。”

　　“千尋科技的投入也不差吧?而且以後肯定還會越來越重視。畢竟現在GPT已經開始集成到bing搜索引擎，未來肯定是要發力的。

　　“而搜索引擎，這可是千尋科技的核心業務、甚至可以說是根基所在。bing未來在國內肯定是要跟千尋搜索直接競爭的，千尋也絕對不會無動於衷的！”

　　要說ChatGPT這種極為強悍的聊天機器人出現對誰的影響最大?

　　那當然是搜索業務，它對搜索引擎的影響簡直就是顛覆性的。

　　相比於傳統的搜索引擎來說，擁有極致的語言處理技術和語言理解能力的ChatGPT簡直太超前了！

　　它與用戶直接對話，用類似於人與人交互的方式進行搜索，而不是傳統的關鍵詞匹配。

　　這種搜索得出的結果更加直接、快捷，也更加容易使用，甚至直接放到論文裡都沒問題，查重都查不出來。

　　更有甚者，程序員給它描述需求，它能直接生成可用的代碼——它對語言的理解能力已臻於化境！

　　而這對於千尋搜索來說，肯定不是什麽好消息。

　　而“言心”模型，程旭印象中，“言心”好像是確實出了什麽問題，好像還鬧挺大的。

　　原本說是三月上線，三月是上線了，不過更多的是偏向於於商業合作夥伴，比如各類媒體、地圖、房產等大型的合作夥伴——提供智能化的檢索服務。

　　對個人的開放一開始就有所限制，初期好像就沒開，印象中搞了一個什麽邀請測試方案。

　　後來才關注到，好像是模型的訓練出了什麽問題，但這其中究竟發生了什麽，程旭也沒有過多的關心。

　　“千尋確實花了不少錢，投資也數十上百億了。

”　　潘正沒有否認程旭的說法，這些東西都已經是公開可求證的了，不過，隨後他便微微搖了搖頭:“但是現在有點兒，壞了！”

　　“壞了?”

　　程旭有些不解，壞了是個什麽概念?有這個術語嗎?

　　“難道是寒武紀受到限制，訓練卡和推理卡都不能及時供應得原因?”程旭有些不解，這是有些影響，但按理說，這還影響不到當前的上線。

　　“也不是什麽機密，稍微消息靈通點兒的人一打聽都知道。”

　　潘正無奈道:“不是硬件的問題，寒武紀的問題影響暫時確實沒有那麽大，是‘言心’基礎模型的問題。”

　　程旭更加不解了，基礎模型能有什麽問題?

　　都訓練那麽長時間了，數十上百億的資金都投入進去了，基礎模型有問題都沒發現嗎?

　　“這算是早期的一個小失誤，”潘正解釋道:“原本不是什麽大問題，但現在確實不好解決了。”

　　程旭沒有吭聲，等著潘正的下文，他是越聽越糊塗了。

　　“早期訓練的時候，訓練人員也沒想那麽多，那個時候也沒有什麽嚴苛的標準，就使用了自己的產品做語料……”

　　“自家的產品?”程旭眼睛猛地一跳，瞬間就想起來發生了什麽事兒了——千尋自家的產品，除了搜索引擎，也就文庫和貼吧了！

　　而對話，貼吧，這……

　　程旭瞬間醍醐灌頂——腦海中冒出了一大堆的名詞:大帝吧，航空吧，人口吧，孫吧，中西部發展吧……

　　這……

　　用這些語料做得模型早期訓練?

　　這T-M-D究竟會訓練出來個什麽玩意兒?

　　“臥槽！”實在是沒忍住，程旭爆了個粗口:“不會訓練出‘陰陽人’加‘樂子人’的‘言心’模型吧?拿他豈不是只會陰陽怪氣兒，指桑罵槐?”

　　程旭搖了搖頭，只是這樣還是好的，真要培養出來一個類似“50w人格”的價值觀出來，那千尋真的是哭都沒地兒哭去！

　　“不不不不，沒那麽嚴重！”

　　潘正教授急忙擺手，製止程旭的思維再發散下去，再發散下去要完蛋了。

　　“真要那麽嚴重的話，早就被發現了，也不會拖到現在。事實上，那只是在極早期的時候發生的事情。

　　“後續有了標準的訓練流程，語料的選擇和清洗也有了明確的選擇和標準，模型的成長也非常順利。

　　“事實上，言心模型也非常強大，畢竟，這也是數十上百億資金堆起來的。但是，就是偶爾，對於某些問題，‘言心’偶爾就會冒出一些極為離譜的回答。

　　“就是因為問題是偶發的，技術人員以為是培養的問題，負責人中途也更換過，所以也就沒有往早期訓練語料方面去考慮。只是選擇了選擇糾正訓練。糾正的效果其實還是不錯的，所以就延續下來了。

　　“但是，事實證明，根兒壞了，是怎麽也無法完全糾正回來的，無論迭代多少次，總是有概率出現哪些極為離譜的回答。”

　　程旭簡直無語，早期的模型就是根基啊，怎能出這樣愚蠢的失誤呢?

　　其實也不能完全說是技術人員的問題——早期大家都沒有經驗，都是在摸著石頭過河，出現這樣那樣的問題都是無法完全避免的。

　　語料清洗，今天已經是一個標準概念了，專業教材都有講，還沒有畢業的大學生都能明白他的重要意義。

　　但放在十年前，十年前人工智能剛起步，那個時候，誰能知道語料清洗的重要性?

　　這都是無數人交了巨額的學費，付出了幾乎難以承受的代價，才慢慢得出的寶貴經驗。

鍵盤左右鍵 ← → 可以切換章節