登入使用能幫助您收藏更多喜歡的好書,
希望大家都能多多登入,管理員在此感激不盡啦!
《大時代之巔》第七百六十八章 爬蟲
“大時代之巔 新()”查找最新章節!
 在國內做生意,限制比較多。如果是小打小鬧的小公司,只要在合理合法的經營、競爭,怎樣都沒問題。如果是大公司,那就不行了。

 如果是國企間展開激烈競爭,當局一統計,發現這種競爭對兩家企業的利潤都有損害,就會出面協調了。可以把兩家企業的老總互換,化乾戈為玉帛。再不行,當局談話,進行問誡。還不行,就有殺手鐧了,兩家企業直接合並。

 民企間的競爭相對自由,可大公司之間也有限制。

 每一家成功的民企,經營的都很不容易。

 當局在法律法規、政策等方面都有一定的保護。

 在美國,一個市值1000多億美元的公司一旦報出財務造假,3個月內就破產倒閉了,處置得極其嚴苛。可國內不一樣,民企做大,真是太不容易了,因為犯了點小錯就直接殺頭,太可惜了,罰款幾十萬引以為戒,意思意思得了。

 企業倒了,那麽多員工怎麽辦?損失的GDP怎麽辦?

 這就導致有很多無恥可惡的商人,利用國家對民族經濟的呵護和關愛,不好好做企業,天天想著操縱資本、收割韭菜,導致A股假帳爛帳一大堆。

 這裡面的水太深,周不器從不參與,哪怕A股現在歷史性的大漲,他也不去炒股,免得惹一身腥。

 炒股才能賺幾個錢啊。

 他這種身份的人,只要牌坊正,根本不需要去股市裡偷雞摸狗,官府會敲鑼打鼓的主動給他送錢。

 要想錢生錢,最好的辦法就是把錢集中起來,交給最會賺錢又人品可靠值得信任的人,讓他去帶領大家共同致富。

 周不器現在基本就是這樣的人。

 郭丹那邊已經回饋了,市裡針對紫微星總部的事,已經拿出了一個大致性的意見,會給出一個在首都地區對民企來說前所未有的扶持方案。

 回到紫微星和百度的競爭上,周不器肯定不能像石婧琳說的那樣采取一些過激的行為。

 就算是競爭,也要在一定的范圍之內。

 要是紫微星真的把百度搞死了,這不是牛逼,這是傻逼。同樣的,百度要是把紫微星搞死了,李老板也就被請去喝茶了。

 3Q大戰一度轟轟烈烈,也是當局出面化解糾紛。

 第二天,周不器叫上了郭鵬飛、韓樂水、聶才俊、寧雅嫻等人,去搜索事業群那邊考察工作。場面不小。

 紫微星的幾大事業群負責人中,王小船的壓力是最大的。

 前期工程已經做到了完美,可就是拿不到結果,市場份額一直維持在33%-35%之間。所以他才申請了一個建議,要做一個類似百度貼吧的項目。

 好在周不器對王小船充滿了信任。

 “不要急,我早就說過了,短期之內不看份額,只看產品。”

 “產品……”

 王小船暗暗歎氣。

 單看產品,微點搜索也不如百度啊!唯一的優勢,就是微點的配套設施更多,有瀏覽器,有導航網,有輸入法,有音樂平台等等。

 周不器笑了笑,“這點信心都沒有?還是說你承認技術不行?”

 王小船從小就是計算機天才,在技術方面從未服過誰,搖頭道:“搜索引擎的架構高度複雜,有抓取器、渲染器、DNS解析、Redis內存數據庫、URL隊列、種子隊列、響應隊列、URL提取、URL過濾、重複URL檢測等等,是一個技術性很強的龐大工程。我自認為微點的架構不比百度差,可一些技術細節,還需要時間。”

 周不器笑著說:“我知道搜索技術很高端,可隨著時間的推移,搜索技術就會走下神壇,變為比較大眾的技術。最根本的技術,還是大數據處理。”

 在大方向的理論上,周大老板比一些專業人士還強。

 王小船深以為然,“是啊,大數據的處理。百度和谷歌的差距,微點和百度的差距,最主要的就是體現在我們在數據處理時的效率問題。按理來說,通過爬蟲技術,可以抓取到互聯網上所有信息。可相關信息太多了,數據量太大了。怎麽才能在短時間內把想要的信息抓取並展示出來,是搜索引擎最大的技術難題。”

 周不器打了個響指,笑道:“巧了,我這次過來,就是想問問你爬蟲的事。”

 王小船有些費解。

 周大老板這個技術外行,怎麽還關心起技術細節來了?

 就緩緩的解釋道:“爬蟲是搜索的基礎工具,爬蟲搜信息……嗯,就跟使用瀏覽器上網差不多,都是先向服務器發送請求,獲得返回的頁面,然後篩選出有價值的內容。如果時間足夠長計算量足夠大,使用爬蟲工具,就可以把互聯網上的所有信息都搜索一遍。”

 見周大老板似乎很感興趣的樣子。

 王小船就拿過紙筆,很快速的寫下了一行代碼,“假如說我們要爬取微知網的信息,用這行代碼就可以實現了。”

 周不器拿過代碼一看,嗯,是很簡單。

 headers={‘Use-Agent’:‘ChaiknowsThebot’,}

 r=requests.gets(“

 html=r.text

 print(html)

 難怪說3月份的時候,北科有兩個計算機系的大學生被開除了。

 這技術好像是不太難。

 因為大四寫論文,可用谷歌、百度、微點等搜索引擎,卻搜不到別人寫的相關論文。怎麽辦?就有計算機系的學生,自己寫了段爬蟲算法。

 然後成功的爬取到了幾百篇相關論文。

 接下來就好辦了,摘抄、重組、整合。

 如果查重不過關,也簡單,用谷歌翻譯,先漢譯英、再英譯漢。再人工地把句子整理通順,查重就順利通過。

 可能是北科的創業環境被周不器給帶起來了,那倆大學生就有了通過技術牟利的心思,玩起了幫同學寫論文的生意。

 被發現後,倆人都被開除了。

 要不是周不器出面力保,上繳了非法所得,並安排到了校內網工作,他倆說不定就要蹲監獄了,前程就全毀了。

 王小船接著說:“這是靜態網站的爬取,如果是優酷、朋友網的這種動態頁面,算法會相對複雜。可不管怎樣,這都是很基礎的工具。我們做搜索引擎,難點已經從複雜性變為規模量了。”

 周不器皺皺眉,“老馬……就是阿裡的那位。他跟我說,要屏蔽百度對淘寶的爬蟲,怎麽回事?”

 王小船笑道:“這事也簡單,爬蟲和網站之間有一個爬取協議,業內叫Robot協議。這個協議會聲明,該網站的哪些內容可以爬取,哪些內容不能爬取,並規定白名單裡的爬蟲可以爬取主頁內容。淘寶如果要屏蔽百度,只需要把百度的爬蟲加到黑名單裡就行了。”

 “嗯!”

 周不器點了點頭。

 這就是他想要的答案。

 爬蟲黑名單!

 王小船似乎看出了什麽,試探著說:“老板,你……你要對百度下手嗎?”

 周不器道:“我看了一下微知網的數據,過去3個月,有超過1.1億的訪問量,是來自百度。”

 王小船沒有驚喜,深吸了口氣,憂心忡忡的說:“微知的訪問量本來就不高,如果屏蔽了百度,流量就更低了。”

 周不器並不在乎,“微知不需要流量,微知需要的是優質內容。你都說了,百度的算法不如谷歌,很難通過簡單的數據處理完成對一些有深度內容的檢索,來爬取微知的內容,是簡潔途徑。有不少用戶都是通過百度來訪問微知,我們要斷了這條線!”

 王小船眨眨眼,“真要屏蔽嗎?”

 “當然。”

 “可Robot協議沒有法律效力。”

 “啥?”

 “這個協議,是一種行業約束,君子協定,不是法律條文。如果百度真想爬取微知的內容,完全可以通過技術手段跳過協議,強行爬取。”

 周不器若有所思,“君子協定啊……如果強行爬取,有違商業道德?”

 王小船點了點頭,“可以這麽理解。”

 心中深深的不以為然。

 商業道德?

 這東西是一層窗戶紙,一捅就破。

 “如果違反了怎麽辦?”

 “國外有過類似的案子,違反了協議,也被處罰了。因為法官認為這個協議雖不是法律條文,但作為廣泛被接受的行業規則,就應該被遵守。不過國內好像不太行。就像RSS聚合器似的,可以去各個網站上訂閱信息。網站拒絕了RSS訂閱,依舊可以通過技術手段強行訂閱。”

 周不器想了一下,語氣輕松,笑著說:“沒事,百度在美國上市,不敢玩的太出格。先這麽做吧,第一步,微知網屏蔽百度的爬蟲。你這邊也做準備,我打算一步步的、全面徹底的跟百度切割。”

 王小船睜大眼睛,“全都切割?”

 周不器淡淡地道:“對!”

 “這行嗎?”

 “你覺得切割了,對誰的危害更大?”

 “這……”

 王小船有些猶豫,不太好說。

 周不器冷冷的道:“紫微星不主動欺負別人,卻也不會任人欺負。百度從校內網挖了十幾個人,把一個滿建制的小組都給挖走了。不亮亮肌肉,李大老板以為我脾氣好,好說話呢!”

 都屏蔽了,當然對微點搜索最有利。

 可王小船格局沒這麽小,不認為這是個好主意,好心的提示一句,“咱們自身的利益也會受損。百度是最大的搜索引擎,是流量分發平台。”

 周不器卻很有信心,“平台的優勢是輕量級,劣勢是容易被人卡脖子。聯想電腦品牌這麽響,你知道聯想最怕什麽嗎?最怕微軟的系統授權和英特爾的芯片斷供。每一次發生分歧,都要支付一大筆錢。如果把百度比作聯想電腦,紫微星就需要成為最大的零配件供應商。微知、朋友網、校內網,接下來,我們還會有今日頭條和微博。比比看!”為了方便下次閱讀,你可以點擊下方的"收藏"記錄本次(第768章 爬蟲)閱讀記錄,下次打開書架即可看到!

喜歡《大時代之巔》請向你的朋友(QQ、博客、微信等方式)推薦本書,謝謝您的支持!!()
鍵盤左右鍵 ← → 可以切換章節
章節問題回報:
翻譯有問題
章節內容不符
章節內容空白
章節內容殘缺
上下章節連動錯誤
小說很久沒更新了
章節顯示『本章節內容更新中』
其他訊息