久久青草精品A片狠狠,日韩欧美视频一区二区,亚洲国码AV日韩,国产精品黄在

幫助中心 >  技術知識庫 >  網站相關 >  網站運營 >  如何讓搜索引擎(百度)更好地收錄網站內容

如何讓搜索引擎(百度)更好地收錄網站內容

2016-05-23 09:42:48 9320

機器可讀

百度通過一個叫做Baiduspider的程序抓取互聯網上的網頁,經過處理后建入索引中。目前Baiduspider只能讀懂文本內容,flash、圖片等非文本內容暫時不能處理,放置在flash、圖片中的文字,百度無法識別。

建議使用文字而不是flash、圖片、Javascript等來顯示重要的內容或鏈接,搜索引擎暫時無法識別Flash、圖片、Javascript中的內容,這部分內容無法搜索到;僅在flash、Javascript中包含鏈接指向的網頁,百度可能無法收錄

建議:

  • 使用文字而不是flash、圖? 片、Javascript等來顯示重要的內容或鏈接。

  • 如果必須使用Flash制作網頁,建議同時制作一個供搜索引擎收錄的文字版,并在首頁使用文本鏈接指向文字版。

  • Ajax等搜索引擎不能識別的技術,只用在需要用戶交互的地方,不把希望搜索引擎“看”到的導航及正文內容放到Ajax中。

  • 不使用frame和iframe框架結構,通過iframe顯示的內容可能會被百度丟棄。

網站結構

網站應該有清晰的結構和明晰的導航,這能幫助用戶快速從你的網站中找到自己需要的內容,也可以幫助搜索引擎快速理解網站中每一個網頁所處的結構層次。

網站結構建議采用樹型結構,樹型結構通常分為以下三個層次:首頁——頻道——文章頁。象一棵大樹一樣,首先有一個樹干(首頁),然后再是樹枝(頻道),最后是樹葉(普通內容頁)。樹型結構的擴展性更強,網站內容變多時,可以通過細分樹枝(頻道)來輕松應對。

理想的網站結構應該是更扁平一些,從首頁到內容頁的層次盡量少,這樣搜索引擎處理起來,會更簡單。

同時,網站也應該是一個網狀結構,網站上每個網頁都應該有指向上、下級網頁以及相關內容的鏈接:首頁有到頻道頁的鏈接,頻道頁有到首頁和普通內容?的鏈接、普通內容頁有到上級頻道以及首頁的鏈接、內容相關的網頁間互相有鏈接。

網站中每一個網頁,都應該是網站結構的一部分,都應該能通過其他網頁鏈接到。

總結一下,合理的網站結構應該是一個扁平的樹型網狀結構。

建議:

  • 確保每個頁面都可以通過至少一個文本鏈接到達。

  • 重要的內容,應該能從首頁或者網站結構中比較淺的層次訪問到。

  • 合理分類網站上的內容,不要過度細分。

網站應該有簡明、清晰的導航,可以讓用戶快速找到自己需要的內容,同時也可以幫助搜索引擎更好的了解網站的結構。

建議:

  • 為每個頁面都加上導航欄,讓用戶可以方便的返回頻道、網站首頁,也可以讓搜索引擎方便的定位網頁在網結構中的層次。

  • 內容較多的網站,建議使用面包屑式的導航,這更容易讓用戶理解當前所處的位置:網站首頁 > 頻道 > 當前瀏覽頁面。通過面包屑導航,用戶可以很清楚的知道自己所在頁面在整個網站中的位置,可以方便的返回上一級頻道或者首頁也很方便。

  • 導航中使用文字鏈接,不使用復雜的js或者flash。

  • 使用圖片做導航時,可以使用Alt注釋,用Alt告訴搜索引擎所指向的網頁內容是什么。

子域名與目錄的選擇

選擇使用子域名還是目錄來合理的分配網站內容,對網站在搜索引擎中的表現會有較大的影響。

1. 在某個頻道的內容沒有豐富到可以當做一個獨立站點存在之前,使用目錄形式;等頻道下積累了足夠的內容,再轉換成子域名的形式。

一個網頁能否排到搜索結果的前面,“出身”很重要,如果出自一個站點權重較高的網站,那排到前面的可能性就越大,反之則越小。通常情況下主站點的權重是最高的,子站點會從主站點繼承一部分權重,繼承的多少,視子站點質量而定。

在內容沒有豐富到可以做為一個獨立站點之前,內容放到主站點下一個目錄中能在搜索引擎中獲得更好的表現。

2. 內容差異度較大、關聯度不高的內容,使用子站點形式。

搜索引擎會識別站點的主題,如果站點中內容關聯度不高,可能導致搜索引擎錯誤的識別。關聯度不高的內容,放在不同的子域名下,可以幫助搜索引擎更好的理解站點的主題。

3. 域名間內容做好權限,互相分開,a. example.com下的內容,不能通過b. example.com訪問。

子域名間的內容可以互相訪問,可能會被搜索引擎當做重復內容而進行除重處理,保留的url不一定是正常域名下的。

4. 不要濫用子域名。

無豐富內容而濫用大量子域名,會被搜索引擎當做作弊行為而受到懲罰。

規范、簡單的url

創建具有良好描述性、規范、簡單的url,有利于用戶更方便的記憶和判斷網頁的內容,也有利于搜索引擎更有效的抓取您的網站。網站設計之初,就應該有合理的url規劃。

1. 網站中同一網頁,只對應一個url。如果網站上多種url都能訪問同樣的內容,會有如下危險:

  • 搜索引擎會選一種url為標準,可能會和正版不同。

  • 用戶可能為同一網頁的不同url做推薦,多種url形式分散了該網頁的權重。

如果你的網站上已經存在多種url形式,建議按以下方式處理:

  • 在系統中只使用正常形式url,不讓用戶接觸到非正常形式的url。

  • 不把Session id、統計代碼等不必要的內容放在url中。

  • 不同形式的url,301永久跳轉?正常形式。

  • 防止用戶輸錯而啟用的備用域名,301永久跳轉到主域名。

  • 使用robots.txt禁止 Baiduspider 抓取您不想向用戶展現的形式。

2. 讓用戶能從url判斷出網頁內容以及網站結構信息,并可以預測將要看到的內容。

3. URL盡量短。

長長的URL不僅不美觀,用戶還很難從中獲取額外有用的信息。另一方面,短url還有助于減小頁面體積,加快網頁打開速度,提升用戶體驗。

4. 正常的動態url對搜索引擎沒有影響。

url是動態還是靜態對搜索引擎沒有影響,但建議盡量?少動態url中包含的變量參數,這樣即有助于減少url長度,也可以減少讓搜索引擎掉入黑洞的風險。

5. 不添加不能被系統自動識別為url組成部分的字符。

改版/換域名

網站改版、換域名在互聯網飛速發展的情況下是不可避免的,但處理不當,會造成重大的流量損失。

改版、換域名需要考慮的第一要點就是如何保證老用戶不流失,當用戶訪問舊內容時,能引導用戶到新網站上對應的內容,避免出現用戶訪問不到以前收藏的網頁的情況。

我們建議在改版或者換域名時,將舊網頁301永久重定向到內容對應的新網頁,這樣百?更容易發現這個轉變,并迅速的將舊網頁積累的權值傳遞給對應的新網頁。

  • 如非必要,不要做整站內容的完全更換。網站改版或者網站內重要頁面鏈接發生變動時,應該將改版前的頁面301永久重定向到改版后的對應的頁面

  • 網站更換域名,應該將舊域名的所有頁面301永久重定向到新域名上對應的頁面。網站更換域名后,維持舊域名能穩定訪問盡可能長的時間,給用戶多一些時間記憶新域名。

  • 網站改版/更換域名后,請把新的URL/新域名下的URL,通過sitemap提交給百度,幫助百度更?發現和作出調整。

合理的返回碼

百度爬蟲在進行抓取和處理時,是根據http 協議規范來設置相應的邏輯的,所以請站長們也盡量參考http 協議中關于返回碼的含義的定義來進行設置。

百度spider 對常用的http 返回碼的處理邏輯是這樣的:

1. 404

404返回碼的含義是“NOT FOUND”,百度會認為網頁已經失效,那么通常會從搜索結果中刪除,并且短期內spider再次發現這條url也不會抓取。

2. 503

503返回碼的含義是“Service Unavailable”,百度會認為該網頁臨時不可訪問,通常網站?時關閉,帶寬有限等會產生這種情況。對于網頁返回503,百度spider不會把這條url直接刪除,短期內會再訪問。屆時如果網頁已恢復,則正常抓取;如果繼續返回503,短期內還會反復訪問幾次。但是如果網頁長期返回503,那么這個url仍會被百度認為是失效鏈接,從搜索結果中刪除。

3. 403 

403返回碼的含義是“Forbidden”,百度會認為網頁當前禁止訪問。對于這種情況,如果是新發現的url,百度spider暫不會抓取,短期內會再次檢查;如果是百度已收錄url,當前也不會直接刪除,短期內同樣會再訪問。屆時如果網頁允許訪問,則?常抓取;如果仍不允許訪問,短期內還會反復訪問幾次。但是如果網頁長期返回403,百度也會認為是失效鏈接,從搜索結果中刪除。

4. 301

301返回碼的含義是“Moved Permanently”,百度會認為網頁當前跳轉至新url。當遇到站點遷移,域名更換、站點改版的情況時,推薦使用301返回碼,盡量減少改版帶來的流量損失。雖然百度spider現在對301跳轉的響應周期較長,但我們還是推薦大家這么做。

建議:

  • 如果站點臨時關閉,當網頁不能打開時,不要立即返回404,建議使用503狀態。503?以告知百度spider該頁面臨時不可訪問,請過段時間再重試。

  • 如果百度spider對您的站點抓取壓力過大,請盡量不要使用404,同樣建議返回503。這樣百度spider會過段時間再來嘗試抓取這個鏈接,如果那個時間站點空閑,那它就會被成功抓取了。

  • 有一些網站希望百度只收錄部分內容,例如審核后的內容,累積一段時間的新用戶頁等等。在這種情況,建議新發內容暫時返回403,等審核或做好處理之后,再返回正常狀態的返回碼。

  • 站點遷移,或域名更換時,請使用301返回碼。


提交成功!非常感謝您的反饋,我們會繼續努力做到更好!

這條文檔是否有幫助解決問題?

非常抱歉未能幫助到您。為了給您提供更好的服務,我們很需要您進一步的反饋信息:

在文檔使用中是否遇到以下問題: