2012年5月5日 星期六

網站優化內容篇-搜尋引擎對重複性內容判讀的效率分析

在廣大的網海之中,這麼多由網站設計公司所設計產出或blog媒體等資訊的重覆是在所難免的。然而,搜尋引擎是如何識別重複資訊呢?又如何判斷哪些網頁資訊是原創的,哪些是複製的呢?又如何判斷哪些重複資訊對搜尋者而言是有價值的,哪些是可以捨棄的呢? 就由我們說明如下:

基本上,資訊的重覆主要包括以下兩種類型:

(1)轉載內容:是針對那些與原創網頁的正文內容(BODY TEXT)相同或相近的網頁
(2)鏡射內容:內容完全相同的網頁互為競設網頁>

就以上所述可知,所有搜尋引擎優化公司在進行SEO內容工作時,要全盤了解搜尋引擎在進行網頁分析時候的內容判讀原則,搜尋引擎本身就一定要具備重覆資訊的辨識技術能力,否則不管是Google、Yahoo或Bng都需要建構出龐大的伺服器硬碟空間來儲存這些巨量網頁資訊,並且還會拉長搜尋者搜尋網頁資訊的時間,進而降低使用者的友善度。基本上搜尋引擎認為轉載內容不如原創內容重要,並賦予原創內容更高的權重,而鏡射內容幾乎都忽略。

至於搜尋引擎要識別網站之間是否互為鏡射網站,首先是判斷這些網站的主頁與主頁面上的導出連結目的網頁,是否互為鏡射網頁。如果是,那就是互為鏡射網站,接著再針對綜合多項因素(比如:網站Page rank值,建立時間...等)識別出哪一個是原創網站,哪一個是鏡射網站,以後擷取網頁時候就集中在原始網站中進行蒐錄擷取,而針對鏡射網站則只收錄極少的網頁,甚至不收錄。

所以喜歡全文copy其他網站本文的偷懶的網頁維護者,切記不要讓你的網頁成為鏡射網頁喔!如果是這樣整體網頁設計花費的成本,就前功盡棄了

沒有留言:

張貼留言