應該關注的主題:巧妙地處理內容複製 - SEO搜索排名專家

什麼是內容重複?

重複的內容一般是指在不同功能變數名稱間存在大量的相同或相似的內容。很多時候,它並非故意或至少本無惡意。譬如說,有些論壇會生成一些專為手機螢幕顯示設計的頁面;商店物品被顯示在(有時甚至是鏈結到)多種不同的 URL 上,等等。但有些時候,一些網站為了操縱搜索引擎排名,獲得更多流行或長尾查詢的訪問量,大量地從其他網站複製內容。

什麼不是重複內容?

雖然谷歌網站有方便易用的翻譯功能,我們的演算法不會把有著相同內容的英文版和西班牙文版看作內容複製。同樣,你不用擔心我們把你文章中對其他文章小片段的引用認定為重複內容。

為什麼谷歌關心重複內容?

谷歌用戶使用 Google 時通常希望看到多樣化的原創內容。如果他們找到的都是內容相同的一堆搜索結果,可以想見那是多麼煩人。另外,網站管理員不願意看到 Google 給出象example.com/contentredir?value=shorty-george?=en 一樣複雜的 URL 。他們往往更喜歡類似example.com/en/shorty-george.htm URL

谷歌做了些什麼?

Google 在抓取網頁和獲得搜索結果時,總是力圖索引並顯示內容不同的頁面。這種過濾意味著,譬如說,如果你的網站有文章的正常版和列印版,並且你沒有在 robots.txt 裏設定 noindex 標記,穀歌就只會選擇一個版本顯示給穀歌用戶。對於企圖利用複製內容來操控排名,欺騙谷歌用戶的少數情況,我們會對相關頁面的索引和排名作出適當調整。當然,我們更願意把重點放在過濾而不是排名調整上,因此,在絕大多數情況下,最壞的結果就是原創者看到了不願看到的版本出現在我們的索引裏。

網站管理員如何主動處理內容複製問題?

* 適當阻止搜索引擎訪問:與其讓我們的演算法來確定一個檔案的“最佳”版本,你也許希望指引谷歌選取你的首選版本。譬如說,如果你不想我們索引你網站文章的列印版,你可以在你的 robots.txt 檔中寫上目錄名或正則運算式來禁止谷歌對那些列印版的抓取。

* 使用 301 重定向:如果你已經重構你的網站,請在你的原網站的 .htaccess 中使用 301 重定向(永久性重定向)來重定向你的用戶、Google 爬蟲以及其他搜索引擎蜘蛛等。

* 鏈結要一致:努力使你的內部鏈結保持一致, 不要既有 /page/ ,又有 /page /page/index.htm 的內部鏈結。

* 使用頂級功能變數名稱:為了讓我們總是使用最合適的檔版本,請盡可能使用國家特定的頂級功能變數名稱。與諸如 example.com/de de.example.com URL 相比,谷歌肯定更清楚地知道 example.de 是以德文為核心的內容。

* 小心辛迪加式的聯合供文:如果你為其他網站上也提供你的內容,請在每一個其他網站的文章中包括連回原文章的鏈結。注意:即使是這樣,對一個查詢,穀歌總是顯示我們認為是最適合的(沒被網站禁止的)版本,它可能是也有可能不是你所想要的版本。

* 使用谷歌網站管理員工具的首選域功能: 如果其他網站鏈結你的 URL時 既使用 www 版本又使用無 www 的版本,你可以用谷歌網站管理員工具讓我們知道你想要哪種索引方式。

* 減少範本網頁上的重複內容:拿版權聲明來說,你有兩種選擇,一種是在你的每一個頁面底部都有一個冗長的版權聲明;另一種是設立一個專門的版權詳細聲明頁,然後在每頁底部寫一個非常簡短的總結,並鏈結到版權聲明頁。

* 避免發佈無內容頁:用戶不喜歡看到無實際內容的頁面,要儘量避免空架頁。以房地產網頁為例,不要發佈(或至少要阻止)沒有點評的點評網頁,或者沒有房地產列表的房地產羅列網站等。只有這樣,網站用戶(以及 Google 爬蟲)才不會看到無窮多的寫著“以下是在【某城市名】中不可錯失的待租房列表……”但其實根本沒有什麼列表的網頁。

* 瞭解你的內容管理系統:確保你熟悉你的網站是怎樣顯示內容的,尤其是當它包括了博客、論壇或相關的系統。往往在這些系統中同一內容會以多種形式出現。

* 不要擔心,保持快樂:不要過分受搜刮(挪用和轉載)你的內容的站點干擾。雖然很惱人, 它們幾乎不可能對你在谷歌中的存在產生負面影響。如果你實在忍無可忍, 歡迎你提出千禧年著作權法案申請來聲明對你的內容的所有權,我們會處理那些無賴網站。

總之,如果你對內容複製問題有一個大體的認識,又能花上幾分鐘有見地地預防性維護一下你的網站,這將既幫助你們,也幫助我們為用戶提供獨特而相關的內容。