移除 Google 的 index



remove_url_form_google 自從上次使用 robots.txt 擋掉一堆重複或不需要給 search engine 看到的 URL 後, 最近流量少了很多. 不過還是有個問題, 之前已經給 Google 索引過的網頁還是會被找到, 剛好最近 Google Webmaster 提供了移除網頁的新功能. 看了一下, 我目前會擋掉 Google 的檢索錯誤大約是六千多頁 (很誇張吧, 重複的超多的)

remove_url_form_google_2 移除的部份, Google 提供了4種方式. 1. 個別 URL 2. 您網站上的目錄及所有子目錄 3. 您的整個網站 4. Google 搜尋結果的快取副本. 實際測試的結果, 資料送出後, 幾小時就開始執行了. 網站上有提到網頁移除一次只能輸入 100 個, 測試了一下發現所謂 100 的限制並不是說只能移除 100 個, 而是說每輸入 100 個, 就得 submit 一次, 然後就可以繼續輸入了.

幾個缺點:
1. 沒有 batch 輸入或 wild card 功能. 單一目錄的部份, 一個一個敲要敲到什麼時候啊. 所以我只輸入了幾個測試一下.
2. "網頁檢索錯誤"報告的部份似乎沒有很 sync, 單一網頁移除後, 通常在報告沒多久就看不到了. 可是目錄移除的話, 目前測試是一個星期過去了, 還是看得到 (不過用 Google Search 是找不到了啦).
3. 感覺他拒絕的地方應該有些 bug, 明明就在 Google 的網頁檢索報告寫 " 受 robots.txt 限制的 URL", 但是移除時還是被拒絕. 整個網站移除也是, 我有個網站在 robots.txt 設定 User-agent: *
Disallow: /*, 但移除也是被拒絕, 真是的 ...

那萬一移錯了怎麼辦? 在 180 天內還是可以復原的
http://www.google.com/support/webmasters/bin/answer.py?answer=59833

延伸閱讀:
Requesting removal of content from our index