robots.txt 使用

2007-05-18 09:45:07 哇哇 0 0

之前在網誌中寫過兩篇ㄑㄧˊㄎㄜㄉㄧㄢˋㄋㄠˇ的相關文章,google和yahoo的搜尋引擎也很老實的把結果輸出在第一頁,雖然說我覺得我寫的內容很坦然,而且更覺得褒多於貶,但是搜尋結果對ㄑㄧˊㄎㄜ而言對招生會造成影響。昨天他們資深的紅牌櫃台小小的跟我抱怨哩一下,說常常有學生都會說起我部落格內的文章,想也知道造成甚麼影響。我能清楚知道我寫過什麼,但是我不能預期別人看到文章後怎樣解讀,影響到別人招生當然不好,更何況我也是從那裏出來的。

就因如此,我要首次體驗一下robots.txt到底是怎樣使用囉,機器人來我家已經來過太多太多次,每個月都撈走上G的資料,到底有啥好撈我也不太清楚,四月的機器人紀錄如下:
31 個漫遊器*點擊數位元組最近參觀日期
Yahoo Slurp411513.83 GB2007年 4月 30日 23:59
Unknown robot (identified by 'spider')235022.18 GB2007年 4月 30日 23:59
EchO!22340328.09 MB2007年 4月 30日 23:58
Googlebot163951.31 GB2007年 4月 30日 23:51
Google AdSense103141022.38 MB2007年 4月 30日 23:57
MSNBot7575526.70 MB2007年 4月 30日 23:59
BaiDuSpider1932174.28 MB2007年 4月 30日 22:42
Unknown robot (identified by 'crawl')1175107.19 MB2007年 4月 25日 22:45
Feedfetcher-Google82761.79 MB2007年 4月 30日 23:41
Bloglines47827.12 MB2007年 4月 30日 22:53
其他2285125.51 MB
既然都看到哩機器人會來,那就試著寫一個robots.txt來爭對ㄑㄧˊㄎㄜ的文章做一個排除搜尋的動作,效果到底會怎樣我也不太能確定。

目前的寫入的robots.txt如下
User-agent: *
Disallow: /700
Disallow: /311
目前讓我疑慮的是他是否會把我兩個Disallow當成是目錄,一般來說目錄應該要再加一個/;在來就是已經上榜的搜尋,是否又會因此而下架呢?

提供我所參考robots.txt的資料:
http://www.robotstxt.org/wc/norobots.html#examples
http://blog.sklin.tw/2006/08/26/16/
http://www.seo.list.tw/2007/04/13/sitemap/
http://www.baidu.com/search/robots.html
http://www.kseo.cn/post/robotstxt.html
還有一個最重要得當然就是google的網站管理員
裡面也提供哩測試robots.txt的工具
雖然我得知哩測試結果,但是我也不太確定我是否能達成目的
URL 結果
URL Googlebot
http://easylife.tw/ 允許的
偵測到目錄,特定檔案有不同的限制
阿這個到底是啥意思@@

最後,再提出一點,應該是robots.txt而非robot.txt,搜尋robot.txt還是可以看到很多資訊,但是在我的判斷之下,robots.txt似乎才是目前正確的使用。
更多資訊請參考:
最新超值旗艦機開箱
比螺旋燈泡還省電的迷你 NAS
26800mAh筆電行動電源