躲开搜索引擎的追捕

4:13 PM  /  woody  /  评论(2)  /  引用(0)   /  之前 之后

最近在 作品集 发了很多在公司完成的项目有关的文章,没有公开任何的技术细节,只是一些关于项目本身的评论和总结。
前几天在观察访客来路的时候,发现很多人是在搜索我们的客户时,却得到了我的网站。几个最近完成的项目,甚至我的页面就在结果第一位,比客户自己的网页都靠前。

百度 的这份深情,俺当然是万分荣幸,可是,心里也有些担心。如果客户搜索他们自己的名称,却发现第一个结果竟然是我的项目总结…………换了是我也一定会心里不舒服的 :(

于是想,现在的搜索引擎都在标榜自己的强大,但是有些内容,我们发布出来可能只是给特定人群,或是有特定目的的。警察抓逃犯,当然可以进门搜查,但要是到了军事禁区,那也得先请示首长不是。 我们应该有权利决定是否把内容进行推广。

今天好了,在 车东blog:利用robots.txt防止针对Movable Type的comments和backtrack ping SPAM 发现了解决的办法。

最简单的办法,修改meta tag就可以实现。
<meta name="robots" content="noindex,nofollow">
问题是这个必须写在<head>中,我只是想禁止搜索引擎检索部分文章,不可能更改模版,发布的时候又没有办法改<head>,不可行。

车东 推荐的 搜索引擎robots的禁爬 这篇文章中,还有关于robots.txt的详细用法说明。

可以被屏蔽掉的内容,可以是网站的某些目录,某些文件,也可以是整个网站。
还可以给某些搜索引擎的机器人开放特权:比如屏蔽掉GOOGLEBOT,只让BAIDUSPIDER来俺家 :P

具体的做法是,新建一个名叫robots.txt的文档,内容如下:

User-agent: *
Disallow: /works/archives/000208.html # 蜂胶产品包装
Disallow: /works/archives/000362.html # EverGIP产品包装

当然还可以更多。 把这个文件放在网站的根目录下(和index文件在一起),就ok了。
以后发布了可以公开,但又不想太张扬的内容,就修改一下robots.txt就可以。

唯一的问题是不能作测试,究竟管不管用呢?

类别: view
引用地址: /cgi-bin/mtcgi/mt-tb.cgi/78.
关于我   /   文章汇整   /   留言汇整
我们的世界
并不像你说的 真有那么坏
你又何必感慨
用你的关怀 和所有的爱
为这个世界 添一些美丽色彩