躲开搜索引擎的追捕
最近在 作品集 发了很多在公司完成的项目有关的文章,没有公开任何的技术细节,只是一些关于项目本身的评论和总结。
前几天在观察访客来路的时候,发现很多人是在搜索我们的客户时,却得到了我的网站。几个最近完成的项目,甚至我的页面就在结果第一位,比客户自己的网页都靠前。
百度 的这份深情,俺当然是万分荣幸,可是,心里也有些担心。如果客户搜索他们自己的名称,却发现第一个结果竟然是我的项目总结…………换了是我也一定会心里不舒服的 :(
于是想,现在的搜索引擎都在标榜自己的强大,但是有些内容,我们发布出来可能只是给特定人群,或是有特定目的的。警察抓逃犯,当然可以进门搜查,但要是到了军事禁区,那也得先请示首长不是。 我们应该有权利决定是否把内容进行推广。
今天好了,在 车东blog:利用robots.txt防止针对Movable Type的comments和backtrack ping SPAM 发现了解决的办法。
最简单的办法,修改meta tag就可以实现。
<meta name="robots" content="noindex,nofollow">
问题是这个必须写在<head>中,我只是想禁止搜索引擎检索部分文章,不可能更改模版,发布的时候又没有办法改<head>,不可行。
在 车东 推荐的 搜索引擎robots的禁爬 这篇文章中,还有关于robots.txt的详细用法说明。
可以被屏蔽掉的内容,可以是网站的某些目录,某些文件,也可以是整个网站。
还可以给某些搜索引擎的机器人开放特权:比如屏蔽掉GOOGLEBOT,只让BAIDUSPIDER来俺家 :P
具体的做法是,新建一个名叫robots.txt的文档,内容如下:
Disallow: /works/archives/000208.html # 蜂胶产品包装
Disallow: /works/archives/000362.html # EverGIP产品包装
当然还可以更多。 把这个文件放在网站的根目录下(和index文件在一起),就ok了。
以后发布了可以公开,但又不想太张扬的内容,就修改一下robots.txt就可以。
唯一的问题是不能作测试,究竟管不管用呢?
2 条评论
“你应该要求Google从其网站上删除某些信息。你应该进行进行检查。这种检查很简单,但却是值得的。”
--黑客利用Google作案? 复印资料威胁商业机密
前几天,百度推出了更多专业文档搜索的功能,这就让更多机密面临暴露的风险。
--对牛乱弹琴:所有的秘密都能搜到
