July 13, 2007
再再谈恼人的“重复内容”
新开的谷歌中文网站管理员官方博客果然起到了一些作用,至少我之前由于语言的原因没有注意到Google官方对重复内容的说法,建议大家都去看看。
其实我最近又陷入了“重复内容”这个问题当中,虽然我使用了一系列的手段来避免生成过多重复内容并力求消除重复内容数,包括在设计WordPress主题时只允许在单篇文章页面才显示全文(当然我的RSS也是全文, 不过跟这个没关系),在robots.txt中加入了对一些在主题层次上难以避免的重复内容的禁止索引等等,但看上去这些方法并不如同我想象中那么有效。(具体的方法我之前有介绍,不过我没有使用在页面中加入元标签的方法。)
在Google中搜索site:hellobmw.com可以看到,目前收录页面数为1,120。这个数字相对来说已经不算少了,但是这其中却包含了相当一部分的重复内容——在搜索结果中反映为“补充材料”或“Supplemental Result”——这个数字的确比较惊人:676。重复内容已经占到了总收录结果的60.4%!而之前一段时间可能曾经是580,总之一定比现在要少,那么说明我采取的减少重复内容的方法是无效的,或者是Google索引还没来得及更新。不过我宁愿相信是自己的问题,因为我曾经试过从Google搜索结果中去除某些内容,而相应的效果不到一天时间就有了,Google的机器人是勤恳的。
再来看看E-Space的情况,hhalloyy同学使用的方法正是在页面中加入元标签。用Google搜索site:e-spacy.com,能看到目前的索引数为3,260,这个数量与之前的相比还是减少了很多的,在hhalloyy添加noindex之前,索引数为8000+。这说明添加元标签的方法的确在减少索引量方面立杆见影,至少把搜索结果中大堆不想见到的Tag页面及分页页面扫干净了。那么这些剩余的索引中有多少是属于重复内容呢?1600,占到了总量的50%。
有同学可能会问了,重复内容有什么不好吗?不就是显示个“补充材料”?对,正是因为在Google搜索结果中显示为“补充材料”,意味着这些内容正在被Google降权,下一步就是过滤。这已经非常糟糕了,千万不要不当回事。想想看,你辛辛苦苦写出来的内容被认为只是别人内容的重复而降一等级,搜索同一个关键字,没准一篇比你烂的文章排在你之前,甚至于你的文章根本就不出现在结果里。这用“欲哭无泪”来形容挺恰当吧。
那么是不是所有的网站都有重复内容呀?答案当然是肯定的。无论你怎么做,都避免不了产生一定的重复内容。最重要的是看网站管理员自己怎么去积极主动处理了。拿两个著名的博客为例:Problogger(PR为5)和John Chow(PR为6),前者被Google收录了4,470个页面,补充材料有多少呢?1,720个。而John Chow被收录了2,950个页面,补充材料非常不可思议,多达2,150个。造成的后果不容小视,在英文Google.com中搜索“Make Money Online”这个曾经是John Chow最得意的关键字,发现Problogger排名第9,原来一直排在第1位的John Chow哪里去了?呃,第56位。John Chow本人也非常纳闷(原帖一时找不着了,后悔没记下来地址),并貌似因此中断了一项活动。
从上面这些数据中足以看出Google对搜索结果排名(SERP)的算法的复杂性和公平性,那种以为PageRank越高、排名就越靠前的观点是多么荒唐啊。同时也能看出“重复内容”危害的严重性,所以我才急啊,一定要找到种有效的方法把这项指标降下来!
对了,末了顺便给谷歌中文网站管理员博客提点建议,在WordPress中使用%postname%做permalink,一定要使用英文post slug,包含汉字对搜索引擎极其不友好,Google是不会收录的,不知道自家的blog会不会例外。

如何查看补充内容?我的怎么没有看到呢?
呵呵,你已经总结了哦
。
效果还是很明显的,至少我Blog中那些Tag页面的索引全没了。
补充内容在搜索结果中会被标记为”补充材料”
是呀, 有一天我对你的网站搜索的时候大吃一惊, 一天之内少了几千个页面.
很好的思路,减少网站自身页面内容才重复度,减少了“补充材料”的出现。
“补充材料”不单是duplicate的造成的。
调整网站整体结构,也应该会有帮助。
你的网站tag page 数量超过了archives page 的数目。。。
另外,从网站内部降低“重复”是一方面。
提高页面在外部“重复”内容的竞争下胜出,可能同样重要!
你的seo做的很好