页面重复内容过多的解决办法和几个关于网页去重的算法

蓝仁页面重复内容过多的解决办法和几个关于网页去重的算法已关闭评论条评论 336 次浏览

页面重复内容过多的解决办法:https://support.google.com/webmasters/bin/answer.py?hl=zh-Hans&answer=66359

没错,就是google网站站长指南里的文章,google清楚的表明了重复内容的处理办法,这里只摘取一二,更多内容自己逐字逐句的读吧。

1:最大限度地减少重复的样板文字:例如,不在每个网页的底部添加冗长的版权文字,而只添加一段简短摘要,然后链接到能够提供详细信息的网页。此外,您还可以使用参数处理工具指定您希望 Google 如何处理网址参数。

2:避免发布空白内容:用户不喜欢看到“空白”的网页,因此请尽量避免使用占位符。例如,请勿发布尚无实际内容的网页。如果您确实创建了占位符页,请使用 noindex 元标记阻止搜索引擎将这些页编入索引。

网页去重的算法:

Shingling算法

I-Match算法

SimHash算法

SpotSig算法

这几个算法在看,一时半会也没深刻理解,各位自行google搜索(别用百度,不然你还是得用google)。