海报网网站结构分析

蓝仁海报网网站结构分析已关闭评论条评论 485 次浏览

建议各位浏览本帖的时候先对海报网做个简单的了解吧:www.haibao.cn

海报网的基本情况

PR=7,alexa在3000左右,百度收录只有84W,但在进行栏目查询的时候,发现海报网的实际收录远远不止84W,详情如下:

网站:site:haibao.cn   84W

博客:site:haibao.cn inurl:blog  62.5W

社区:site:haibao.cn inurl:forum  37W

信息: site:haibao.cn inurl:article 193W

图片:site:haibao.cn inurl:pic 10W  百度图片检索:site:haibao.cn 50W

明星:site:haibao.cn inurl:star 5W

品牌:site:haibao.cn inurl:brand 5W

会员:site:haibao.cn inurl:user 30W
由此可见,百度site查询的数值的确不准确,个人推测,site查询出来的页面数量是参与排名的,而已收录site却查询不出来的页面则不参与排名。

目录结构分析

网站只有一级栏目:服饰风尚,美丽达人等这些,而像颁奖典礼,街拍等这些URL中包含关键字的则为网站的标签(也就是关键字),在标签中,也是有等级的,有的标签只是一级,有的标签则还包含其他的标签;网站主要有三部分,信息,博客,社区,这三部分使用的的是一套标签,现在就来看看了解一下这个网站的结构吧。

信息部分,包扩:信息索引,图片索引,明星索引和品牌索引

海报网信息部分结构

信息索引 信息就发布在网站的1级栏目和栏目下的关键字分类中,一级栏目的列表页同时有一级栏目的博客和图片的链接,标签列表页面则有同一标签的图片,博客,帖子的链接,内容页面只有相关标签博客的链接。

图片索引 http://www.haibao.cn/pics/center/ 图片也是围绕着1级栏目和栏目下的关键字分类组成,比较奇怪的是图片中心的页面采用了框架,而且每个分类下面也是框架,不知是出于什么原因考虑。

明星索引 http://www.haibao.cn/star/all/ 网站提供了三种索引方式:最新的明星,粉丝最多的明星,按字母A-Z的方式索引,并且,每个明星的页面都和每个明星页面互相链接。

品牌索引 http://www.haibao.cn/brand/all/new/ 与明星索引一样,网站提供了三种索引方式:最新的品牌,粉丝最多的品牌,按字母A-Z的方式索引,并且,每个品牌的页面都和每个品牌页面互相链接。

每条信息所产生很多分页和图片的页面,假设这条信息有7张图片,那么他的分页也会有7个,也就是说一条信息如果包含7张图片,那么他会有14个页面,但是14个页面都只有一个相同的页面标题,这种重复标题会让面的权重分散,以至于页面的排名不是很理想,手工抽查了10个页面标题在百度上的排名,总是看到转载信息的网站排名优于海报网的页面,这点就不多说了,如果大家有兴趣,可以自行分析一下,今天主要分析他的网站结构。

博客部分

海报网博客结构

海报网的博客系统不是指用户的博客,而是指海报网订阅的用户的站外博客,并索引过来的博客文章,说直白一点就是RSS博客采集,然后匹配到自己的栏目和标签中去,这是增加原创文章一大来源啊,以汇聚用户站外博客之名,行采集之事,既增加了用户的粘性,又增加了网站的内容……一举多得啊,顺便说一下:这是个增加外链的好地方(如果你是时尚类的网站,千万不要错过这个增加外链的好地方哦)。

博客

因为页面内容都是采集来的,质量得不到保证,所以海报网并没有设置博客信息的聚合页,只有博客信息的栏目页,因此在整个网站结构中,博客系统中的信息页面的权重是比较低的,这也是造成博客信息收录不是很好的原因吧。 

社区部分,包括:帖子索引,用户索引,衣橱索引,迷你博客和相册索引

海报网社区结构

帖子索引  这块没有什么可说的,依旧是按照网站的栏目和标签来分类的。用户索引  所有网站用户的索引页,拥有注册用户60W,每个用户都有自己的主页,主页同时聚合用户的帖子,用户的好友,用户喜欢的品牌和明星,用户的相册和衣橱;相对于博客,品牌,明星,相册,衣橱的链接,又增加一个蜘蛛爬取的路径。 

衣橱索引  所有用户的衣橱,衣橱是用户相册的一个应用。

迷你博客  所有用户发布的迷你博客(其实就是类似于微博的几句话)。

相册索引  所有用户的相册。

对海报网网站结构分析的总结

海报网网站结构

1.独特的栏目+标签网站结构,整个网站的只有一级栏目,每个栏目下面都有一套标签,标签之间还有上下级关系,信息(其中包括,图片,明星,品牌),博客,社区都围绕着栏目和标签进行分类聚合,不仅页面的相关性高,而且方便调用;这也充分考虑了网站的持续发展,灵活性高,我能观察到的旧页面是2007年的海报网首页,到现在有4年多了,她的网站结构和页面几乎没有发生过什么变化,我想这也是她关键词排名好的一部分原因。2.充分利用信息内容,为页面组织不同的索引,信息部分中,明星和品牌都提供了三种索引方式,最新,最热和全部(A-Z的查询方式)三种索引,对同样的信息有三种不同维度的索引,毫无疑问,相比传统的索引方式搜索引擎蜘蛛的抓取量会更大一些。(这种索引方式一定程度上可以解决网站的收录问题) 

3.大量的标签页。如果只点击一级栏目,你会发现这个列表页有几百页,这会造成很多页面藏的很深,被搜索引擎蜘蛛抓取到的几率会小,海报网众多的标签页将一个栏目的几百的列表页细分成了只包含几十个页面的列表页,这为蜘蛛对深层页面的抓取提供了帮助。

4.优化网站结构的小细节。在图片页面,明星页面,品牌页面,衣橱页面,相册页面,这些页面中,每个页面都有上一篇,下一篇类似的链接,也就是说,顺着上一篇和下一篇链接,就可以浏览完所有的页面,这也为蜘蛛爬取页面增加了路径,收录不是很好的朋友们,可以参考一下这个小技巧。

上一篇下一篇

分析之外的心得和体会

1.抽查海报网收录量的时候发现,海报网信息的收录率为80%左右,与天涯论坛和我负责的网站大致相同,也就是说,一些做过优化的网站收录率基本都在80%——90%之间,排除百度蜘蛛的技术问题,也就是说网站再做SEO还是有空间的。

2.一类信息多种索引的应用,让我思维放开了不少,而且多种信息的浏览方式也为用户提供了不同的选择,一举两得。

3.对海报网的CMS系统很好奇,怀疑是不是国外的CMS,文章快写完的时候随便试探了一下,发现他们的CMS果然是国外的,叫Django,如果有兴趣的朋友可以深入了解一下,然后分享分享这个CMS的使用心得哈~

4.分析过程中发现了很多细节,因内容关系无法一一表述,如果各位童鞋有什么问题请留言,我会尽快回复。

网站结构分析上一篇:20W页面的网站结构调整实战经验分享