之所以把分析记录记录下来,是因为分析web-log的时候,确实是发现了一些问题。
首先是先找到蜘蛛访问时,响应状态为404的页面。打开链接,确定确实是404页面。
(1)先用尖叫青蛙扫描了一下网站,发现,这个404页面确实不在网站站上,这时候就有点郁闷了,网站上没有这个链接,googlebot是怎么找到这条链接呢?外链应该也不是。
(2)于是site:url。居然发现这个链接,居然还是索引了的。这说明,这个链接是真实存在过的。
(3)于是在网站后台,搜这个文章的标题,居然搜到了,同时也发现,连个文章的只是url不同,其他都一样。之所以url不同的原因,是因为换了一下栏目导致。主域名/栏目/文章标题/【url形式】
所以分析原因可能是因为编辑上传网站文章的时候,发现栏目上传错了,又修改了,所以才导致了这种情况。
(4)当然有些404的即没有索引,当前站点也找不到,这时候就不明白怎么回事了,但是有些是已经索引了,而当前展现也没有相关文章,于是搜一下此篇文章的标题,发现居然有索引且有排名,而且还本项目的其他网站。
所以这说明,可能是因为上传错站了,删了以后又上传到其他的网站上面。
针对此类情况:我们要做的就是,告诉编辑人员,必须要解决此类问题,上传到哪个站,就上传到哪个站点,上传到哪个类目就上传到哪个类目,上传之前一定要审核好。
继续分析404.为了方便查款404url,所以做了一个excel这样每个404url爬行的次数和时间就知道了。找到后,然后处理这些404。
为了知道了解每天蜘蛛爬行情况,所以复制了(每天)概况的数据。
总结:经过以上分析,基本确定每天蜘蛛的访问量,以及因为编辑失误导致的蜘蛛404相应状态页面。