公告:网站目录为广大站长提供免费收录网站服务,VIP会员每天提交网站30、文章30免审核,快审服务(10元/站),可自助充值发布。

点击这里在线咨询客服 点击这里在线咨询客服
新站提交
  • 网站:14552
  • 待审:0
  • 小程序:12
  • 文章:585
  • 会员:49

百度蜘蛛什么时候抓取我们的网站频繁,我们需要什么时候更新内容?可以通过我们的服务器IIS日志可以简单的分析出来,下面给大家介绍几点通过IIS日志分析出的网站问题。

一、IIS日志的重要作用

1.通过IIS日志可以了解蜘蛛对网站的基本爬取情况,可以知道蜘蛛的爬取轨迹和爬取量,通过我们的IIS日志,外链的多和少和网站蜘蛛的爬取量是有直接影响的,我们所说的链接诱饵就是如果你做了一个外链,蜘蛛在爬取这个外链页面并把页面放出来时,蜘蛛可以通过你留的这个链接来爬取你的网站,而IIS 日志正是会记录下蜘蛛的这次爬取行动。

2.网站的更新频率也和IIS日志中蜘蛛抓取的频率有关,一般来说更新频率越高,蜘蛛的抓取频率越高,而我们网站的更新不仅仅只是新内容的添加同时还有我们的微调操作。

3.我们可以根据IIS日志的反应情况,对我们的空间的某些事情和问题提前进行预警,因为服务器如果出问题的话在IIS日志中会第一时间反映出来,要知道服务器的稳定速度和打开速度两者都会直接影响我们的网站。

4.通过IIS日志我们可以知道网站的那些页面是很受蜘蛛欢迎的,而哪些页面是蜘蛛连碰都不去碰的,同时我们还能发现有一些蜘蛛由于是过度爬取对我们的服务器资源损耗是很大的,我们要进行屏蔽工作。

二、如何下载日志及日志设置注意事项

1.首先我们的空间要支持IIS日志下载,这一点是很重要的,在我们购买空间之前必须要先问好支不支持IIS日志下载,因为有的服务商是不提供这项服务的,如果支持的话空间后台一般都有日志WebLog日志下载这个功能把它下载到根目录在用FTP传到本地就可以,服务器的话可以设置将日志文件下载到指定路径。

2.这里有个很重要的问题,IIS日志强烈建议设置成每小时生成一次,小型的企业站和页面内容较少的网站可以设置成一天,它默认是一天,如果内容多或者大型站设置成一天生成一次,那么一天只生成一个文件,这个文件会相当的大,我们有时电脑打开是会造成死机,设置的话找空间商协调设置即可。

三、IIS日志的分析

1.日志的后缀名是log的我们用记事本打开,选择格式里的自动换行这样看起来方便,同时用搜索功能搜索BaiduSpider和Googlebot这两个蜘蛛。

例如:

百度蜘蛛

2012-03-1300:47:10W3SVC177116.255.169.37GET/-80-220.181.51.144Baiduspider-favo+(+baidu/search/spider)2000015256197265?

谷歌机器人

2012-03-1308:18:48W3SVC177116.255.169.37GET/robots.txt-80-222.186.24.26Googlebot/2.1+(+google/bot)2000098520031?

我们分段来解释

2012-03-1300:47:10蜘蛛爬取的日期和时间点

W3SVC177这个是机器码这个是惟一的我们不去管它

116.255.169.37这个IP地址是服务器的IP地址

GET代表事件

GET后面就是蜘蛛爬取的网站页面,斜杠就代表首页

80是端口的意思

220.181.51.144这个IP则是蜘蛛的IP,这里告诉大家一个鉴别真假百度蜘蛛的方法,我们电脑点击开始运行输入cmd打开命令提示符,输入nslookup空格加蜘蛛IP点击回车,一般真百度蜘蛛都有自己的服务器IP而假蜘蛛则没有。

如果网站中出现了大量的假蜘蛛则说明有人冒充百度蜘蛛来采集你的内容,你就需要注意了,如果太猖獗那会很占用你的服务器资源,我们需要屏蔽他们的IP.

20000这里是状态码状态码的意思可以在百度里搜索下

197265最后两个数字则代表着访问和下载的数据字节数。

2.我们分析的时候先看看状态码200代表下载成功,304代表页面未修改,500代表服务器超时,这些是一般的其他代码可以百度一下,对于不同的问题我们要处理。

3.我们要看蜘蛛经常爬取哪些页面,我们要记录下来,分析他们为什么会经常被蜘蛛爬取,从而分析出蜘蛛所喜欢内容。?

4.有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。

5.我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。

6.蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页。

7.不同IP的蜘蛛他们的抓取频率也是不相同的。



本文由零零八目录网的用户投稿,未经零零八目录网同意,严禁转载。如广大用户朋友,发现稿件存在不实报道,欢迎读者反馈、纠正、举报问题(反馈入口)。
免责声明:本文为用户投稿的文章,零零八目录网发布此文仅为传递信息,不代表零零八目录网赞同其观点,不对对内容真实性负责,仅供用户参考之用,不构成任何投资、使用建议。请读者自行核实真实性,以及可能存在的风险,任何后果均由读者自行承担。著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。
作者:零零八目录网编辑
链接:http://www.008-008.com/showinfo-177-163-0.html
来源:零零八目录网

分享到:

  admin

注册时间:

网站:0 个   小程序:3 个  文章:12 篇

  • 14552

    网站

  • 12

    小程序

  • 585

    文章

  • 49

    会员

赶快注册账号,推广您的网站吧!
最新入驻小程序

数独大挑战2018-06-03

数独一种数学游戏,玩家需要根据9

答题星2018-06-03

您可以通过答题星轻松地创建试卷

全阶人生考试2018-06-03

各种考试题,题库,初中,高中,大学四六

运动步数有氧达人2018-06-03

记录运动步数,积累氧气值。还可偷

每日养生app2018-06-03

每日养生,天天健康

体育训练成绩评定2018-06-03

通用课目体育训练成绩评定