北京色墨网络营销公司-为您提供专业中英文SEO网站优化,外贸网站推广服务

SEO之IIS网站日志logfiles分析

时间:2012-02-24 / 分类:网站优化 / 评论:暂无 / 浏览: 3,301 views

这里说的网站日志logfiles是什么?

网站日志(Server log file或称log file)是一个安全的、别人无法获取的日志文件,该文件记录了网站下所有的活动行为,其中包括用户与蜘蛛的访问信息,如:访问页面、IP信息、返回状态等。所以,网站日志文件对于网站优化与分析都极具价值。

怎样查看网站日志logfiles或者问在哪里查看网址日志:

1、如果是虚拟主机:一般比较好一点的虚拟主机提供商卖给你的空间都会有logfiles这个功能,logfiles一般和网站的根目录在一起,登入FTP就能看到,从这个文件夹下载下来即可。
2、如果是自己的服务器或者VPS:查找的目录是:C:\WINDOWS\system32\LogFiles。你可以在IIS信息管理中进行相关的设置。
3、如果Apache的安装环境并且是默认安装:服务器一运行就会有两个日志文件生成。这两个文件是access_log(在Windows上是access.log)和error_log(在Windows上是error.log)。采用默认安装方式时,这些文件可以在/usr/local/apache/logs下找到;对于Windows系统,这些日志文件将保存在Apache安装目录的logs子目录。

IIS日志示例及词汇解释:

#Software: Microsoft Internet Information Services 6.0
#Version: 1.0
#Date: 2010-09-30 05:00:51
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status
2010-09-30 07:16:59 W3SVC739 60.28.240.139 GET /robots.txt – 80 – 74.6.75.14 Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp) 200 0 0
2010-09-30 07:16:59 W3SVC739 60.28.240.139 GET /photo/index.asp- 80 – 72.30.177.172 Mozilla/5.0+(compatible;+Yahoo!+Slurp;+http://help.yahoo.com/help/us/ysearch/slurp) 301 0 0
date:       表示记录访问日期;
time:        访问时间;
s-sitename:     表示你的虚拟主机的代称。
s-ip:       访问者IP;
cs-method: 表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作;
cs-uri-stem: 就是访问哪一个文件;
cs-uri-query: 是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;
s-port:   访问的端口
cs-username:     访问者名称
c-ip:           来源ip
cs(User-Agent): 访问来源;
sc-status:   状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;
sc-substatus:    服务端传送到客户端的字节大小;
cs–win32-statu:   客户端传送到服务端的字节大小;

IIS日志返回状态代码详解:
2xx 成功
200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理,但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求,但不存在要回送的信息。
3xx 重定向
301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应,且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。
4xx 客户机中出现的错误
400 错误请求 — 请求中有语法问题,或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求,因为不支持请求实体的格式。
5xx 服务器中出现的错误
500 内部错误 — 因为意外情况,服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护,服务器无法处理请求。
网站日志对于网站优化的指导意义:
1、服务器安全性检测
先看下面的代码片段,是否发现有什么可疑的地方:
2010-07-25 21:22:09 W3SVC225 74.82.176.68 GET /ffulmirserver.rar – 80 – 222.132.31.211 Mozilla/4.0 404 0 64 0 106
2010-07-25 21:22:09 W3SVC225 74.82.176.68 GET /mirserver.rar – 80 – 222.132.31.211 Mozilla/4.0 404 0 64 0 102
2010-07-25 21:22:11 W3SVC225 74.82.176.68 GET /mirserver.rar – 80 – 222.132.31.211 Mozilla/4.0 404 0 64 0 102

分析:上面的LOG日志记录了一个家伙在短时间内连续Get请求一些莫名其妙的文件,这些文件并不存在,服务器返回了404不存在状态。这非常像scan工具进行肉鸡扫描的行为,Google了一下那些文件名果然跟盗号之类相关。天天这样被人当肉鸡扫哪里有不蛋疼的,将这个安全隐患问题报告给服务器提供商询求技术支持。

2、蜘蛛抓取的返回信息
重点关注3xx、404、5xx类的http状态码的log记录,比如:
2010-07-28 02:20:18 W3SVC225 74.82.176.68 GET /blog/function/c_urlredirect.asp url=h3t9t7p9%3A4%2F7%2F3w8w2w4.4b3e2i7j0i3n1g9l5v6s1h7i7.1n5e4t5.6c4n9 80 – 123.125.66.53 Baiduspider+(+http://www.baidu.com/search/spider.htm) 302 0 0 480 289

分析:百度蜘蛛访问了一个c_urlredirect.asp*的页面,该文件是一个URL跳转程序,所以返回的是302临时跳转状态,这个状态本身是没问题的,有问题的是这样一个URL并没有爬取的价值,为何要浪费蜘蛛的精力去抓取呢?使用rel=nofollow属性告诉蜘蛛不要爬取这类没有爬取价值的链接。

2010-07-28 01:15:30 W3SVC225 74.82.176.68 GET /blog/case/9.html – 80 – 66.249.67.53 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html) 404 0 3 1468 239

分析:GoogleBot访问了/blog/case/9.html页面,结果页面不存在返回了404。这个时候需要检查这个文件是否存在,如果文件存在而返回了404则可能是因为服务器不稳定因素造成,可能是服务器本身问题也可能是被攻击。如果文件本身就不存在而蜘蛛还会去爬那个不存在的页面,则是因为还有其他页面有链接到那个不存在的页面,借助谷歌管理员工具中的抓取错误进行查找,将那些不存在的链接去掉。

2010-07-28 01:43:51 W3SVC225 74.82.176.68 GET /blog/feed.asp cmt=73|1|ASP_0117|丢失脚本关闭标记 80 – 209.85.238.123 Feedfetcher-Google;+(+http://www.google.com/feedfetche … 6386729543971387368) 500 0 0 557 243

分析:Google的feedfetcher(抓取 RSS 或 Atom 供稿的蜘蛛)在访问页面/blog/feed.asp cmt*时,返回了500内部服务器错误的状态提示,并且在log日志里就看到了错误提示“丢失脚本关闭标记”。由此可以判断是一个程序文件错误,需要解决这个程序上的Bug。

网站优化其实就是从这些细微处着手,而往往细微的错误是不容易被人所察觉。谷歌网站管理员工具中的错误信息以及LOG日志就是帮助网站管理员发现这些细微问题的好帮手。本文简单罗列了如何从LOG日志中去发现问题,对于如何优化以及优化的意义没有详细展开,将在另外一篇中叙述。

3、蜘蛛来访数量与频率
蜘蛛的来访数量以及频率是网站健康程度与网站权重的指标之一,了解这些数据需要借助到一些LOG日志分析。这些工具大多分IIS与Apache两种环境,像Web Log Explorer工具同时能够支持两种环境下输出的LOG日志文件,并且功能也非常全面,还可以分析出蜘蛛的路径,对于了解蜘蛛非常有帮助。

发表评论

你必须 登录后 才能留言!