LinuxNginx如何查看搜索引擎蜘蛛爬虫的行_系统运维

1. 百度蜘蛛爬行的次数

cat access.log | grep Baiduspider | wc

最左面的数值显示的就是爬行次数。

2. 百度蜘蛛的详细记录(Ctrl C可以终止)

cat access.log | grep Baiduspider

也可以用下面的命令：

cat access.log | grep Baiduspider | tail -n 10

cat access.log | grep Baiduspider | head -n 10

只看最后10条或最前10条，这用就能知道这个日志文件的开始记录的时间和日期。

3. 百度蜘蛛抓取首页的详细记录

cat access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好像对首页非常热爱每个钟头都来光顾，而谷歌和雅虎蜘蛛更喜欢内页。

4. 百度蜘蛛派性记录时间点分布

cat access.log | grep “Baiduspider ” | awk ‘{print $4}'

5. 百度蜘蛛爬行页面按次数降序列表

cat access.log | grep “Baiduspider ” | awk ‘{print $7}' | sort | uniq -c | sort -r

文中的Baiduspider 改成Googlebot都可以查看谷歌的数据，鉴于大陆的特殊性，大家应该对百度的log更为关注。

附：(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录

cat access.log | grep Mediapartners

这个要根据你容器的不同来决定的，

默认的路径是你安装时候指定的

如果用的LNMP之类的安装包

你可以在SHELL下

whereisnginx

找到相应的路径之后

在NGINX下的CONF文件夹里看配置文件，日志文件如果记录了话

在配置文件里有路径的，这个还是比较麻烦现在的都是使用系统类似的有dedecms，wordpress，帝国cms，搜外6系统可以直接在根目录下或者功能统计里面直接查看百度蜘蛛爬取日志。

欢迎分享，转载请注明来源：内存溢出

LinuxNginx如何查看搜索引擎蜘蛛爬虫的行