
有些基于SEO的东西总是容易被忽略,比如Robots.txt文件。Robots.txt文件的重要性在seo优化文章中多次提到。网站优化的诊断方法之一就是检查文档是否制作规范。如上所述,如果网站的Robots.txt协议文件中禁止了搜索引擎蜘蛛,那么无论你怎么优化,都不会被收录。
Robots.txt协议文件被写入
如果您将Robots.txt协议文件添加到您的网站,并设置禁止搜索引擎蜘蛛的指令,您的网站内容将不会被爬网,但可能会被包含(索引)。
可能有人会有疑问,搜索引擎蜘蛛抓取URL页面,页面需要呈现蜘蛛的内容反馈才能被收录。那么,如果内容被禁,会被收录吗?那是什么意思?游云在这里没有说明这个问题。
为什么Robots.txt协议文件被禁止后会被搜索引擎蜘蛛收录?
这里有一个认知错误,也可能是惯性逻辑思维的错误思维。大家都认为蜘蛛不能抓取内容,不能收录。其实抓取、抓取和索引是不同的概念。很多人在学习SEO的时候经常会混淆一些SEO概念,导致在后续的SEO优化过程中表现不佳。
或者说,首先Robots.txt协议文件在做什么?因为是协议,所以必须是双方同意并接受的规则。这自然是一个网站和搜索引擎(或者搜索引擎蜘蛛)之间的协议。Robots.txt协议文件将放在根目录下。蜘蛛会在下次进入网站时访问这个文件,然后检查协议中是否有不能抓取的页面。如果被禁了,就不会再爬了。
robots.txt协议文件的意义
如果一个页面想被搜索引擎索引(收录),就要被爬虫爬来爬去。由于没有被抓取,该页面自然不会被收录。这种想法是错误的,不抓取也能被索引。比如淘宝就是典型案例。网站加了禁止协议,最后被收录。原因是百度从其他渠道平台推荐的外部链接中了解到这个网站。虽然禁止抓取,但是通过标题和推荐链接的数据可以判断出该页面对应的内容信息。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)