
百度蜘蛛上一次升级也要追溯到2010年。
当时互联网资源大幅扩张,从100亿元到1000亿元,于是蜘蛛系统软件重建,从单机互联到分布式计算系统软件。
但是有一个非常大的缺陷:开庭时间比较严重!
本次改造是将目前以离线、全量计算为主的系统软件更新改造为实时智能监控系统,进行实时、增量计算。万亿级的数据信息可以瞬间读写,可以包含90%的网页,速度提升80%!
一张图片来覆盖它:
I.连接发现级别
现在sipder每天新发现的连接数量在500亿左右,在百度站长工具中提交连接效率更高。正因如此,技术工程师建议站长不必提交太多的连接,尤其是低质量的连接,这样可以达到更强更立竿见影的效果。
二。连接抓斗水平
作为对策,开发和设计了更强的深度学习实体模型来预测和分析连接的质量。数据库中的所有连接都是全局排列的,有用连接的均方误差提高了95%!
架构上,测量特性的强大提升,每天新增的百亿级控制模块的连接,实时测量,开庭时间不到一秒;设计了更强大的分布式存储,应该能保证万亿级数据信息的即时读写能力。
三。时效性网页的页面级别
中长尾关键词站的福利!对于时效性资源,从原来的优先抓取Sina.com、网易游戏等重要新闻站,扩展到快速抓取新闻报道、博客、社区论坛等覆盖各大网站的网站。大小站可以优惠。
摆脱旧的稳定抓取实体模式,选择按需抓取系统,对有时效性的新资源保证秒级抓取。
目前每日采集的时效性资源规模已经扩大到原来的3倍,达到近亿量级!
四。死链级别
全新的死链识别实体模型,可以识别协议死链、内容死链、自动跳转死链等各类低质量网页。
其中,低质量网页的故障(如网站被黑),根据百度搜索百度站长工具提交,可以加快搜索和屏蔽的全过程。
五、数据库建设水平
数据库呈现的时效性提高了,从10天到10天,现在提高了40%~80%。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)