2022-04-16 爬虫day4 <解析网页-存储数据>

2022-04-16 爬虫day4 <解析网页-存储数据>,第1张

import requests

import csv

from bs4 import BeautifulSoup

# 设置列表,用以存储每本书籍的信息

data_list = []

# 设置页码 page_number

page_number = 1

# while 循环的条件设置为 page_number 的值是否小于 4

while page_number < 4:

    # 设置要请求的网页链接

    url = '>

然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。

我们在写爬虫的时候,首先要找到一个可以调用的URL来获取服务器的资源。逻辑就是我们通过这个URL来发起请求。来获取浏览器的响应。根据响应我们来提取出我们需要的信息。

这篇博客主要讲的就是我们常见的几种URL的构成。以及如何去分析你拿到的URL。

首先我们去看看URL的基本格式:

我们简单的看几个URL:

最后一个我们要说的是锚点 #anchor

" >

以上就是关于2022-04-16 爬虫day4 <解析网页-存储数据>全部的内容,包括:2022-04-16 爬虫day4 <解析网页-存储数据>、如何使用爬虫做一个网站、[spider]爬虫入口之URL等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://www.54852.com/web/9345349.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-27
下一篇2023-04-27

发表评论

登录后才能评论

评论列表(0条)

    保存