如何通过Java代码实现对网页数据进行指定抓取

如何通过Java代码实现对网页数据进行指定抓取,第1张

通过Java代码实现对网页数据进行指定抓取方法步骤如下:

1在工程中导入Jsoupjar包

2获取网址url指定HTML或者文档指定的body

3获取网页中超链接的标题和链接

4获取指定博客文章的内容

5获取网页中超链接的标题和链接的结果

Document doc = Jsoupconnect(“你的网址”)get();

//或者 Document doc = JsoupparseBodyFragment("html文档");

Element td= docselect("td ")first();

Elements span = tdselect("span");

String txt = spanget(7)text()

这几天正在研究。废话不多说,直接上代码,自己研究的,通过迭代抓取。pageList就是抓取的分页页面的全部链接地址 。

其中Document doc = NetUtilsgetDocument(url);是jsoup抓取页面的基本 *** 作。

public class HtmlAnalsysTest3 {

static String url = ">

1你贴的python代码,缩进有问题。

请自己重新确定代码缩进是正常的,且贴出来正常的代码给我们看。

2请确保:

你代码中所处理的内容,的确是你所截图贴出来的内容 -> 程序抓取出来的内容,有时候未必和你查看网页源码看到的内容是一样的。

3你的beautifulSoup使用的方式,就不太对。

以上就是关于如何通过Java代码实现对网页数据进行指定抓取全部的内容,包括:如何通过Java代码实现对网页数据进行指定抓取、如何使用jsoup在网页中抓取下列values=318内的有整段汉字、使用jsoup抓取分页的问题等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://www.54852.com/web/9482241.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-28
下一篇2023-04-28

发表评论

登录后才能评论

评论列表(0条)

    保存