如何用Python抓取动态页面信息_框架

解决思路：

有一个思路最为简单的思路可以动态解析页面信息。urllib不可以解析动态信息，但是浏览器可以。在浏览器上展现处理的信息其实是处理好的HTML文

档。这为我们抓取动态页面信息提供了很好的思路。在Python中有一个很有名的图形库——PyQt。PyQt虽然是图形库，但是他里面

QtWebkit。这个很实用。谷歌的Chrome和苹果的Safari都是基于WebKit内核开发的，所以我们可以通过PyQt中得QtWebKit

把页面中的信息读取加载到HTML文档中，再解析HTML文档，从HTML文档中提取我们想用得信息。

所需材料：

作者本人实用Mac OS X。应该在Windows和Linux平台也可以采用相同的办法。

1、Qt4 library

Library，而不是Creator。Library在Mac的默认安装路径下，应该是/home/username/Developor/，不要改变Qt4的默认安装路径。否则可能安装失败。

官方网址：>

使用selenium的find_element方法可以用来获取页面上的元素，如果想要保存find_element内容，可以使用selenium的get_attribute()方法来获取元素的属性值，比如使用get_attribute('text')可以获取元素的文本内容，使用get_attribute('value')可以获取元素的值，等等。

对于这种动态加载的网站，建议使用第三方库selenium爬取。

它可以完全模拟浏览器，等待网站全部加载完成后再进行数据的自动获取。

对于主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持，网站上的元素也支持多种选择器，如class、id、xpath等。

但是用习惯以后，对于这种非纯静态页面，离开selenium感觉就完全不会爬虫了。

以上就是关于如何用Python抓取动态页面信息全部的内容，包括:如何用Python抓取动态页面信息、Python网页解析库：用requests-html爬取网页、python保存find_element内容等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://www.54852.com/web/9708214.html

如何用Python抓取动态页面信息

发表评论

评论列表（0条）