web-scraping – 使用disqus从网站检索评论

web-scraping – 使用disqus从网站检索评论,第1张

概述我想写一个抓取脚本来从cnn文章中检索评论.例如,本文: http://www.cnn.com/2012/01/19/politics/gop-debate/index.html?hpt=hp_t1 我意识到cnn使用disqus进行评论讨论.由于评论加载不是基于网页的(即上一页,下一页)并且是动态的(即,需要点击“下一页加载25”),我不知道如何检索本文的所有5000条评论. 有什么想法或建议吗 我想写一个抓取脚本来从cnn文章中检索评论.例如,本文: http://www.cnn.com/2012/01/19/politics/gop-debate/index.html?hpt=hp_t1

我意识到cnn使用disqus进行评论讨论.由于评论加载不是基于网页的(即上一页,下一页)并且是动态的(即,需要点击“下一页加载25”),我不知道如何检索本文的所有5000条评论.

有什么想法或建议吗?

非常感谢!

解决方法 抓取的选项(除了获取页面之外)可能不那么健壮(取决于你的需要)但是会为你遇到的问题提供解决方案,就是在完整的Web浏览器周围使用某种包装器,字面上编码使用模式并提取相关数据.既然你没有提到你所知道的编程语言,我将给出3个例子:1)Watir – ruby​​,2)Watin – IE& firefox通过.net,3)Selenium – IE通过C#/ Java / Perl / PHP / Ruby / Python

我将用Watin& amp;提供一个小例子. C#:

IE browser = new IE();browser.GoTo(YOUR CNN URL);List visibleComments = browser.List(Find.ByID("dsq-comments"));//do your scraPing thinglink moreComments = browser.link(Find.ByClass("dsq-paginate-append-text");moreComments.click();//wait util AJAX ended by searching for some indicatorbrowser.WaitUntilContainsText(SOME TEXT);//do your scraPing thing

注意:我不熟悉disqus,但通过循环链接&可能是强制所有评论显示的更好选择.单击我发布的代码的部分,直到所有注释都可见并且刮掉List元素dsq-comments

总结

以上是内存溢出为你收集整理的web-scraping – 使用disqus从网站检索评论全部内容,希望文章能够帮你解决web-scraping – 使用disqus从网站检索评论所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://www.54852.com/web/1067254.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-26
下一篇2022-05-26

发表评论

登录后才能评论

评论列表(0条)

    保存