
我意识到cnn使用disqus进行评论讨论.由于评论加载不是基于网页的(即上一页,下一页)并且是动态的(即,需要点击“下一页加载25”),我不知道如何检索本文的所有5000条评论.
有什么想法或建议吗?
非常感谢!
解决方法 抓取的选项(除了获取页面之外)可能不那么健壮(取决于你的需要)但是会为你遇到的问题提供解决方案,就是在完整的Web浏览器周围使用某种包装器,字面上编码使用模式并提取相关数据.既然你没有提到你所知道的编程语言,我将给出3个例子:1)Watir – ruby,2)Watin – IE& firefox通过.net,3)Selenium – IE通过C#/ Java / Perl / PHP / Ruby / Python我将用Watin& amp;提供一个小例子. C#:
IE browser = new IE();browser.GoTo(YOUR CNN URL);List visibleComments = browser.List(Find.ByID("dsq-comments"));//do your scraPing thinglink moreComments = browser.link(Find.ByClass("dsq-paginate-append-text");moreComments.click();//wait util AJAX ended by searching for some indicatorbrowser.WaitUntilContainsText(SOME TEXT);//do your scraPing thing 注意:我不熟悉disqus,但通过循环链接&可能是强制所有评论显示的更好选择.单击我发布的代码的部分,直到所有注释都可见并且刮掉List元素dsq-comments
总结以上是内存溢出为你收集整理的web-scraping – 使用disqus从网站检索评论全部内容,希望文章能够帮你解决web-scraping – 使用disqus从网站检索评论所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)