
我有这样的内容:
编辑:这是文本形式:
<p><b>Tu dinero / Acciones que acaban con tu quincena</b><br><br>EVITA SOBREENDEUDARTE<br><br>POR SONIA soto<br><br>El día de pago llegó,pero tú simplemente no pareces emocionarte como todos los mortales,no sólo de México,sino del mundo. Si esto te pasa,sólo puede existir una razón y es que has enTrado en un círculo vicioso en el cual trabajas para pagar deudas,y pIDes más préstamos para sobrevivir la siguIEnte quincena,porque esta tampoco te alcanzará.<br><br>Si ya intentaste reducir al máximo tus gastos innecesarios,pero ni así la libras,sería Interesante que pusIEras atención en tus hábitos,estamos seguros que ahí puedes encontrar varios porqués a tu situación. Piggo,la plataforma de inversión y ahorro,ha detectado algunos que pueden ser la causa de que el dinero se te vaya de las manos,chécalos y modifica alguna de estas conductas.<br><br>30 POR CIENTO de tus ingresos es lo máximo que puedes comprometerán deudas,recomIEnda Condusef</p>
我可以使用以下选项来选择此标记:
HTML_node(read_HTML(x),"div#readMoreText > p")
但是,如果我运行HTML_text(),我得到的是整个文本,行之间没有任何分隔,如下所示:
[[1]][1] "Tu dinero / Acciones que acaban con tu quincenaEVITASOBREENDEUDARTEPOR SONIA sotoEl día de pago llegó,porque esta tampoco te alcanzará.Si ya intentaste reducir al máximo tus gastos innecesarios,chécalos y modifica alguna de estas conductas.30 POR CIENTO de tus ingresos es lo máximo que puedes comprometerán deudas,recomIEnda Condusef"
有没有办法用rvest提取这段文本并用空格替换标签而不是仅删除它们并使文字难以辨认?
谢谢.
J.
解决方法 这是’管道’复制,我发现更直观:library(rvest)read_HTML("Somewebpage.HTML") %>% HTML_nodes(.,"div#readMoreText > p") %>% gsub(pattern = '<.*?>',replacement = "|".,) 当你提取很多东西时,通过适当的管道(|)分隔符拆分节点会对你有所帮助
总结以上是内存溢出为你收集整理的HTML – 如何使用rvest在网页中删除分隔内容?全部内容,希望文章能够帮你解决HTML – 如何使用rvest在网页中删除分隔内容?所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)