
我有以下HTML代码:
<div class=example>Text #1</div> "Another Text 1"<div class=example>Text #2</div> "Another Text 2"我想提取标签外的文本,“另一个文本1”和“另一个文本2”
我正在使用Jsoup来实现这一目标.
有任何想法吗???
谢谢!
解决方法:
您可以选择每个div-tag的下一个Node(而不是Element!).在您的示例中,它们都是TextNode.
final String HTML = "<div class=example>Text #1</div> \"Another Text 1\"\n" + "<div class=example>Text #2</div> \"Another Text 2\" ";document doc = Jsoup.parse(HTML);for( Element element : doc.select("div.example") ) // Select all the div Tags{ TextNode next = (TextNode) element.nextSibling(); // Get the next node of each div as a TextNode System.out.println(next.text()); // Print the text of the TextNode}输出:
"Another Text 1" "Another Text 2" 总结 以上是内存溢出为你收集整理的java – 提取HTML标记之外的文本全部内容,希望文章能够帮你解决java – 提取HTML标记之外的文本所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)