您现在的位置是：网站首页> 前端技术> HTML HTML

html – Xpath：获取两个元素标签之间的所有内容

Smile 2021-05-27 10:06:23 HTML 阅读：5452

简介在做爬虫爬取web网页时经常用到Xpath来对网页特定的一些数据进行过滤和获取，但是网页中的数据往往是复杂多变的结构，这里简单介绍并且应用Xpath获取HTML网页中两个元素标签之间的所有内容

1、HTML前端代码

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Xpath简单应用</title>
</head>
<body>
    <div class="item">
        <p class="header">头部内容</p>
        <span>中间标签内容</span>
        中间获取内容
        <p class="footer">尾部内容</p>
    </div>
</body>
</html>

2、要获取两个元素之间的所有内容,您需要执行这两个集合的交集：

（1）集合A：第二个p之前的所有节点：// p [2] / preceding :: node()

（2）集合B：第一个p之后的所有节点：// p [1] / following :: node()

3、要执行交叉路口,基本公式是：

A[count(.|B) = count(B)]

4、将它应用于您的集合,如上所定义,其中 A=//p[2]/preceding::node() 和 B=//p[1]/following::node(),我们有：

//p[2]/preceding::node()[count(. | //p[1]/following::node()) = count(//p[1]/following::node())]

这将获取从第一个<p>和第二个<p>标签之间的标签内容以及文本内容

5、您还可以轻松的只获取第一个<p>和第二个<p>标签之间文本内容,替换表达式中node()为text().这个将返回两个标签之间的所有文本节点(包括空格和换行符)：

//p[2]/preceding::text()[count(. | //p[1]/following::text()) = count(//p[1]/following::text())]

很赞哦！ (1)

上一篇：HTML5 WebSocket 使用详解以及使用示例

文章评论

首页

尾页

点击排行

html – Xpath：获取两个元素标签之间的所有内容

本栏推荐

{$recommends[0]->title}

标签云

猜你喜欢

站点信息

建站时间：2020-09-01
网站程序：ThinkPHP6.0
主题模板：《今夕何夕》
文章统计：41 篇文章
统计数据：百度统计
网站地图：XML网站地图
微信号：扫描二维码，关注我们

您现在的位置是： 网站首页> 前端技术> HTML HTML

html – Xpath：获取两个元素标签之间的所有内容

相关文章

文章评论

点击排行

本栏推荐

标签云

猜你喜欢

站点信息

您现在的位置是：网站首页> 前端技术> HTML HTML