视频说明

XPath是软件准确获取数据的核心也是学习难点。系统学习XPath非常有必要,掌握XPath节点,XPath语法,常用的XPath,从而解决采集中遇到的各种问题。

XPath简介

XPath是专门针对xml设计的,在复杂结构化数据中查找信息的语言,简单来说,就是利用一条路径表达式,找到我们需要的数据位置

XPath节点

在 XPath 中,所有事物都是节点。共有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释、文档(根)节点。

XPath轴:定义当前节点与其他节点间的关系。

XPath语法:使用路径表达式来选取html文档中的节点或节点集。

谓语:路径表达式的附加条件,对节点进行进一步筛选,被嵌在[ ]中,使用谓语时,我们经常会用到一些XPath函数。

XPath函数:

text(),contains(),position()等等常见函数的介绍,经常使用非常重要。

利用XPath路径表达式进行元素定位的方法总结:

绝对路径:从根元素起,一层层依次进行定位,单斜杠 / 分隔(定位较为死板)

相对路径:从匹配选择的当前节点选择文档中的节点,双斜杠 // 分隔(定位较为灵活)

两种路径配合使用,再结合xpath轴、谓语、通配符、“|”运算符进行定位