八爪鱼,百万用户信赖的网络爬虫工具

了解XPath常用术语和表达式解析 十分钟轻松入门

作者:xinyue 发布时间:9/17/2014 5:59:13 PM 13994 人已阅读

摘要:想要用八爪鱼采集器采集一些复杂的网页,很多时候会需要适当的修改下xpath,了解掌握一些基本的xpath常用术语和用法,对于进阶成为八爪鱼采集高手十分有帮助。

1、什么是XPath?

XPath XML路径语言,它是一种用来确定XML文档中某部分位置,XPath包含一个标准函数库, 是一个W3C标准;它使用路径表达式在XML文档中进行导航,简单来总结就是基于XML的树状结构,提供在数据结构树中找寻节点的能力。

XPATH主要的目的是为了在XML1.0或XML1.1文档节点树中定位节点所设计。目前有XPath1.0和 XPath2.0两个版本,XPath 2.0表达了XPath语言在大小与能力上显著的增加,可以说,2.0是1.0的超集合。

XPath是一种表达式语言,它的返回值可能是节点,节点集合,原子值,以及节点和原子值的混合等。


2、XPATH的名词解释

2.1节点(node)

XPath中有七种结点类型:元素、属性、文本、命名空间、处理指令、注释以及文档节点(或成为根节点)。 文档的根节点即是文档结点;对应属性有属性结点,元素有元素结点。

 

2.2节点关系

父(parent)

每个元素以及属性都有一个父

<bookstore>
 
<book>
  <title>Harry Potter</title>
  <author>J K. Rowling</author>
  <year>2005</year>
  <price>29.99</price>
</book>
 
</bookstore>

关系解释:Book,是title、author、year、price的父,反过来,title等是book的子,title和author等为同胞,bookstore、book是title等的先辈,title等是bookstore、book的后辈

子(children)

元素节点可有零个、一个或多个子

同胞(sibling)

拥有相同的父的节点

先辈(ancestor)

某节点的父、父的父,等

后代(descendant)

某节点的子、子的子,等

 


3、XPath路径表达式

先看一个实例Xml文件。下面的说明及实例都是基于该XML文件。

 XPATH实例

3.1 路径表达式语法: 

  1. 路径 = 相对路径 | 绝对路径
  2. XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。
  3. 步进表达式=轴 节点测试 谓词

路径表达式可以是绝对路径,也可以是相对路径。例如: 绝对位置路径:

/step/step/...相对位置路径:step/step/...

其中的每一步又可以是一个表达式,包括:

轴(函数)(axis):定义所选节点与当前节点之间的树关系

节点测试(node-test) :识别某个轴内部的节点

零个或者更多谓词(predicate) :更深入地提炼所选的节点集,多个多个谓词用逻辑操作符and, or连接。

3.2表达式上下文(Context):

上下文其实表示一种环境。以明确当前XPath路径表达式处在什么样的环境下执行。例如同样一个路径表达式处在对根节点操作的环境和处在对某一个特定子节点操作的环境下执行所获得的结果可能是完全不一样的。也就是说XPath路径表达式计算结果取决于它所处的上下文。

3.3 XPath常见的上下文:

 

当前节点(./)

./sender

表示选择当前节点下的sender节点集合

父节点(../)

../sender

表示选择当前节点的父节点下的sender节点集合

根元素(/)

/messages

表示选择从文档根节点下的messages节点集合

根节点(/*)

/*

根元素下面的所有节点

递归下降(//)

/messages//sender

从当前节点开始递归步进搜索当前节点下的所有子节点找到满足条件的节点集

特定元素

sender

表示选择当前节点下的sender节点集合

 

注意:在执行XPath时一定要注意上下文。即当前是在哪个节点下执行XPath表达式。

3.4谓词(筛选表达式)及轴的概念

 

轴名称

结果

ancestor

选取当前节点的所有先辈(父、祖父等)

ancestor-or-self

选取当前节点的所有先辈(父、祖父等)以及当前节点本身

attribute

选取当前节点的所有属性

child

选取当前节点的所有子元素。

descendant

选取当前节点的所有后代元素(子、孙等)。

descendant-or-self

选取当前节点的所有后代元素(子、孙等)以及当前节点本身。

following

选取文档中当前节点的结束标签之后的所有节点。

namespace

选取当前节点的所有命名空间节点

parent

选取当前节点的父节点。

preceding

直到所有这个节点的父辈节点,顺序选择每个父辈节点前的所有同级节点

preceding-sibling

选取当前节点之前的所有同级节点。

self

选取当前节点。

 

3.5运算符及特殊字符:

运算符/特殊字符

说明

/

此路径运算符出现在模式开头时,表示应从根节点选择。

//

从当前节点开始递归下降,此路径运算符出现在模式开头时,表示应从根节点递归下降。

.

当前上下文。

..

当前上下文节点父级。

*

通配符;选择所有元素节点与元素名无关。(不包括文本,注释,指令等节点,如果也要包含这些节点请用node()函数)

@

选取属性,属性名的前缀

@*

选择所有属性,与名称无关。

:

命名空间分隔符;将命名空间前缀与元素名或属性名分隔。

( )

括号运算符(优先级最高),强制运算优先级。

[ ]

应用筛选模式(即谓词,包括"过滤表达式"和"轴(向前/向后)")。

[ ]

下标运算符;用于在集合中编制索引。

|

两个节点集合的联合,如://messages/message/to | //messages/message/cc

-

减法。

div,

浮点除法。

and, or

逻辑运算。

mod

求余。

not()

逻辑非

=

等于

!=

不等于

特殊比较运算符

< 或者 &lt;

<= 或者 &lt;=

> 或者 &gt;

>= 或者 &gt;=

需要转义的时候必须使用转义的形式,如在XSLT中,而在XMLDOM的scripting中不需要转义。

3.6常用表达式实例:

/

Document Root文档根.

/*

选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点)

/node()

根元素下所有的节点(包括文本节点,注释节点等)

/text()

查找文档根节点下的所有文本节点

/messages/message

messages节点下的所有message节点

/messages/message[1]

messages节点下的第一个message节点

/messages/message[1]/self::node()

第一个message节点(self轴表示自身,node()表示选择所有节点)

/messages/message[1]/node()

第一个message节点下的所有子节点

/messages/message[1]/*[last()]

第一个message节点的最后一个子节点

/messages/message[1]/[last()]

Error,谓词前必须是节点或节点集

/messages/message[1]/node()[last()]

第一个message节点的最后一个子节点

/messages/message[1]/text()

第一个message节点的所有子节点

/messages/message[1]//text()

第一个message节点下递归下降查找所有的文本节点(无限深度)

/messages/message[1] /child::node()

/messages/message[1] /node()

/messages/message[position()=1]/node()

//message[@id=1] /node()

第一个message节点下的所有子节点

//message[@id=1] //child::node()

递归所有子节点(无限深度)

//message[position()=1]/node()

选择id=1的message节点以及id=0的message节点

/messages/message[1] /parent::*

Messages节点

/messages/message[1]/body/attachments/parent::node()

/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/..

attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样。

(..也表示父节点. 表示自身节点)

//message[@id=0]/ancestor::*

Ancestor轴表示所有的祖辈,父,祖父等。

向上递归

//message[@id=0]/ancestor-or-self::*

向上递归,包含自身

//message[@id=0]/ancestor::node()

对比使用*,多一个文档根元素(Document root)

/messages/message[1]/descendant::node()

//messages/message[1]//node()

递归下降查找message节点的所有节点

/messages/message[1]/sender/following::*

查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。

//message[@id=1]/sender/following-sibling::*

查找id=1的message节点的sender节点的所有后续的同级节点。

//message[@id=1]/datetime/@date

查找id=1的message节点的datetime节点的date属性

//message[@id=1]/datetime[@date]

//message/datetime[attribute::date]

查找id=1的message节点的所有含有date属性的datetime节点

//message[datetime]

查找所有含有datetime节点的message节点

//message/datetime/attribute::*

//message/datetime/attribute::node()

//message/datetime/@*

返回message节点下datetime节点的所有属性节点

//message/datetime[attribute::*]

//message/datetime[attribute::node()]

//message/datetime[@*]

//message/datetime[@node()]

选择所有含有属性的datetime节点

//attribute::*

选择根节点下的所有属性节点

//message[@id=0]/body/preceding::node()

顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。)

注意:查找同级节点是顺序查找,而不是递归查找。

//message[@id=0]/body/preceding-sibling::node()

顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点)

//message[@id=1]//*[namespace::amazon]

查找id=1的所有message节点下的所有命名空间为amazon的节点。

//namespace::*

文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml)

//message[@id=0]//books/*[local-name()='book']

选择books下的所有的book节点,

注意:由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。

//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema']

选择books下的所有的book节点,(节点名和命名空间都匹配)

//message[@id=0]//books/*[local-name()='book'][year>2006]

选择year节点值>2006的book节点

//message[@id=0]//books/*[local-name()='book'][1]/year>2006

指示第一个book节点的year节点值是否大于2006.

返回xs:boolean: true

3.7函数及说明(节选)

上下文函数 更多函数可直接登录此网址查询

名称

说明

fn:position()

返回当前正在被处理的节点的 index 位置。

例子://book[position()<=3]

结果:选择前三个 book 元素

fn:last()

返回在被处理的节点列表中的项目数目。

例子://book[last()]

结果:选择最后一个 book 元素

fn:current-dateTime()

返回当前的 dateTime(带有时区)。

fn:current-date()

返回当前的日期(带有时区)。

fn:current-time()

返回当前的时间(带有时区)。

fn:implicit-timezone()

返回隐式时区的值。

fn:default-collation()

返回默认对照的值。

fn:static-base-uri()

返回 base-uri 的值。

 

 


4、八爪鱼采集器XPATH实例

在八爪鱼采集器中,遇到有些网页结构比较复杂,且元素位置有变化时候,需要设置XPATH,以便采集软件能快速准确的找到该位置。在八爪鱼采集软件采集软件的实际应用中,XPATH的设置往往并不会那么复杂,即便是没有编程基础的小伙伴们也能学会一些简单的XPATH,设置XPATH的时候,没有编程基础的小伙伴们可以下载一个火狐浏览器,使用里面自带的firebug工具来协助我们编写xpath。

接下来,我们就来看看,八爪鱼的1个修改xpath实例:

翻页采集原

软件自定检查到翻页是一个图片链接

翻页采集原2

第一页的XPATH为:

//DIV[@id='pagecontent']/DIV[5]/A[13]

第二页由于会多出一个向上翻页的图片,所以向下翻页位置发生了变化,上面的XPATH位置显示的是“140”,也就是A[13]发生了变化,从第二页开始,A[13]查找到的是140,而不是向下翻页的符号,这个时候我们需要手动修改下xpath.步骤如下:

1、先通过FIREBUG右键点击“向下的翻页符号”,查看元素,显示如下图,

翻页采集修改1

你会发现,这是个图片(img),那么我们就需要通过xpath查找到这个图片的位置。XPATH简单理解就是一种路径语言

2、从firebug中,我们看到向下翻页的图片在//DIV[@id='pagecontent']/DIV[5]/A下面,这个路径是没错的,我们就不需要修改了,firebug中显示的A下面的IMG,不过在该示例中,IMG有两个(向上翻页和向下翻页),那么我们需要定义到向下翻页,在XML中可以看到src="http://www.ausstellerdaten.de/asdb4/resources/images/paginate_arrow_right.png",

3、于是,我们将IMG设个以right的限定词。修改后的XPATH如下:

//DIV[@id='pagecontent']/DIV[5]/A/IMG[contains(@src,'right')]

表示:寻找id=pagecontent的DIV节点下面第5个DIV元素的节点,下面的A元素节点,下面的src属性包含right的img元素

4、将修改后的xpath修改至软件内,直接在流程框进行测试,看是否显示了翻页效果,测试动作很简单,直接点击翻页,看浏览器内是否正常向下翻页了即可。

修改后的软件截图


欢迎咨询在线客服
加微信群,与更多用户一起交流