HTML

1 )  HTML概念

HTML:超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档也被称为网页。 

2 )  HTML结构

Xpath1 

     

      完整的HTML文件至少包括<HTML>标签、<HEAD>标签、<TITLE>标签和<BODY>标签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、背景图像等。

3) HTML标签、元素、节点

Xpath2

4) HTML常见标签

Xpath3

5) HTML常见属性

Xpath4

6) XML、XPATH、HTML关系和区别

      XML和HTML之间既有相似之处,又有很大区别。XML包含数据和对数据的描述,主要用来交换数据。HTML也包含了数据和对数据的描述,但只是针对描述网页这种用途,HTML结构看起来和XML类似,但并不严格遵循XML标准,可以看做不标准的XML。

      XPATH是专门针对XML设计的,在复杂结构化数据中查找信息的语言,而我们的网页实质上是HTML的文档,那如何对网页执行XPATH查询呢?八爪鱼采集器内部有一套针对HTML的XPATH引擎,使得直接用XPATH就能精准的查找定位网页里面的数据。

 

更多入门词汇介绍