结构
XML(可扩展标记语言)是一种用于存储和传输数据的标记语言,其设计目的是使数据具有结构性和可读性。XML的基本语法规则如下:
1. XML文档的结构
一个有效的XML文档必须遵循以下基本结构:
- 文档声明:可选,声明XML版本和编码方式。
- 根元素:每个XML文档必须有一个根元素,所有其他元素都必须包含在这个根元素内。
2. 文档声明
文档声明是可选的,但推荐使用。它通常位于XML文档的第一行,格式如下:
<?xml version="1.0" encoding="UTF-8"?>
version
:指定XML的版本,通常为1.0
。encoding
:指定文档的字符编码,常用的有UTF-8
、UTF-16
等。
3. 根元素
每个XML文档必须只有一个根元素,所有其他元素都嵌套在该根元素内。例如:
<note><to>Tove</to><from>Jani</from><heading>Reminder</heading><body>Don't forget me this weekend!</body>
</note>
在这个例子中,<note>
是根元素,包含了其他子元素。
4. 元素
- 元素定义:元素由开始标签和结束标签组成。开始标签和结束标签的格式如下:
<element-name>内容</element-name>
- 空元素:对于没有内容的元素,可以使用自闭合标签:
<element-name />
例如:
<linebreak />
5. 属性
元素可以具有属性,属性在开始标签内定义,格式如下:
<element-name attribute-name="attribute-value">内容</element-name>
例如:
<note date="2023-12-07"><to>Tove</to><from>Jani</from>
</note>
这里,date
是属性名,2023-12-07
是属性值。
6. 文本内容
元素可以包含文本内容,可以是普通文本或包含特殊字符的文本。特殊字符包括:
&
:表示为&
<
:表示为<
>
:表示为>
"
:表示为"
'
:表示为'
例如:
<message>Tom & Jerry</message>
7. 注释
XML文档中可以包含注释,注释以<!--
开头,以-->
结尾。注释内容不会被解析或显示。
<!-- 这是一个注释 -->
<note><to>Tove</to>
</note>
8. CDATA区块
CDATA区块用于包含不需要解析的字符数据,格式如下:
<![CDATA[ 这里可以包含任意字符,包括 < 和 & ]]>
例如:
<example><![CDATA[这是一段不需要解析的内容,包括 < 和 &]]></example>
9. XML命名规则
- 标签名:必须以字母(A-Z或a-z)或下划线(_)开头,后面可以跟字母、数字(0-9)、下划线或连字符(-)。
- 区分大小写:XML是区分大小写的,
<note>
和<Note>
被视为不同的标签。 - 不能使用保留字:避免使用XML保留字(如
xml
、XML
等)作为元素或属性名。
示例
以下是一个完整的XML文档示例:
<?xml version="1.0" encoding="UTF-8"?>
<person><name>张三</name><age>30</age><gender>男</gender><email>zhangsan@example.com</email>
</person>
XML外部实体(XXE)的工作原理
定义
在XML中,外部实体允许文档通过引用外部内容来增强其功能。外部实体可以是任何类型的资源,如文件、网络地址等。在XML文档中定义外部实体的方式如下:
<!DOCTYPE root-element [<!ENTITY entity-name SYSTEM "url-or-file-path">
]>
- entity-name:实体的名称,通常以
&
符号引用。 - SYSTEM:指示实体是一个外部资源,后面的URL或文件路径就是该资源。
示例
考虑以下XML文档,它定义了一个外部实体:
<!DOCTYPE example [<!ENTITY exampleEntity SYSTEM "http://example.com/data.txt">
]>
<example><message>&exampleEntity;</message>
</example>
在这个例子中,&exampleEntity;
引用了一个外部文本文件(data.txt
),在解析时该实体的内容会被插入到XML中。