活动介绍

XML技术全面解析与应用实践

立即解锁
发布时间: 2025-08-18 02:37:48 阅读量: 3 订阅数: 11
### XML技术全面解析与应用实践 #### 1. XML简介 XML(可扩展标记语言)是一种可移植、人类可读的格式,用于在程序之间交换文本或数据。它源自SGML标准,和全球网页使用的HTML语言有共同的“祖先”,可以说是HTML更年轻、功能更强大的“兄弟”。由于大多数开发者对HTML有一定了解,因此在讨论XML时,常将其与HTML进行比较。XML鲜为人知的“祖父”是IBM的GML(通用标记语言),“表亲”之一是Adobe FrameMaker的Maker Interchange Format(MIF)。其家族树如下: ```mermaid graph LR GML --> SGML SGML --> HTML SGML --> XML SGML --> MIF ``` 从某种角度看,XML是经过清理和整合的HTML,并且允许用户自定义标签。它的标签更侧重于标识信息内容,而非格式。XML也可作为一种通用的交换格式,用于互联网上的企业对企业通信,或者作为对各种事物(如文字处理文件和Java文档)的人类可编辑描述。 由于XML被广泛接受,它成为了许多其他格式的基础,包括Open Office的保存文件格式、SVG图形文件格式等。 从SGML继承而来,HTML和XML都使用尖括号(< 和 >)围绕标签的语法,每对标签界定XML文档的一个部分,称为元素。元素可以包含内容(如HTML中的<P>标签),也可以不包含(如HTML中的<hr>)。HTML文档可以以<html>标签或<DOCTYPE...>标签开头(非正式情况下也可以都不用),而XML文件可以以XML声明开头。如果文件的字符编码不是UTF - 8或UTF - 16,则必须以XML处理指令(<? ... ?>)开头,例如: ```xml <?xml version="1.0" encoding="iso-8859-1"?> ``` 其中问号是用于标识XML声明的特殊字符,在语法上类似于ASP和JSP中使用的%。 HTML有许多接受属性的元素,例如: ```html <BODY BGCOLOR=white> ... </body> ``` 在XML中,属性值(如处理指令中的版本号1.0或BGCOLOR的white)必须加引号。也就是说,在HTML中引号是可选的,但在XML中是必需的。上述的BODY示例在传统HTML中允许,但会被任何XML解析器拒绝。XML区分大小写,在XML中,BODY、Body和body代表三个不同的元素名称。每个XML开始标签必须有匹配的结束标签,这是XML规范中详细列出的基本约束之一。任何满足所有这些约束的XML文件都被认为是格式良好的,并且可以被XML解析器接受;格式不正确的文档将被XML解析器拒绝。 #### 2. XML解析器与API 有各种各样的XML解析器可供使用。解析器是一种读取XML文件、至少从语法上检查它,并允许访问部分或全部元素的程序或类。大多数解析器符合两种著名的XML API(SAX和DOM)的Java绑定。 - **SAX(Simple API for XML)**:简单的XML API,读取文件并在遇到某些事件(如元素开始、元素结束、文档开始等)时调用用户代码。 - **DOM(Document Object Model)**:文档对象模型,读取文件并构建一个与文件中元素及其属性和内容相对应的内存树或图。这个树可以被遍历、搜索、修改(甚至可以使用DOM从头构建)或写入文件。 此外,还有一个名为JDOM的替代API已发布到开源领域。JDOM由Brett McLaughlin和Jason Hunter开发,主要针对Java,而DOM本身设计用于与多种不同的编程语言一起工作。JDOM可从http://www.jdom.org获取,并已被接受为Sun社区标准流程的JSR(Java Standards Request)。 解析器如何知道XML文件是否包含正确的元素呢?较简单的“非验证”解析器只关注文档的格式是否良好,而验证解析器会检查XML文件是否符合给定的文档类型定义(DTD)或XML模式。DTD继承自SGML,其语法将在后续讨论;模式比DTD更新,虽然更复杂,但提供了基于对象的特性,如继承。DTD使用从SGML派生的特殊语法编写,而XML模式使用普通的XML元素和属性表示。 #### 3. 生成XML 如果想直接从Java对象生成XML,可以使用XML对象序列化器。以下是一个示例代码: ```java import java.beans.XMLDecoder; import java.beans.XMLEncoder; import java.io.*; /** Show the XML serialization added to "java.beans.*" in JDK1.4. * Subclass "SerialDemoAbstractBase" to get most of the infrastructure */ public class SerialDemoXML extends SerialDemoAbstractBase { public static final String FILENAME = "serial.xml"; public static void main(String[] args) throws IOException { new SerialDemoXML().save(); new SerialDemoXML().dump(); } /** Save the data to disk. */ public void write(Object theGraph) throws IOException { XMLEncoder os = new XMLEncoder( // NEEDS JDK 1.4 new BufferedOutputStream( new FileOutputStream(FILENAME))); os.writeObject(theGraph); os.close(); } /** Display the data */ public void dump() throws IOException { XMLDecoder inp = new XMLDecoder( // NEEDS JDK 1.4 new BufferedInputStream( new FileInputStream(FILENAME))); System.out.println(inp.readObject()); inp.close(); } } ``` 操作步骤如下: 1. 创建一个继承自`SerialDemoAbstractBase`的`SerialDemoXML`类。 2. 在`main`方法中调用`save`和`dump`方法。 3. `write`方法使用`XMLEncoder`将对象写入文件。 4. `dump`方法使用`XMLDecoder`从文件中读取对象并打印。 #### 4. 使用XSLT转换XML 当需要对输出格式进行重大更改时,可以使用XSLT(Extensible Stylesheet Language for Transformations)。XSLT允许对输出格式进行大量控制,可用于将XML文件从一种词汇表转换为另一种,也可将XML渲染为其他格式,如HTML。一些开源项目甚至使用XSLT从XML描述生成Java源文件。 下面的示例使用XSLT将包含人员姓名、地址等信息的文件(如`people.xml`)转换为可打印的HTML。 `people.xml`文件内容如下: ```xml <?xml version="1.0"?> <people> <person> <name>Ian Darwin</name> <email>http://www.darwinsys.com/contact.html</email> <country>Canada</country> </person> <person> <name>Another Darwin</name> <email type="intranet">afd@node1</email> <country>Canada</country> </person> </people> ``` `people.xsl`文件内容如下: ```xml <?xml version="1.0"?> <xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0"> <xsl:template match="/"> <html> <head><title>Our People</title></head> <body> <table border="1"> <tr> <th>Name</th> <th>EMail</th> </tr> <xsl:for-each select="people/person"> <tr> <td><xsl:value-of select="name"/></td> <td><xsl:value-of select="email"/></td> </tr> </xsl:for-each> </table> </body></html> </xsl:template> </xsl:stylesheet> ``` 使用以下命令将`people.xml`文件转换为HTML: ```sh $ java JAXPTransform people.xml people.xsl people.html ``` `JAXPTransform.java`代码如下: ```java import java.io.File; import javax.xml.transform.Transformer; import javax.xml.transform.TransformerFactory; import javax.xml.transform.stream.StreamResult; import javax.xml.transform.stream.StreamSource; /** Illustrate simple use of JAXP to transform using XSL */ public class JAXPTransform { public static void main(String[] args) throws Exception { if (args.length != 3) { System.out.println( "Usage: java JAXPTransform inputFile.xml inputFile.xsl outputFile"); System.exit(1); } // Create a transformer object Transformer tx = TransformerFactory.newInstance().newTransformer( new StreamSource(new File(args[1]))); // not 0 // Use its transform( ) method to perform the transformation tx.transform( new StreamSource(new File(args[0])), new StreamResult(new File(args[2]))); } } ``` 操作步骤如下: 1. 准备好`people.xml`和`people.xsl`文件。 2. 运行`JAXPTransform`程序,传入输入的XML文件、XSL文件和输出的HTML文件作为参数。 3. 程序将使用XSLT处理器将XML文件转换为HTML文件。 #### 5. 使用SAX解析XML 如果想快速浏览XML文件并提取某些标签或其他信息,可以使用SAX创建文档处理程序并将其传递给SAX解析器。 XML的DocumentHandler接口指定了一些回调方法,代码必须提供这些方法。最常用的方法是`startElement()`、`endElement()`和`characters()`。前两个方法分别在元素开始和结束时调用,`characters()`方法在有字符数据时调用。 以下是一个使用SAX从XML文件中提取姓名和电子邮件地址的简单程序: ```java impo ```
corwn 最低0.47元/天 解锁专栏
赠100次下载
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

李_涛

知名公司架构师
拥有多年在大型科技公司的工作经验,曾在多个大厂担任技术主管和架构师一职。擅长设计和开发高效稳定的后端系统,熟练掌握多种后端开发语言和框架,包括Java、Python、Spring、Django等。精通关系型数据库和NoSQL数据库的设计和优化,能够有效地处理海量数据和复杂查询。
最低0.47元/天 解锁专栏
赠100次下载
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

响应式Spring开发:从错误处理到路由配置

### 响应式Spring开发:从错误处理到路由配置 #### 1. Reactor错误处理方法 在响应式编程中,错误处理是至关重要的。Project Reactor为其响应式类型(Mono<T> 和 Flux<T>)提供了六种错误处理方法,下面为你详细介绍: | 方法 | 描述 | 版本 | | --- | --- | --- | | onErrorReturn(..) | 声明一个默认值,当处理器中抛出异常时发出该值,不影响数据流,异常元素用默认值代替,后续元素正常处理。 | 1. 接收要返回的值作为参数<br>2. 接收要返回的值和应返回默认值的异常类型作为参数<br>3. 接收要返回

ApacheThrift在脚本语言中的应用

### Apache Thrift在脚本语言中的应用 #### 1. Apache Thrift与PHP 在使用Apache Thrift和PHP时,首先要构建I/O栈。以下是构建I/O栈并调用服务的基本步骤: 1. 将传输缓冲区包装在二进制协议中,然后传递给服务客户端的构造函数。 2. 构建好I/O栈后,打开套接字连接,调用服务,最后关闭连接。 示例代码中的异常捕获块仅捕获Apache Thrift异常,并将其显示在Web服务器的错误日志中。 PHP错误通常在Web服务器的上下文中在服务器端表现出来。调试PHP程序的基本方法是检查Web服务器的错误日志。在Ubuntu 16.04系统中

AWSLambda冷启动问题全解析

### AWS Lambda 冷启动问题全解析 #### 1. 冷启动概述 在 AWS Lambda 中,冷启动是指函数实例首次创建时所经历的一系列初始化步骤。一旦函数实例创建完成,在其生命周期内不会再次经历冷启动。如果在代码中添加构造函数或静态初始化器,它们仅会在函数冷启动时被调用。可以在处理程序类的构造函数中添加显式日志,以便在函数日志中查看冷启动的发生情况。此外,还可以使用 X-Ray 和一些第三方 Lambda 监控工具来识别冷启动。 #### 2. 冷启动的影响 冷启动通常会导致事件处理出现延迟峰值,这也是人们关注冷启动的主要原因。一般情况下,小型 Lambda 函数的端到端延迟

编程中的数组应用与实践

### 编程中的数组应用与实践 在编程领域,数组是一种非常重要的数据结构,它可以帮助我们高效地存储和处理大量数据。本文将通过几个具体的示例,详细介绍数组在编程中的应用,包括图形绘制、随机数填充以及用户输入处理等方面。 #### 1. 绘制数组图形 首先,我们来创建一个程序,用于绘制存储在 `temperatures` 数组中的值的图形。具体操作步骤如下: 1. **创建新程序**:选择 `File > New` 开始一个新程序,并将其保存为 `GraphTemps`。 2. **定义数组和画布大小**:定义一个 `temperatures` 数组,并设置画布大小为 250 像素×250 像

Clojure多方法:定义、应用与使用场景

### Clojure 多方法:定义、应用与使用场景 #### 1. 定义多方法 在 Clojure 中,定义多方法可以使用 `defmulti` 函数,其基本语法如下: ```clojure (defmulti name dispatch-fn) ``` 其中,`name` 是新多方法的名称,Clojure 会将 `dispatch-fn` 应用于方法参数,以选择多方法的特定实现。 以 `my-print` 为例,它接受一个参数,即要打印的内容,我们希望根据该参数的类型选择特定的实现。因此,`dispatch-fn` 需要是一个接受一个参数并返回该参数类型的函数。Clojure 内置的

【Nokia 5G核心网运维自动化】:提升效率与降低错误率的6大策略

![5g核心网和关键技术和功能介绍-nokia.rar](https://www.viavisolutions.com/sites/default/files/images/diagram-sba.png) # 摘要 随着5G技术的快速发展,其核心网运维面临一系列新的挑战。本文首先概述了5G核心网运维自动化的必要性,然后详细分析了Nokia 5G核心网架构及其运维挑战,包括组件功能、架构演变以及传统运维的局限性。接着,文章探讨了自动化策略的基础理论与技术,包括自动化工具的选择和策略驱动的自动化设计。重点介绍了Nokia 5G核心网运维自动化策略实践,涵盖网络部署、故障诊断与性能优化的自动化实

机械臂三维模型的材料选择与应用:材质决定命运,选对材料赢未来

![机械臂三维模型的材料选择与应用:材质决定命运,选对材料赢未来](https://blogs.sw.siemens.com/wp-content/uploads/sites/2/2023/12/Inverse-Kinematics-1024x466.png) # 摘要 机械臂作为先进制造和自动化系统的重要组成部分,其三维模型设计和材料选择对提高机械臂性能与降低成本至关重要。本文从基础理论出发,探讨了机械臂三维模型设计的基本原则,以及材料选择对于机械臂功能和耐久性的关键作用。通过对聚合物、金属和复合材料在实际机械臂应用案例的分析,本文阐述了不同材料的特性和应用实例。同时,提出了针对机械臂材料

在线票务系统解析:功能、流程与架构

### 在线票务系统解析:功能、流程与架构 在当今数字化时代,在线票务系统为观众提供了便捷的购票途径。本文将详细解析一个在线票务系统的各项特性,包括系统假设、范围限制、交付计划、用户界面等方面的内容。 #### 系统假设与范围限制 - **系统假设** - **Cookie 接受情况**:互联网用户不强制接受 Cookie,但预计大多数用户会接受。 - **座位类型与价格**:每场演出的座位分为一种或多种类型,如高级预留座。座位类型划分与演出相关,而非个别场次。同一演出同一类型的座位价格相同,但不同场次的价格结构可能不同,例如日场可能比晚场便宜以吸引家庭观众。 -

【电路故障诊断】:快速修复常见电路问题的秘诀

![邱关源电路P80_3-20.rar](https://i0.hdslb.com/bfs/archive/1efde7a7ddb656d0ae055a9336053df89a96b320.jpg@960w_540h_1c.webp) # 摘要 电路故障诊断是确保电子设备稳定运行的关键技术,它涵盖了电路的基本概念、故障分类、诊断方法论、实践技巧以及快速修复策略。本文首先介绍了电路的组成部分和工作原理,并概述了电阻、电容、电感和半导体器件在电路中的作用。接着,探讨了不同类型的电路故障及其诊断方法,包括故障树分析法和信号追踪技术。实践技巧章节提供了使用常用测试工具的技巧和先进的诊断技术,如热成像

并发编程:多语言实践与策略选择

### 并发编程:多语言实践与策略选择 #### 1. 文件大小计算的并发实现 在并发计算文件大小的场景中,我们可以采用数据流式方法。具体操作如下: - 创建两个 `DataFlowQueue` 实例,一个用于记录活跃的文件访问,另一个用于接收文件和子目录的大小。 - 创建一个 `DefaultPGroup` 来在线程池中运行任务。 ```plaintext graph LR A[创建 DataFlowQueue 实例] --> B[创建 DefaultPGroup] B --> C[执行 findSize 方法] C --> D[执行 findTotalFileS