整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Java 将HTML转为XML

文介绍如何通过Java后端程序代码来展示如何将html转为XML。此功能通过采用Word API- Free Spire.Doc for Java 提供的Document.saveToFile()方法来实现;该方法支持的目标文档格式多达 30余种。另外,该API也提供了多种方法,如Document.saveToEpub()Document.saveToFile()Document.saveToImages()Document.saveToSVG()Document.saveToTxt()、Document.saveToTiff()等,可用于将源文件转为Epub、图片、文本文件等目标文档格式。

下面,将以html转为xml格式为例,介绍如何实现转换。以下是详细方法及步骤。


【关于如何导入jar包】

通过 Maven仓库 下载导入,如下配置pom.xml:

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.doc.free</artifactId>
        <version>5.2.0</version>
    </dependency>
</dependencies>

如需手动导入,需要下载 jar包 到本地,然后解压,找到lib文件夹下的Spire.Doc.jar文件。在IDEA中打开“Project Structure”界面,执行如图步骤将本地路径下的jar文件手动引入Java程序:


【将HTML转为XML】

转换时,可参考如下代码步骤:

  • 创建Document类的对象。
  • 调用Document.loadFromFile(String fileName, FileFormat fileFormat)方法加载HTML文件。
  • 通过Document.saveToFile(String fileName, FileFormat fileFormat)方法保存为XML格式到指定路径。

Java

import com.spire.doc.*;

public class HTMLtoXML {
    public static void main(String[] args) {
        //创建Document类的对象
        Document doc = new Document();

        //加载html文件
        doc.loadFromFile("sample.html",FileFormat.Html);

        //保存为XML格式
        doc.saveToFile("HTMLtoXML.xml", FileFormat.Xml);
    }
}

转换效果:

—END—


原文出处:https://www.cnblogs.com/Yesi/p/16392430.html

如果本文对你有帮助,别忘记给我个3连 ,点赞,转发,评论,

学习更多JAVA知识与技巧,关注与私信博主(555),即可免费领取

现代网络技术的世界中,XML(可扩展标记语言)和 HTML(超文本标记语言) 是两个非常重要的技术。尽管它们都使用标签和属性的格式来描述数据,但它们在形式和用途上有显著的区别。

概述

什么是 XML?

XML,即 Extensible Markup Language(可扩展标记语言),是一种用于存储和传输数据的文本格式。XML 的设计宗旨是强调数据的结构化和准确性,提供了一种公认的标准格式。最主要的特点是它的自我描述性,即数据和数据的定义集成在一起,使得它在数据交换和数据存储方面具有极大优势。

  • 什么是 XML?基础入门介绍

什么是 HTML?

而 HTML,即 HyperText Markup Language(超文本标记语言),则是一种用于创建网页的标准标记语言。HTML 的主要用途是描述网页的内容和结构,通过与 CSS(层叠样式表)和 JavaScript(脚本语言)的结合,实现丰富和互动的网络应用。

区别详解

用途

  • XML:主要用作数据存储和数据交换的格式。通常用于各类应用程序之间的数据传递。例如,网络服务(Web Services)中,SOAP(简单对象访问协议)使用 XML 格式来封装消息内容。(SOAP 协议详解:什么是 SOAP 以及它如何工作?)
  • HTML:主要用于展示数据和内容。HTML 文档定义了网页的结构,它和浏览器一起使得用户可以在互联网上浏览各种信息和资源。

结构和特性

XML:

  1. 自定义标签:XML 允许用户自定义标签,这是它最大的特性之一。通过自定义标签,数据可以更加准确地描述和组织。
  2. 严格的语法要求:每一个开始标签都必须有一个闭合标签,标签必须正确嵌套,同时所有属性必须用引号括起来。
  3. 数据中心:XML 集中在描述和传输数据,而不是显示数据的外观。
<book>
    <title>Learning XML</title>
    <author>John Doe</author>
    <price>29.99</price>
</book>

HTML:

  1. 预定义标签:HTML 提供了很多预定义标签,用于构建和格式化网页内容。不允许用户自定义标签。
  2. 宽松的语法要求:虽然 HTML5 强调标签的闭合,但浏览器会容错,对一些语法错误进行修正。
  3. 展示中心:HTML 的主要目的是展示数据,定义网页的内容和结构,包括文本、图片、视频等。
<!DOCTYPE html>
<html>
<head>
    <title>My Web Page</title>
</head>
<body>
    <h1>Welcome to My Web Page</h1>
    <p>This is an introductory paragraph.</p>
</body>
</html>

数据验证

  • XML:XML 支持数据验证。可以使用 DTD(文档类型定义)或者 XML Schema 来定义和验证 XML 数据的结构和内容,使得数据更加精确和可靠。
  • HTML:HTML 没有原生的数据验证功能,它更多关注于浏览器如何解释和显示页面。对于用户提交的数据,可以通过表单验证和 JavaScript 来进行验证和处理。

可扩展性和标准化

  • XML:XML 是完全可扩展的。由于没有预定义的标签,用户可以根据需要创建适合自己应用的标签集。这使得 XML 非常灵活,可以适应不同的应用和需求。
  • HTML:HTML 是没有可扩展性的,它的标签集是由 W3C(万维网联盟)规定的标准。不允许用户随意添加新的标签,但它提供了一些扩展机制,例如使用自定义数据属性(data-* 属性)。

处理工具

  • XML:加工和处理 XML 数据的工具和接口非常多,包括 SAX(Simple API for XML)、DOM(Document Object Model)、XPath 和 XSLT 等。它们为读取、操作和转换 XML 数据提供了丰富的支持。
  • HTML:HTML 的处理主要依赖于浏览器和各种网页开发技术,比如 JavaScript、CSS、DOM 操作等,以实现动态和交互式网页内容。

如何调试 XML、JSON 格式的请求

下面使用 Apifox 来修正和测试基于 XML 的 API 请求。

创建与测试 XML 请求

假设您需要向服务器发送 XML 格式的注册信息。您可以按照以下步骤使用 Apifox 进行设置:

  • 请求类型:POST
  • 请求 URL(需替换为有效地址):http://127.0.0.1:8000/register
  • 请求头设置:Content-Type: application/xml
  • 请求体内容如下:
<userRegistration>
    <username>john_doe</username>
    <password>securePassword123</password>
    <email>john_doe@example.com</email>
</userRegistration>
  • 响应体示例:
<userRegistrationResponse>
    <userId>12345</userId>
    <username>john_dane</username>
    <status>success</status>
</userRegistrationResponse>

在 Apifox 中配置您的请求

打开 Apifox,选择开始新项目或者继续现有项目。接着点击“新建接口”,在接口设置页面,选择 POST 作为请求方法,并输入正确的请求 URL,比如 https://api.example.com/register (这里的 URL 应替换为真实可用的 URL)。在配置请求体时,选择 XML 格式,并将上述 XML 数据粘贴到配置区。

发起请求并观察结果

配置完成后,转到“运行测试”页面,点击“发送”按钮以向服务器发送构建的请求。请求发送后,检查响应部分,您应该看到类似于提供的 XML 格式的响应数据。

您还可以使用响应界面上的预览功能,该功能能让您以更直观的方式查看服务器返回的数据。

总结

XML 和 HTML 虽然在标签和属性的语法上有所相似,但它们在使用场景、结构和功能上有显著的区别。XML 强调数据的准确传输和结构化存储,适合用于数据的交换和持久化存储等场景。而 HTML 强调内容呈现和用户交互,主要用于网页设计和开发。

分享成果,随喜正能量】行走于尘世,繁忙的工作节奏,沉重的生活压力,似乎想让生活过得行云流水,真的不是一件容易的事情,那么何不让它变得简单一些?或许我们不够时尚,至少我们可以简约,或许我们不够精致,至少我们可以简洁。把每一段旅途,都当做最好的修行;把每一段旅途遇到的困难,都当做自己的助力;把每一段旅途中遇到的人,都当做今生的因缘。

《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。

教程共两册,八十四讲。今日的内容是专题六“VBA中利用XMLHTTP完成网抓数据”的第1讲:XMLHTTP的简单讲解

第一节 XMLHTTP的简单讲解及相关概念的介绍

现在的社会是网络的社会,离开了网络,很多工作会变得不通畅。我们日常的生活也是和网络紧密联系一起的,那么网络是如何搭建的呢?我们可以通过本讲的讲解了解到HTTP 超文本传输协议,TCP/IP的介绍,XMLHTTP的介绍,等等。

1 什么是XMLHTTP,它是用来做什么的?

1) XML的介绍 XML指可扩展标记语言(EXtensible Markup Language),设计宗旨是传输数据,是W3C (万维网联盟World Wide Web Consortium)的推荐标准。XML 是各种应用程序之间进行数据传输的最常用的工具,并且在信息存储和描述领域变得越来越流行。

2) HTTP的介绍 HTTP 超文本传输协议(HyperText Transfer Protocol,超文本传输协议)是因特网上应用最为广泛的一种网络传输协议,所有的WWW文件都必须遵守这个标准。

HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。

3) TCP/IP的介绍 TCP/IP是供已连接因特网的计算机进行通信的通信协议(Transmission Control Protocol / Internet Protocol)。定义了电子设备(比如计算机)如何连入因特网,以及数据如何在它们之间传输的标准。

TCP 用于应用程序之间的通信。当应用程序希望通过 TCP 与另一个应用程序通信时,它会发送一个通信请求。这个请求必须被送到一个确切的地址。在双方“握手”之后,TCP 将在两个应用程序之间建立一个全双工 (full-duplex) 的通信。这个全双工的通信将占用两个计算机之间的通信线路,直到它被一方或双方关闭为止。

IP 用于计算机之间的通信。IP 是无连接的通信协议。它不会占用两个正在通信的计算机之间的通信线路。这样,IP 就降低了对网络线路的需求。每条线可以同时满足许多不同的计算机之间的通信需要。通过 IP,消息(或者其他数据)被分割为小的独立的包,并通过因特网在计算机之间传送。IP 负责将每个包路由至它的目的地。

TCP/IP协议意味着 TCP 和 IP 在一起协同工作。TCP 负责应用软件(比如你的浏览器)和网络软件之间的通信。IP 负责计算机之间的通信。TCP 负责将数据分割并装入 IP 包,然后在它们到达的时候重新组合它们。IP 负责将包发送至接受者。

4) XMLHTTP的介绍 XMLHTTP是一套可以在Javascript、VbScript、Jscript等脚本语言中通过http协议传送或从接收XML及其他数据的一套API。XmlHttp最大的用处是可以更新网页的部分内容而不需要刷新整个页面。

来自MSDN的解释:XmlHttp提供客户端同http服务器通讯的协议。客户端可以通过XmlHttp对象(MSXML2.XMLHTTP.3.0)向http服务器发送请求并使用微软XML文档对象模型Microsoft® XML Document Object Model (DOM)处理回应。

现在的绝对多数浏览器都增加了对XmlHttp的支持,IE中使用ActiveXObject方式创建XmlHttp对象,其他浏览器如:Firefox、Opera等通过window.XMLHttpRequest来创建xmlhttp对象.

2 应用XMLHTTP抓取数据的步骤

1)创建XMLHTTP对象 //需MSXML4.0支持

2)打开与服务端的连接,同时定义指令发送方式,服务网页(URL)和请求权限等。客户端通过Open命令打开与服务端的服务网页的连接。与普通HTTP指令传送一样,可以用"GET"方法或"POST"方法指向服务端的服务网页。 

3)发送指令。 

4)等待并接收服务端返回的处理结果。 

5)释放XMLHTTP对象

3 XMLHTTP的属性及方法

1) XMLHTTP的常见属性: 

onreadystatechange:在同步执行方式下获得返回结果的事件句柄。只能在DOM中调用。 

responseBody:   结果返回为无符号整数数组。 

responseStream:  结果返回为IStream流。 

responseText:   结果返回为字符串。 

responseXML:   结果返回为XML格式数据。

2) XMLHTTP的常用方法: 

① Open(bstrMethod, bstrUrl, varAsync, bstrUser, bstrPassword)创建一个新的http请求,并指定此请求的方法、URL以及验证信息(用户名/密码)打开指定网址

bstrMethod:  数据传送方式,即GET或POST。 

bstrUrl:    服务网页的URL。 

varAsync:   是否同步执行。缺省为True,即同步执行,但只能在DOM中实施同步执行。用中一般将其置为False,即异步执行。 

bstrUser:    用户名,可省略。 

bstrPassword:用户口令,可省略。 

setRequestHeader(bstrHeader, bstrvalue)

bstrHeader:HTTP 头(header) 

bstrvalue: HTTP 头(header)的值 

如果Open方法定义为POST,可以定义表单方式上传: 

xmlhttp.setRequestHeader("Content-Type", "application/x-www-form-urlencoded") 

② Send(varBody)发送请求到http服务器并接收回应

varBody:指令集。可以是XML格式数据,也可以是字符串,流,或者一个无符号整数数组。也可以省略,让指令通过Open方法的URL参数代入。

③ abort 取消当前请求

④ getAllResponseHeaders 获取响应的所有http头

⑤ getResponseHeader 从响应信息中获取指定的http头

以上我给出了一些常用的属性和方法,其他的大家可以参考相关的资料,或许我在今后的课程中会用到时讲解。同时我们还要主要下面的注意点:

1、ResponseBody是二进制的数据,是服务器传来的没有经过任何加工的数据。

2 ResponseText是按照utf-8编码把ResponseBody转换而成,也就是:ResponseText=ByteToStr(ResponseBody,"UTF-8")

本节知识点回向:了解一些概念,HTTP,TCP/IP,XMLHTTP,以及XMLHTTP的常用属性和方法。

我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序: