文介绍如何通过Java后端程序代码来展示如何将html转为XML。此功能通过采用Word API- Free Spire.Doc for Java 提供的Document.saveToFile()方法来实现;该方法支持的目标文档格式多达 30余种。另外,该API也提供了多种方法,如Document.saveToEpub()、Document.saveToFile()、Document.saveToImages()、Document.saveToSVG()、Document.saveToTxt()、Document.saveToTiff()等,可用于将源文件转为Epub、图片、文本文件等目标文档格式。
下面,将以html转为xml格式为例,介绍如何实现转换。以下是详细方法及步骤。
通过 Maven仓库 下载导入,如下配置pom.xml:
<repositories>
<repository>
<id>com.e-iceblue</id>
<url>https://repo.e-iceblue.cn/repository/maven-public/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>e-iceblue</groupId>
<artifactId>spire.doc.free</artifactId>
<version>5.2.0</version>
</dependency>
</dependencies>
如需手动导入,需要下载 jar包 到本地,然后解压,找到lib文件夹下的Spire.Doc.jar文件。在IDEA中打开“Project Structure”界面,执行如图步骤将本地路径下的jar文件手动引入Java程序:
转换时,可参考如下代码步骤:
Java
import com.spire.doc.*;
public class HTMLtoXML {
public static void main(String[] args) {
//创建Document类的对象
Document doc = new Document();
//加载html文件
doc.loadFromFile("sample.html",FileFormat.Html);
//保存为XML格式
doc.saveToFile("HTMLtoXML.xml", FileFormat.Xml);
}
}
转换效果:
—END—
原文出处:https://www.cnblogs.com/Yesi/p/16392430.html
如果本文对你有帮助,别忘记给我个3连 ,点赞,转发,评论,
学习更多JAVA知识与技巧,关注与私信博主(555),即可免费领取
现代网络技术的世界中,XML(可扩展标记语言)和 HTML(超文本标记语言) 是两个非常重要的技术。尽管它们都使用标签和属性的格式来描述数据,但它们在形式和用途上有显著的区别。
XML,即 Extensible Markup Language(可扩展标记语言),是一种用于存储和传输数据的文本格式。XML 的设计宗旨是强调数据的结构化和准确性,提供了一种公认的标准格式。最主要的特点是它的自我描述性,即数据和数据的定义集成在一起,使得它在数据交换和数据存储方面具有极大优势。
而 HTML,即 HyperText Markup Language(超文本标记语言),则是一种用于创建网页的标准标记语言。HTML 的主要用途是描述网页的内容和结构,通过与 CSS(层叠样式表)和 JavaScript(脚本语言)的结合,实现丰富和互动的网络应用。
<book>
<title>Learning XML</title>
<author>John Doe</author>
<price>29.99</price>
</book>
<!DOCTYPE html>
<html>
<head>
<title>My Web Page</title>
</head>
<body>
<h1>Welcome to My Web Page</h1>
<p>This is an introductory paragraph.</p>
</body>
</html>
下面使用 Apifox 来修正和测试基于 XML 的 API 请求。
假设您需要向服务器发送 XML 格式的注册信息。您可以按照以下步骤使用 Apifox 进行设置:
<userRegistration>
<username>john_doe</username>
<password>securePassword123</password>
<email>john_doe@example.com</email>
</userRegistration>
<userRegistrationResponse>
<userId>12345</userId>
<username>john_dane</username>
<status>success</status>
</userRegistrationResponse>
打开 Apifox,选择开始新项目或者继续现有项目。接着点击“新建接口”,在接口设置页面,选择 POST 作为请求方法,并输入正确的请求 URL,比如 https://api.example.com/register (这里的 URL 应替换为真实可用的 URL)。在配置请求体时,选择 XML 格式,并将上述 XML 数据粘贴到配置区。
配置完成后,转到“运行测试”页面,点击“发送”按钮以向服务器发送构建的请求。请求发送后,检查响应部分,您应该看到类似于提供的 XML 格式的响应数据。
您还可以使用响应界面上的预览功能,该功能能让您以更直观的方式查看服务器返回的数据。
XML 和 HTML 虽然在标签和属性的语法上有所相似,但它们在使用场景、结构和功能上有显著的区别。XML 强调数据的准确传输和结构化存储,适合用于数据的交换和持久化存储等场景。而 HTML 强调内容呈现和用户交互,主要用于网页设计和开发。
分享成果,随喜正能量】行走于尘世,繁忙的工作节奏,沉重的生活压力,似乎想让生活过得行云流水,真的不是一件容易的事情,那么何不让它变得简单一些?或许我们不够时尚,至少我们可以简约,或许我们不够精致,至少我们可以简洁。把每一段旅途,都当做最好的修行;把每一段旅途遇到的困难,都当做自己的助力;把每一段旅途中遇到的人,都当做今生的因缘。
《VBA信息获取与处理》教程是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互联网数据抓取、VBA延时操作,剪贴板应用、Split函数扩展、工作表信息与其他应用交互,FSO对象的利用、工作表及文件夹信息的获取、图形信息的获取以及定制工作表信息函数等等内容。程序文件通过32位和64位两种OFFICE系统测试。是非常抽象的,更具研究的价值。
教程共两册,八十四讲。今日的内容是专题六“VBA中利用XMLHTTP完成网抓数据”的第1讲:XMLHTTP的简单讲解
现在的社会是网络的社会,离开了网络,很多工作会变得不通畅。我们日常的生活也是和网络紧密联系一起的,那么网络是如何搭建的呢?我们可以通过本讲的讲解了解到HTTP 超文本传输协议,TCP/IP的介绍,XMLHTTP的介绍,等等。
1) XML的介绍 XML指可扩展标记语言(EXtensible Markup Language),设计宗旨是传输数据,是W3C (万维网联盟World Wide Web Consortium)的推荐标准。XML 是各种应用程序之间进行数据传输的最常用的工具,并且在信息存储和描述领域变得越来越流行。
2) HTTP的介绍 HTTP 超文本传输协议(HyperText Transfer Protocol,超文本传输协议)是因特网上应用最为广泛的一种网络传输协议,所有的WWW文件都必须遵守这个标准。
HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。
3) TCP/IP的介绍 TCP/IP是供已连接因特网的计算机进行通信的通信协议(Transmission Control Protocol / Internet Protocol)。定义了电子设备(比如计算机)如何连入因特网,以及数据如何在它们之间传输的标准。
TCP 用于应用程序之间的通信。当应用程序希望通过 TCP 与另一个应用程序通信时,它会发送一个通信请求。这个请求必须被送到一个确切的地址。在双方“握手”之后,TCP 将在两个应用程序之间建立一个全双工 (full-duplex) 的通信。这个全双工的通信将占用两个计算机之间的通信线路,直到它被一方或双方关闭为止。
IP 用于计算机之间的通信。IP 是无连接的通信协议。它不会占用两个正在通信的计算机之间的通信线路。这样,IP 就降低了对网络线路的需求。每条线可以同时满足许多不同的计算机之间的通信需要。通过 IP,消息(或者其他数据)被分割为小的独立的包,并通过因特网在计算机之间传送。IP 负责将每个包路由至它的目的地。
TCP/IP协议意味着 TCP 和 IP 在一起协同工作。TCP 负责应用软件(比如你的浏览器)和网络软件之间的通信。IP 负责计算机之间的通信。TCP 负责将数据分割并装入 IP 包,然后在它们到达的时候重新组合它们。IP 负责将包发送至接受者。
4) XMLHTTP的介绍 XMLHTTP是一套可以在Javascript、VbScript、Jscript等脚本语言中通过http协议传送或从接收XML及其他数据的一套API。XmlHttp最大的用处是可以更新网页的部分内容而不需要刷新整个页面。
来自MSDN的解释:XmlHttp提供客户端同http服务器通讯的协议。客户端可以通过XmlHttp对象(MSXML2.XMLHTTP.3.0)向http服务器发送请求并使用微软XML文档对象模型Microsoft® XML Document Object Model (DOM)处理回应。
现在的绝对多数浏览器都增加了对XmlHttp的支持,IE中使用ActiveXObject方式创建XmlHttp对象,其他浏览器如:Firefox、Opera等通过window.XMLHttpRequest来创建xmlhttp对象.
1)创建XMLHTTP对象 //需MSXML4.0支持
2)打开与服务端的连接,同时定义指令发送方式,服务网页(URL)和请求权限等。客户端通过Open命令打开与服务端的服务网页的连接。与普通HTTP指令传送一样,可以用"GET"方法或"POST"方法指向服务端的服务网页。
3)发送指令。
4)等待并接收服务端返回的处理结果。
5)释放XMLHTTP对象
1) XMLHTTP的常见属性:
onreadystatechange:在同步执行方式下获得返回结果的事件句柄。只能在DOM中调用。
responseBody: 结果返回为无符号整数数组。
responseStream: 结果返回为IStream流。
responseText: 结果返回为字符串。
responseXML: 结果返回为XML格式数据。
2) XMLHTTP的常用方法:
① Open(bstrMethod, bstrUrl, varAsync, bstrUser, bstrPassword)创建一个新的http请求,并指定此请求的方法、URL以及验证信息(用户名/密码)打开指定网址
bstrMethod: 数据传送方式,即GET或POST。
bstrUrl: 服务网页的URL。
varAsync: 是否同步执行。缺省为True,即同步执行,但只能在DOM中实施同步执行。用中一般将其置为False,即异步执行。
bstrUser: 用户名,可省略。
bstrPassword:用户口令,可省略。
setRequestHeader(bstrHeader, bstrvalue)
bstrHeader:HTTP 头(header)
bstrvalue: HTTP 头(header)的值
如果Open方法定义为POST,可以定义表单方式上传:
xmlhttp.setRequestHeader("Content-Type", "application/x-www-form-urlencoded")
② Send(varBody)发送请求到http服务器并接收回应
varBody:指令集。可以是XML格式数据,也可以是字符串,流,或者一个无符号整数数组。也可以省略,让指令通过Open方法的URL参数代入。
③ abort 取消当前请求
④ getAllResponseHeaders 获取响应的所有http头
⑤ getResponseHeader 从响应信息中获取指定的http头
以上我给出了一些常用的属性和方法,其他的大家可以参考相关的资料,或许我在今后的课程中会用到时讲解。同时我们还要主要下面的注意点:
1、ResponseBody是二进制的数据,是服务器传来的没有经过任何加工的数据。
2 ResponseText是按照utf-8编码把ResponseBody转换而成,也就是:ResponseText=ByteToStr(ResponseBody,"UTF-8")
本节知识点回向:了解一些概念,HTTP,TCP/IP,XMLHTTP,以及XMLHTTP的常用属性和方法。
我20多年的VBA实践经验,全部浓缩在下面的各个教程中,教程学习顺序:
*请认真填写需求信息,我们会在24小时内与您取得联系。