优秀Java程序员应该知道的20个实用开源库

注于Java领域优质技术号，欢迎关注

作者：银河1号

一个优秀且经验丰富的Java开发人员的特点之一是对API的广泛了解，包括JDK和第三方库。我花了很多时间学习API，特别是在阅读Effective Java 3rd Edition之后，Joshua Bloch建议如何使用现有的API进行开发，而不是为常用的东西写新的代码。

在本文中，我将分享一些Java开发人员应该熟悉的最有用和最重要的库和API。但是，我没有包含框架，例如Spring和Hibernate，因为它们非常有名且具有特定功能。

总的来说，我在日常项目包含了有用的库，包括Log4j日志库，Jackson JSON解析库，以及JUnit和Mockito等单元测试API。如果需要在项目中使用，则在项目的classpath包含这些JAR，也可以使用Maven进行依赖管理。

当你使用Maven进行依赖管理时，它会自动下载这些库，包括它们所依赖的库，称为传递依赖。

例如，如果你下载Spring Framework，它还将下载Spring所依赖的所有其他JAR，例如Log4j。

你可能没注意到，但有正确版本的JAR是一个令人头疼的问题。如果是错误的JAR版本，那么你将遇到 ClassNotFoundException， NoClassDefFoundError或 UnsupportedClassVersionError。

这是我收集的一些有用的第三方库，Java开发可以使用它们在应用中来完成许多有用的功能。要使用这些库，Java开发人员应该熟悉它，这就是本文的重点。如果你觉得有用，你可以研究该库并使用它。

1.日志库

日志库非常常见，因为在每个项目中都需要它们。它们是服务器端应用最重要的东西，因为日志只放在可以看到应用程序当前运行时情况的地方。尽管JDK附带了自己的日志库，但还有更好的替代方案，例如Log4j，SLF4j和LogBack。

Java开发人员应该熟悉日志库的优缺点，并且知道为什么使用SLF4j比普通Log4j更好。

2. JSON解析库

在当今的Web服务和物联网领域，JSON已成为将信息从客户端传送到服务器的首选协议。他们已经替换XML成为在独立平台间传输信息的最佳方式。

遗憾的是，JDK没有JSON库。但是，有许多优秀的第三方库允许你解析和创建JSON消息，如Jackson和Gson。

Java Web开发人员应该熟悉这些库中的至少一个。如果你想了解有关Jackson和JSON的更多信息，我建议你看看 Udemy的课程JSON with the Java API。

3.单元测试库

单元测试是将普通开发人员与优秀开发人员区分开来的最重要的事情。程序员经常有理由不写单元测试，但逃避写单元测试的最常见的借口是缺乏常用单元测试库的经验和知识，包括JUnit，Mockito和PowerMock。

我在2018年有一个目标就是提高我对单元测试和集成测试库的了解，比如JUnit 5，Cucumber，Robot框架和一些其他的。

我还在Udemy注册了 JUnit and Mockito Crash Course 。即使你了解JUnit和单元测试的基础知识，可能也希望更新并进阶自己的知识。

4.通用库

Java开发人员可以使用几个很好的通用第三方库，比如Apache Commons和Google Guava。我总是在我的项目中包含这些库，因为它们简化了很多功能。

正如Joshua Bloch在Effective Java中所说的那样，重复造轮子是没有意义的。我们应该更偏向于使用久经考验的库而不是时不时自己来实现。

对Java开发人员来说，熟悉Google Guava和Apache Commons库是件好事。

5. HTTP库

我不喜欢JDK的一点是他们对HTTP支持的缺乏。虽然你可以使用java.net包中的类建立HTTP连接，但使用开源的第三方库（如Apache HttpClient和HttpCore）并不容易或不能无缝结合。

虽然JDK 9带来了HTTP 2.0的支持和更好的HTTP支持，但我强烈建议所有Java开发人员熟悉流行的HTTP客户端库，包括HttpClient和HttpCore。

你还可以查看此文章What's New in Java 9 - Modules and More以了解有关JDK 9对HTTP 2支持的更多信息。

6. XML解析库

有许多XML解析库，包括Xerces，JAXB，JAXP，Dom4j和Xstream。Xerces2是Apache Xerces下一高性能版本，完全兼容的XML解析器。这个新版本的Xerces引入了Xerces Native Interface（XNI），这是一个完整的框架，用于构建非常模块化且易于编程的解析器组件和配置。

Apache Xerces2解析器是XNI的参考实现，但是其他解析器组件，配置和解析器可以使用Xerces Native Interface编写。Dom4j是另一个适用于Java应用程序的灵活XML框架。如果你想了解有关Java中XML解析的更多信息，建议你查看Udemy 上的 Java Web Services and XML 在线课程。

7. Excel库

信不信由你 - 所有现实世界的应用程序都必须以某种形式与Microsoft Office进行交互。许多应用程序需要提供在Excel中导出数据的功能，如果必须从Java应用程序执行相同操作，则需要Apache POI API。

这是一个非常丰富的库，允许你从Java程序读取和写入XLS文件。你可以看到该链接（http://www.java67.com/2014/09/how-to-read-write-xlsx-file-in-java-apache-poi-example.html），以获取在核心Java应用程序中读取Excel文件的工作示例。

8.字节码库

如果你正在编写生成代码或与字节码交互的框架，那么你需要一个字节码库。

它们允许你读取和修改应用程序生成的字节码。Java世界中一些流行的字节码库是javassist和Cglib Nodep。

Javassist（Java programming assistant）使Java字节码操作变得非常简单。它是一个用于在Java中编辑字节码的类库。ASM是另一个有用的字节码编辑库。如果你不熟悉字节码，我建议你查看Introduction to Java Programmers以了解有关它的更多信息。

9.数据库连接池库

如果你正在从Java应用程序与数据库交互但不使用数据库连接池库，那么你将丢失一些内容。

由于在运行时创建数据库连接需要花费时间并使请求处理速度变慢，因此始终建议使用数据库连接库。一些流行的是Commons Pool和DBCP。

在Web应用程序中，它的Web服务器通常提供这些功能，但在核心Java应用程序中，你需要将这些连接池库包含在类路径中以使用数据库连接池。

如果你想了解有关JDBC和Web应用程序中的连接池的更多信息，我建议你查看Udemy 中的JSP, Servlet, and JDBC for Beginners课程。

10.消息传递库

与日志记录和数据库连接类似，消息传递也是许多现实世界Java应用程序的常见功能。

Java提供的JMS，Java Messaging Service不属于JDK。对于此组件，你需要包含一个单独的组件 jms.jar。

同样，如果你正在使用第三方消息传递协议（如Tibco RV），则需要使用第三方JAR tibrv.jar 放在应用程序类路径中。

11. PDF库

与Microsoft Excel类似，PDF库是另一种普遍存在的格式。如果你需要在应用程序中支持PDF功能，例如导出数据到PDF文件，则可以使用iText和Apache FOP库。

两者都提供有用的PDF相关功能，但iText更丰富，更好。请参阅此处以了解有关iText的更多信息。

12.日期和时间库

在Java 8之前，JDK的数据和时间库有很多缺陷，因为它们不是线程安全的，不可变的，并且容易出错。许多Java开发人员依靠JodaTime来实现他们的日期和时间要求。

从JDK 8开始，没有理由使用Joda，因为你在JDK 8的新日期和时间API中获得了所有功能，但如果你使用的是较旧的Java版本，那么JodaTime是一个值得学习的库。

如果你想了解有关新的日期和时间API的更多信息，我建议你查看Udemy上的What's new in Java 8课程。它提供了Java 8所有重要功能的精彩概述，包括日期和时间API。

13.Collection库

尽管JDK拥有丰富的集合库，但仍有一些第三方库提供了更多选项，例如Apache Commons集合，Goldman Sachs集合，Google集合和Trove。

Trove库特别有用，因为它为Java提供了高速的常规和原始集合。

FastUtil是另一个类似的API。它通过提供特定类型的映射，集合，列表和优先级队列来扩展Java集合框架，较小的内存占用，快速访问和插入; 它还提供大型（64位）数组，集和列表，以及用于二进制和文本文件快速实用的I / O类。

14.Email API

javax.mail和Apache Commons Email都提供了一个用于从Java发送电子邮件的API 。它建立在JavaMail API的基础之上，旨在简化它。

15. HTML解析库

与JSON和XML类似，HMTL是我们许多人必须处理的另一种常见格式。值得庆幸的是，我们有JSoup，它极大地简化了在Java应用程序中使用HTML的过程。

你不仅可以使用JSoup解析HTML，还可以创建HTML文档

它提供了一个非常方便的API，用于提取和操作数据，使用DOM，CSS和类似jquery的方法。JSoup实现了WHATWG HTML5规范，并将HTML解析到同一个DOM，就像现代浏览器一样。

16.Cryptographic库

Apache Commons Codec软件包包含各种格式的简单编码器和解码器，如Base64和Hexadecimal。

除了这些广泛使用的编码器和解码器之外，编解码器包还维护一组语音编码实用程序。

17.Embedded SQL Database库

我真的很喜欢像H2这样的内存数据库，你可以将它嵌入你的Java应用程序中。它们非常适合测试SQL脚本和运行需要数据库的单元测试。但是，H2并不是唯一的DB，你也可以选择Apache Derby和HSQL。

18. JDBC问题排查库

存在一些很好的JDBC扩展库，可以使调试更容易，比如P6spy。

这是一个库，可以无缝地拦截和记录数据库数据，而无需对应用程序进行代码更改。你可以使用它们来记录SQL查询及其计时。

例如，如果你在代码中使用PreparedStatment和CallableStatement，则这些库可以记录一次完全调用的参数和执行所花费的时间。

如果你想了解有关JDBC的更多信息，可以查看JDBC for Beginners。

19.序列化库

Google Protocol Buffers是一种以高效可扩展的格式编码结构化数据的方法。它是Java序列化的更丰富，更好的替代品。我强烈建议有经验的Java开发人员学习Google Protobuf。你可以查看此文章以了解有关Google协议缓冲区的更多信息。

20.网络库

一些有用的网络库是Netty和Apache MINA。如果你正在编写需要执行底层网络任务的应用程序，请考虑使用这些库。如果你想了解有关Java网络编程的更多信息，请查看 Java Network Programming - TCP/IP Socket Programming。

这些就是对于每个Java开发人员都应该使用的一些有用的库。Java的世界是浩瀚无穷的，你会发现数不胜数的库用于做不同的事情。

如果你想用Java做任何事情，很可能你会找到一个如何实现的库。与往常一样，Google是你找到有用的Java库的最好朋友，但你也可以查看Maven中央存储库，找到适合你手头任务的一些有用的库。

点击英文原文链接

html转为pdf的组件有很多，但是还没有哪一款能达到这个效果，其只要原因是wkhtmltopdf使用webkit网页渲染引擎开发的用来将 html转成 pdf的工具，可以跟多种脚本语言进行集成来转换文档。但是就使用简便性来说还是itext等组件占据优势，如果你要转换格式有比较高的要求，那么wkhtmltopdf绝对是不二之选！

下载路径

官网地址 wkhtmltopdf.org/

github地址 github.com/wkhtmltopdf…

使用方法

windows直接使用：只要在windows命令行中输入c:\wkhtmltopdf.exe my.oschina.net/papio/blog/… c:\blog.pdf 就可以把这篇文章转成pdf，并保存到C盘根目录。
java调用：java中调用wkhtmltopdf的命令Runtime.getRuntime().exec("c:\wkhtmltopdf.exe my.oschina.net/papio/blog/… c:\blog.pdf")就可以实现转换。

java调用demo

public class HtmlToPdfInterceptor extends Thread { private InputStream is; public HtmlToPdfInterceptor(InputStream is){ this.is = is; } public void run(){ try{ InputStreamReader isr = new InputStreamReader(is, "utf-8"); BufferedReader br = new BufferedReader(isr); String line = null; while ((line = br.readLine()) != null) { System.out.println(line.toString()); //输出内容 } }catch (IOException e){ e.printStackTrace(); } }}public class HtmlToPdf { //wkhtmltopdf在系统中的路径 private static final String toPdfTool = "D:\wkhtmltopdf\bin\wkhtmltopdf.exe"; /** * html转pdf * @param srcPath html路径，可以是硬盘上的路径，也可以是网络路径 * @param destPath pdf保存路径 * @return 转换成功返回true */ public static boolean convert(String srcPath, String destPath){ File file = new File(destPath); File parent = file.getParentFile(); //如果pdf保存路径不存在，则创建路径 if(!parent.exists()){ parent.mkdirs(); } StringBuilder cmd = new StringBuilder(); cmd.append(toPdfTool); cmd.append(" "); cmd.append(" --header-line");//页眉下面的线 cmd.append(" --header-center 这里是页眉这里是页眉这里是页眉这里是页眉 ");//页眉中间内容 //cmd.append(" --margin-top 30mm ");//设置页面上边距 (default 10mm) cmd.append(" --header-spacing 10 ");//(设置页眉和内容的距离,默认0) cmd.append(srcPath); cmd.append(" "); cmd.append(destPath); boolean result = true; try{ Process proc = Runtime.getRuntime().exec(cmd.toString()); HtmlToPdfInterceptor error = new HtmlToPdfInterceptor(proc.getErrorStream()); HtmlToPdfInterceptor output = new HtmlToPdfInterceptor(proc.getInputStream()); error.start(); output.start(); proc.waitFor(); }catch(Exception e){ result = false; e.printStackTrace(); } return result; } public static void main(String[] args) { HtmlToPdf.convert("https://my.oschina.net/papio/blog/835645", "d:/wkhtmltopdf.pdf"); }}复制代码

wkhtmltopdf 参数详解

wkhtmltopdf [OPTIONS]... <input file> [More input files] <output file>常规选项 --allow <path> 允许加载从指定的文件夹中的文件或文件（可重复） --book* 设置一会打印一本书的时候，通常设置的选项 --collate 打印多份副本时整理 --cookie <name> <value> 设置一个额外的cookie（可重复） --cookie-jar <path> 读取和写入的Cookie，并在提供的cookie jar文件 --copies <number> 复印打印成pdf文件数（默认为1） --cover* <url> 使用HTML文件作为封面。它会带页眉和页脚的TOC之前插入 --custom-header <name> <value> 设置一个附加的HTTP头（可重复） --debug-javascript 显示的javascript调试输出 --default-header* 添加一个缺省的头部，与页面的左边的名称，页面数到右边，例如： --header-left '[webpage]' --header-right '[page]/[toPage]' --header-line --disable-external-links* 禁止生成链接到远程网页 --disable-internal-links* 禁止使用本地链接 --disable-javascript 禁止让网页执行JavaScript --disable-pdf-compression* 禁止在PDF对象使用无损压缩 --disable-smart-shrinking* 禁止使用WebKit的智能战略收缩，使像素/ DPI比没有不变 --disallow-local-file-access 禁止允许转换的本地文件读取其他本地文件，除非explecitily允许用 --allow --dpi <dpi> 显式更改DPI（这对基于X11的系统没有任何影响） --enable-plugins 启用已安装的插件（如Flash --encoding <encoding> 设置默认的文字编码 --extended-help 显示更广泛的帮助，详细介绍了不常见的命令开关 --forms* 打开HTML表单字段转换为PDF表单域 --grayscale PDF格式将在灰阶产生 --help Display help --htmldoc 输出程序HTML帮助 --ignore-load-errors 忽略claimes加载过程中已经遇到了一个错误页面 --lowquality 产生低品质的PDF/ PS。有用缩小结果文档的空间 --manpage 输出程序手册页 --margin-bottom <unitreal> 设置页面下边距 (default 10mm) --margin-left <unitreal> 将左边页边距 (default 10mm) --margin-right <unitreal> 设置页面右边距 (default 10mm) --margin-top <unitreal> 设置页面上边距 (default 10mm) --minimum-font-size <int> 最小字体大小 (default 5) --no-background 不打印背景 --orientation <orientation> 设置方向为横向或纵向 --page-height <unitreal> 页面高度 (default unit millimeter) --page-offset* <offset> 设置起始页码 (default 1) --page-size <size> 设置纸张大小: A4, Letter, etc. --page-width <unitreal> 页面宽度 (default unit millimeter) --password <password> HTTP验证密码 --post <name> <value> Add an additional post field (repeatable) --post-file <name> <path> Post an aditional file (repeatable) --print-media-type* 使用的打印介质类型，而不是屏幕 --proxy <proxy> 使用代理 --quiet Be less verbose --read-args-from-stdin 读取标准输入的命令行参数 --readme 输出程序自述 --redirect-delay <msec> 等待几毫秒为JS-重定向(default 200) --replace* <name> <value> 替换名称,值的页眉和页脚（可重复） --stop-slow-scripts 停止运行缓慢的JavaScripts --title <text> 生成的PDF文件的标题（第一个文档的标题使用，如果没有指定） --toc* 插入的内容的表中的文件的开头 --use-xserver* 使用X服务器（一些插件和其他的东西没有X11可能无法正常工作） --user-style-sheet <url> 指定用户的样式表，加载在每一页中 --username <username> HTTP认证的用户名 --version 输出版本信息退出 --zoom <float> 使用这个缩放因子 (default 1) 页眉和页脚选项--header-center* <text> (设置在中心位置的页眉内容) --header-font-name* <name> (default Arial) (设置页眉的字体名称)--header-font-size* <size> (设置页眉的字体大小)--header-html* <url> (添加一个HTML页眉,后面是网址)--header-left* <text> (左对齐的页眉文本)--header-line* (显示一条线在页眉下)--header-right* <text> (右对齐页眉文本)--header-spacing* <real> (设置页眉和内容的距离,默认0)--footer-center* <text> (设置在中心位置的页脚内容) --footer-font-name* <name> (设置页脚的字体名称) --footer-font-size* <size> (设置页脚的字体大小default 11)--footer-html* <url> (添加一个HTML页脚,后面是网址)--footer-left* <text> (左对齐的页脚文本)--footer-line* 显示一条线在页脚内容上)--footer-right* <text> (右对齐页脚文本)--footer-spacing* <real> (设置页脚和内容的距离)./wkhtmltopdf --footer-right '[page]/[topage]' http://www.baidu.com baidu.pdf./wkhtmltopdf --header-center '报表' --header-line --margin-top 2cm --header-line http://192.168.212.139/oma/ oma.pdf表内容选项中 --toc-depth* <level> Set the depth of the toc (default 3) --toc-disable-back-links* Do not link from section header to toc --toc-disable-links* Do not link from toc to sections --toc-font-name* <name> Set the font used for the toc (default Arial) --toc-header-font-name* <name> The font of the toc header (if unset use --toc-font-name) --toc-header-font-size* <size> The font size of the toc header (default 15) --toc-header-text* <text> The header text of the toc (default Table Of Contents) --toc-l1-font-size* <size> Set the font size on level 1 of the toc (default 12) --toc-l1-indentation* <num> Set indentation on level 1 of the toc (default 0) --toc-l2-font-size* <size> Set the font size on level 2 of the toc (default 10) --toc-l2-indentation* <num> Set indentation on level 2 of the toc (default 20) --toc-l3-font-size* <size> Set the font size on level 3 of the toc (default 8) --toc-l3-indentation* <num> Set indentation on level 3 of the toc (default 40) --toc-l4-font-size* <size> Set the font size on level 4 of the toc (default 6) --toc-l4-indentation* <num> Set indentation on level 4 of the toc (default 60) --toc-l5-font-size* <size> Set the font size on level 5 of the toc (default 4) --toc-l5-indentation* <num> Set indentation on level 5 of the toc (default 80) --toc-l6-font-size* <size> Set the font size on level 6 of the toc (default 2) --toc-l6-indentation* <num> Set indentation on level 6 of the toc (default 100) --toc-l7-font-size* <size> Set the font size on level 7 of the toc (default 0) --toc-l7-indentation* <num> Set indentation on level 7 of the toc (default 120) --toc-no-dots* Do not use dots, in the toc轮廓选项 --dump-outline <file> 转储目录到一个文件 --outline 显示目录(文章中h1,h2来定) --outline-depth <level> 设置目录的深度（默认为4）页脚和页眉 * [page] 由当前正在打印的页的数目代替 * [frompage] 由要打印的第一页的数量取代 * [topage] 由最后一页要打印的数量取代 * [webpage] 通过正在打印的页面的URL替换 * [section] 由当前节的名称替换 * [subsection] 由当前小节的名称替换 * [date] 由当前日期系统的本地格式取代 * [time] 由当前时间，系统的本地格式取代
作者：曹元
链接：https://juejin.im/post/6856547881873047559
来源：掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

一篇我们介绍了如何解析CSV和JSON数据：如何解析互联网数据：CSV和JSON篇，今天我们将介绍如何解析HTML和XML数据。

今天的介绍能够帮助你轻而易举地从网页中（比如下面的中航电子的2017年一季度交易数据）提取自己想要的数据：

准备

在Python中可以解析html和xml数据的软件包很多，今天我们介绍的是lxml，先安装：

$ pip install lxml

如果不熟悉pip的使用，可以参考另一篇文章：如何管理python软件包。

解析HTML数据

首先，回顾一下HTML的一些基本概念：

标签／tag：比如<html>, <h1>, <head>...一般成对出现，例如开始标签<html>和结束标签</html>
元素／element：开始标签到结束标签整段代码，标签对之间的即为内容(content)
属性／attribute：标签可拥有key=value形式的属性，比如<div class="header">...</div>

简单地理解，HTML网页就是由一组元素构成的一个集合。另外，大多数HTML标签是可以嵌套的，因此元素可以包含一系列子元素。有了这些概念做基础，我们将能够很容易理解软件包lxml的使用。实际上，在lxml里面，每个HTML元素对应一个lxml.html.HtmlElement对象，该对象提供一组标准的方法取访问包含在该元素内部的数据，比如属性、内容和子元素等。

例子

考察下面的链接，它提供中航电子在2017年第一季度的交易数据，我们打算从里面提取一些数据：

>>> url = "http://quotes.money.163.com/trade/lsjysj_600372.html?year=2017&season=1"

先把该网页爬取下来：

>>> import urllib2

>>> rsp = urllib2.urlopen(url).read()

>>> print rsp[0:15]

<!DOCTYPE html>

将字符串rsp转换成HtmlElement对象：

>>> from lxml import html

>>> doc = html.document_fromstring(rsp)

>>> type(doc)

>>> doc.tag

'html'

所以其实doc就是一个html元素，它包含一些元素，比如head, body, link, div...

比如，如果你想提取该网页里面所有的链接(links)：

>>> links = [ link for link in doc.iterlinks() ]

>>> len(links)

106

>>> links[0]

(<Element link at 0x1029179f0>, 'href', 'http://img1.cache.netease.com/f2e/finance/gegu/s.1064000.css', 0)

>>> links[0][2]

'http://img1.cache.netease.com/f2e/finance/gegu/s.1064000.css'

如果你想查看元素直接包含哪些子元素，可以调用getchildren()方法：

>>> doc.getchildren()

[<Element head at 0x10299a0a8>, <Element body at 0x10299a470>]

对嵌套很深的元素，如果熟悉xpath表达式，最直接的办法是调用xpath(...)方法：

>>> [ td.text for td in doc.xpath('/html/body/div[2]/div[4]/table/tr[1]/td')]

['2017-03-31', '19.02', '19.50', '19.02', '19.30', '0.36', '1.90', '102,212', '19,747', '2.53', '0.58']

此外，还可以通过find, findall, find_class, get_element_by_id等方法查找目标元素，比如：

>>> [ td.text for td in doc.findall('./body/div[2]/div[4]/table/tr[1]/td')]

['2017-03-31', '19.02', '19.50', '19.02', '19.30', '0.36', '1.90', '102,212', '19,747', '2.53', '0.58']

如果元素有属性，提取属性值也很方便，比如：

>>> form = doc.forms[0]

>>> form.tag

'form'

>>> form.attrib

{'action': '/trade/lsjysj_600372.html', 'id': 'date'}

>>> form.keys()

['id', 'action']

>>> form.get('action')

'/trade/lsjysj_600372.html'

>>> form.items()

[('id', 'date'), ('action', '/trade/lsjysj_600372.html')]

'>>> form.form_values()

[('year', '2017'), ('season', '1')]

>>> form.method

'GET'

做为一个完整的例子，下面的脚本就是爬取中航电子在2017年第一季度的数据：

输出效果：

(test) $ head -3 600372.csv

日期;开盘价;最高价;最低价;收盘价;涨跌额;涨跌幅(%);成交量(手);成交金额(万元);振幅(%);换手率(%)

2017-03-31;19.02;19.50;19.02;19.30;0.36;1.90;102,212;19,747;2.53;0.58

解析xml数据

xml的格式和HTML类似，也是由标签构成的，但是要比HTML文件简单许多，看下面的xml文件片段处理：

>>> xmlstr="""\

... <target name="run" depends="jar">

... <java fork="true" classname="${main-class}">

... <classpath>

... <path refid="classpath"/>

... <path refid="application"/>

... </classpath>

... </java>

... </target>"""

>>> from lxml import etree

第一步是获取根节点：

>>> root = etree.fromstring(xmlstr)

>>> root.tag

'target'

如果要提取节点属性：

>>> root.items()

[('name', 'run'), ('depends', 'jar')]

>>> root.keys()

['name', 'depends'

>>> root.get("name")

'run'

>>> root.values()

['run', 'jar']

可以使用find, xpath等方法去获取和查找子节点：

>>> java = root.find("./java")

>>> java.tag

'java'

>>> java.keys()

['fork', 'classname']

>>> [ path.get("refid") for path in root.xpath("//path")]

['classpath', 'application']

lxml软件的功能很强大，如果有兴趣进一步了解，可以查看官方文档：

http://lxml.de/index.html

今天就写这么，欢迎大家留言、评论和关注。

在线咨询

上一篇：html开发笔记20-合并单元格-列和行
下一篇：超优秀 H5可视化制作编辑器H5DS

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商