CheerpJ：轻松将Java应用转换为JavaSc

CheerpJ：轻松将Java应用转换为JavaScript

多程序员认为JavaScript优于Java。对于初学者来说，Javascript不像Java那样老化。而且，更容易理解和使用，当然这两者差别很大。Java可以独立存在，而JavaScript必须放在HTML文档中——有时也称为容器。

JavaScript，HTML和CSS专门用于Web应用程序和Web开发。另一方面，Java可以嵌入到一个完整的专有应用程序中，它不需要任何其他功能。如今，一切正在跳到网络或某种形式的web applet，以便在平台上使用，例如移动设备。

这些差异使得很难将老化的Java应用程序和代码转换为JavaScript。通常情况下，这可能是一个漫长的过程，需要不止一个程序员来完成。

CheerpJ，一种新的编译器技术——即将改变所有的一切。

CheerpJ

Cheerpj是一个独特的工具，将Java字节码转换为JavaScript，允许程序员将应用程序和软件相对轻松地移动到Web上。

最好的是它不需要Java插件或安装工作，程序员不必经历下载、安装和配置Java环境和IDE的麻烦。

它甚至有一个离线编译器，将Java转换为JavaScript。服务器端Java组件可以转换为客户端库，以便在浏览器中使用。这是一个巨大的交易，并将允许程序员将独立的产品或应用程序带到网络上。实际上，这可能意味着在更多的平台和设备上向更多用户开放老化的java应用程序或工具。

由于JavaScript的本质，完成的小程序将不那么僵硬，在阅读原始代码时更容易理解，并且在交互和事件方面更加丰富。JavaScript通常与网页事件和关于网站开发的操作相关联，传统的Java并不完全有助于这些事情。

另外，通过JavaScript，程序员可以在对象和动作调用中更加具体。例如，引用状态栏或浏览器窗口等现有项目，并直接对该组件进行更新或更改，Java显然就无法这样操作。

JavaScript也与许多领先的技术相兼容，例如，Widevine的加密媒体扩展（也称为EME），依赖JavaScript来跨多个设备和服务器管理数字版权许可。

虽然与CheerpJ类似的工具已经存在——即Google Web Toolkit，它也允许将Java内容放在浏览器，但CheerpJ与其他平台（如Google）截然不同。其他平台不支持Java构造和部署，仅包含对Java运行时库的部分实现和引用。程序员可以将新的应用程序转换为浏览器，但已经在使用的应用程序将很难转换。显然，这种新的编译器并不是这样，CheerpJ为现有和以前的Java应用程序打开了一扇新的大门。

幸运的是，从Java到JavaScript的跳跃是相当容易和快速的。

什么时候可用？

七月限量发行，但并不是每个人都可以拿到手。11月下旬公开发行，但是官方商业版。如果你不是内测人员，只能等到公开发行在使用了。对于早期Java程序员而言，这几个月倒也不算什么，毕竟等了那么多年了。

暂时，可以考虑CheerpL Applet Viewer Extension，这将允许在没有Java插件或环境安装的情况下运行应用程序。

文适合有 Java 基础知识的人群

本文作者：HelloGitHub-秦人

HelloGitHub 推出的《讲解开源项目》系列，今天给大家带来一款开源 Java 版一款网页元素解析框架——jsoup，通过程序自动获取网页数据。

项目源码地址：https://github.com/jhy/jsoup

一、项目介绍

jsoup 是一款 Java 的 HTML 解析器。可直接解析某个 URL 地址的 HTML 文本内容。它提供了一套很省力的 API，可通过 DOM、CSS 以及类似于 jQuery 选择器的操作方法来取出和操作数据。

jsoup 主要功能：

从一个 URL、文件或字符串中解析 HTML。
使用 DOM 或 CSS 选择器来查找、取出数据。
可操作 HTML 元素、属性、文本。

二、使用框架

2.1 准备工作

掌握 HTML 语法
Chrome 浏览器调试技巧
掌握开发工具 idea 的基本操作

2.2 学习源码

将项目导入 idea 开发工具，会自动下载 maven 项目需要的依赖。源码的项目结构如下：

快速学习源码是每个程序员必备的技能，我总结了以下几点：

阅读项目 ReadMe 文件，可以快速知道项目是做什么的。
概览项目 pom.xml 文件，了解项目引用了哪些依赖。
查看项目结构、源码目录、测试用例目录，好的项目结构清晰，层次明确。
运行测试用例，快速体验项目。

2.3 下载项目

git clone https://github.com/jhy/jsoup

2.4 运行项目测试代码

通过上面的方法，我们很快可知 example 目录是测试代码，那我们直接来运行。注：有些测试代码需要稍微改造一下才可以运行。

例如，jsoup 的 Wikipedia 测试代码：

public class Wikipedia {
    public static void main(String[] args) throws IOException {
        Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
        log(doc.title());

        Elements newsHeadlines = doc.select("#mp-itn b a");
        for (Element headline : newsHeadlines) {
            log("%s\n\t%s", headline.attr("title"), headline.absUrl("href"));
        }
    }

    private static void log(String msg, String... vals) {
        System.out.println(String.format(msg, vals));
    }
}

说明：上面代码是获取页面（http://en.wikipedia.org/）包含（#mp-itn b a）选择器的所有元素，并打印这些元素的 title , herf 属性。维基百科国内无法访问，所以上面这段代码运行会报错。

改造后可运行的代码如下：

public static void main(String[] args) throws IOException {
    Document doc = Jsoup.connect("https://www.baidu.com/").get();
    Elements newsHeadlines = doc.select("a[href]");
    for (Element headline : newsHeadlines) {
        System.out.println("href: " +headline.absUrl("href") );
    }
}

三、工作原理

Jsoup 的工作原理，首先需要指定一个 URL，框架发送 HTTP 请求，然后获取响应页面内容，然后通过各种选择器获取页面数据。整个工作流程如下图：

以上面为例：

3.1 发请求

Document doc = Jsoup.connect("https://www.baidu.com/").get();

这行代码就是发送 HTTP 请求，并获取页面响应数据。

3.2 数据筛选

Elements newsHeadlines = doc.select("a[href]");

定义选择器，获取匹配选择器的数据。

3.3 数据处理

for (Element headline : newsHeadlines) {
        System.out.println("href: " +headline.absUrl("href") );
    }

这里对数据只做了一个简单的数据打印，当然这些数据可写入文件或数据的。

四、实战

获取豆瓣读书 -> 新书速递中每本新书的基本信息。包括：书名、书图片链接、作者、内容简介（详情页面）、作者简介（详情页面）、当当网书的价格（详情页面），最后将获取的数据保存到 Excel 文件。

目标链接：https://book.douban.com/latest?icn=index-latestbook-all

4.1 项目 pom.xml 文件

项目引入 jsoup、lombok、easyexcel 三个库。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>
    <artifactId>JsoupTest</artifactId>
    <version>1.0-SNAPSHOT</version>
    <properties>
        <maven.compiler.target>1.8</maven.compiler.target>
        <maven.compiler.source>1.8</maven.compiler.source>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <version>1.18.12</version>
        </dependency>
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>easyexcel</artifactId>
            <version>2.2.6</version>
        </dependency>
    </dependencies>
</project>

4.2 解析页面数据

public class BookInfoUtils {

    public static List<BookEntity> getBookInfoList(String url) throws IOException {
        List<BookEntity>  bookEntities=new ArrayList<>();
        Document doc = Jsoup.connect(url).get();
        Elements liDiv = doc.select("#content > div > div.article > ul > li");
        for (Element li : liDiv) {
            Elements urls = li.select("a[href]");
            Elements imgUrl = li.select("a > img");
            Elements bookName = li.select(" div > h2 > a");
            Elements starsCount = li.select(" div > p.rating > span.font-small.color-lightgray");
            Elements author = li.select("div > p.color-gray");
            Elements description = li.select(" div > p.detail");

            String bookDetailUrl = urls.get(0).attr("href");
            BookDetailInfo detailInfo = getDetailInfo(bookDetailUrl);
            BookEntity bookEntity = BookEntity.builder()
                    .detailPageUrl(bookDetailUrl)
                    .bookImgUrl(imgUrl.attr("src"))
                    .bookName(bookName.html())
                    .starsCount(starsCount.html())
                    .author(author.text())
                    .bookDetailInfo(detailInfo)
                    .description(description.html())
                    .build();
//            System.out.println(bookEntity);
            bookEntities.add(bookEntity);
        }
        return bookEntities;
    }
    /**
     *
     * @param detailUrl
     * @return
     * @throws IOException
     */
    public static BookDetailInfo getDetailInfo(String detailUrl)throws IOException{

        Document doc = Jsoup.connect(detailUrl).get();
        Elements content = doc.select("body");

        Elements price = content.select("#buyinfo-printed > ul.bs.current-version-list > li:nth-child(2) > div.cell.price-btn-wrapper > div.cell.impression_track_mod_buyinfo > div.cell.price-wrapper > a > span");
        Elements author = content.select("#info > span:nth-child(1) > a");
        BookDetailInfo bookDetailInfo = BookDetailInfo.builder()
                .author(author.html())
                .authorUrl(author.attr("href"))
                .price(price.html())
                .build();
        return bookDetailInfo;
    }
}

这里的重点是要获取网页对应元素的选择器。

例如：获取 li.select("div > p.color-gray") 中 div > p.color-gray 是怎么知道的。

使用 chrome 的小伙伴应该都猜到了。打开 chrome 浏览器 Debug 模式，Ctrl + Shift +C 选择一个元素,然后在 html 右键选择 Copy ->Copy selector,这样就可以获取当前元素的选择器。如下图：

4.3 存储数据到 Excel

为了数据更好查看，我将通过 jsoup 抓取的数据存储的 Excel 文件，这里我使用的 easyexcel 快速生成 Excel 文件。

Excel 表头信息

@Data
@Builder
public class ColumnData {

    @ExcelProperty("书名称")
    private String bookName;

    @ExcelProperty("评分")
    private String starsCount;

    @ExcelProperty("作者")
    private String author;

    @ExcelProperty("封面图片")
    private String bookImgUrl;

    @ExcelProperty("简介")
    private String description;

    @ExcelProperty("单价")
    private String price;
}

生成 Excel 文件

public class EasyExcelUtils {

    public static void simpleWrite(List<BookEntity> bookEntityList) {
        String fileName = "D:\\devEnv\\JsoupTest\\bookList" + System.currentTimeMillis() + ".xlsx";
        EasyExcel.write(fileName, ColumnData.class).sheet("书本详情").doWrite(data(bookEntityList));
        System.out.println("excel文件生成完毕...");
    }
    private static List<ColumnData> data(List<BookEntity> bookEntityList) {
        List<ColumnData> list = new ArrayList<>();
        bookEntityList.forEach(b -> {
            ColumnData data = ColumnData.builder()
                    .bookName(b.getBookName())
                    .starsCount(b.getStarsCount())
                    .author(b.getBookDetailInfo().getAuthor())
                    .bookImgUrl(b.getBookImgUrl())
                    .description(b.getDescription())
                    .price(b.getBookDetailInfo().getPrice())
                    .build();
            list.add(data);
        });
        return list;
    }
}

4.4 最终展示效果

最终的效果如下图：

以上就是从想法到实践，我们就在实战中使用了 jsoup 的基本操作。

完整代码地址：https://github.com/hellowHuaairen/JsoupTest

五、最后

Java HTML Parser 库：jsoup，把它当成简单的爬虫用起来还是很方便的吧？

为什么会讲爬虫？大数据，人工智能时代玩的就是数据，数据很重要。作为懂点技术的我们，也需要掌握一种获取网络数据的技能。当然也有一些工具 Fiddler、webscraper 等也可以抓取你想要的数据。

教程至此，你应该也能对 jsoup 有一些感觉了吧。编程是不是也特别有意思呢？参考我上面的实战案例，有好多网站可以实践一下啦～欢迎在评论区晒你的实战。

合Java和Web开发，Learning Technologies公司推出CheerpJ准备作为编译器技术，将Java字节码转换为JavaScript，以便在浏览器中执行。基于LLVM / Clang编译器平台以及Learning Technologies的Cheerp C ++到JavaScript编译器，CheerpJ不需要源代码，就能把Java字节码转换为JavaScript。

在CheerpJ中，应用程序和Java库被转换为Web应用程序，因此不需要插件或Java安装。服务器端Java组件可以成为基于浏览器的客户端库，而本机Java代码作为Node.js服务器端JavaScript平台的平台无关的组件。

CheerpJ具有离线编译能力，将Java字节码转换为JavaScript以及基于JavaScript的Java运行时环境。另外该平台的还有一部分能力是动态类的即时编译器，用于与应用程序一起部署。

Java和JavaScript之间的双向互操作性可以从Java调用任何JavaScript库或浏览器API。此外，任何Java方法都可以暴露给JavaScript。可以在jar包以及单个.class文件中调用CheerpJ。被转换的程序可以通过jar.js和jar包部署在Web服务器上。

CheerpJ与其他类似技术不同之处在于可以将Java放在浏览器中，例如GWT（Google Web Toolkit ）。在其他类似技术中就缺乏对Java结构的完全支持，并且仅部分实现了Java运行时库。这些限制使这些其他技术更适合新的应用程序，而不是转换现有的。

从其他语言编译成JavaScript的其他技术包括Scala.js ， Kotlin语言和Microsoft的TypeScript 。

Learning Technologies计划于七月份公开发行CheerpJ，预计秋季将有商业版本。CheerpJ的远期目标是WebAssembly 。WebAssembly一种是为了解决JS的性能问题，适合于编译到Web，可移植的，大小和加载时间高效的二进制格式。

CheerpL Applet Viewer Extension是一款Chrome扩展，它可以在不需要Java安装或插件的情况下启用Java小程序。通过CheerpJ.js的即时汇编启用Applets。扩展程序现在处于beta版本中。

在线咨询

上一篇：不用react，C# 也可以使用Ant Design
下一篇：CSS table-layout 属性

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商