PyScript：让 Python 脚本在 Web 中跑起来

是下一个大事件吗？如果继续发展下去，有可能。

在 2022 年 PyCon 美国大会期间，作为主题演讲嘉宾之一的 Peter Wang 公布了 PyScript，一种在 HTML 中直接编写 Python 脚本的方法。或许你不知道 Peter，但你可能听说过 Anaconda，这是一种流行的开源的 Python 和 R 语言的发行版本，特别关注数据科学。Peter 正是 Anaconda 的 CEO 和联合创始人。

换言之，PyScript 是由一家著名的科技公司开发的，这可能会保证它在不久的将来成为可行的方案。它在 Python 和 Web 开发者中受到了极大的关注，GitHub 上已有超过 10k 颗 Stars。然而，它是否能成为一个成功的、有竞争力的产品，取决于长期的时间和开发投入。目前，它还有一些已知的缺陷（将在最后讨论）。

闲话少说，让我们快速了解一下这个令人振奋的产品吧！

py-script 标签

我们知道，HTML 文件是大多数网站最常见的元素。在创建网站时，我们的工作就是直接或间接地通过一些框架来编制 HTML 文件。在典型的 HTML 文件中，你会看到各种类型的标签。例如，<head>定义了 HTML 页面的元数据和关键信息，<title>是整个文档的标题，而<h1>、<h2>等定义了不同级别的内容标题。

如前所述，PyScript 允许你在 HTML 中编写 Python 脚本，它使用一个特殊的标签py-script。在这个标签中，你可以嵌入 Python 脚本。要了解它是如何工作的，可以创建一个 HTML 文件，其中包含以下代码，并使用 Chrome 浏览器打开该文件。在 Chrome 浏览器中，你应该能够看到类似下面这样的内容：

作者截图

在上面的代码片段中，你可能已经注意到以下三个关键点：

link标签定义了一个外部样式表。在这个例子中，我们使用了 PyScript 提供的css文件。
我们使用script标签来嵌入一个由src定义、由 PyScript 托管的外部脚本。我们使用了defer，这样脚本会在下载和页面解析完成后执行——本质上是一种延迟执行，而不是实时执行。
最有趣的部分是py-script标签。如你所见，print("Hello, World!")是 Python 代码。当执行 HTML 文件时，就可以看到代码求值结果。

这很酷，不是吗？如果你不熟悉 Web 开发，但了解 Python，就可以使用 PyScript 嵌入任何有效的 Python 代码。让我们再看一个例子。

另一个 PyScript 示例（图片由作者提供）

在这里，我们写了一些需要计算的代码，可以看到，脚本得到了正确的执行。

py-env 标签

在编写更复杂的代码时，就需要使用第三方库。在这种情况下，我们可以利用py-env标签。你可能已经猜到的，env 是 environment 的缩写。py-env标签中列出了运行代码所需的 Python 包。

你可能知道，许多数据科学家都使用 pandas 进行数据处理工作。让我们看看下面的例子。

使用包的 PyScript（图片由作者提供）

如你所见，我们在py-env标签中指定了依赖项（即 Pandas），该标签包含在head标签中。如果页面需要多个依赖项，可以在这里把它们全部列出：

<py-env>
  - pandas
  - matplotlib
  - numpy
</py-env>

复制代码

如你所见，在py-script标签中，我们确实可以使用 Pandas 库来创建一个DataFrame对象。然而，当我们把打印出来时就会发现，它是一个单行，而不是一个结构化的数据表。没有一个适当的结构，我们就无法理解这些数据。幸运的是，我们可以使用write函数（下文会讨论）。

将内容写入指定标签

除了 Python 中的标准打印函数print，作为脚本的一部分，PyScript 有自己的write函数，可以将数据发送到页面上指定的 Web 元素中。请看下面的例子：

PyScript 写函数 write（图片由作者提供）

与之前的例子相比，上述代码片段有两个重大变化：

我们现在定义了一个 id 为"DataFrame"的div，这样稍后就可以引用。
在py-script标签中，我们创建一个与之前相同的DataFrame对象。但现在，我们不是调用print，而是调用pyscript.write函数，请求 PyScript 处理并在"DataFrame"中显示DataFrame对象。从输出可以看到，我们现在有一个结构化的表格了。

write函数不仅能够打印表格，还能够打印数字。下面的例子向你展示了我们如何使用matplotlib（一个流行的 Python 包，用于数据可视化）来显示由 Python 创建的图。

PyScript 打印图（图片由作者提供）

如你所见，write 函数以期望的方式显示了图。

py-repl 标签

Python 学习的最好方法之一是使用 REPL：读取（Read）、求值（Evaluate）、打印（Print）和循环（Loop）。也就是说，使用一个交互式的 Python 控制台，输入一些代码，Python 对其进行求值并打印适当的输出，然后重复这个过程。Web 页面也可以提供这样的 REPL 环境，比如 Jupyter Notebook。

PyScript 可以使用py-repl标签提供与此类似的东西。在这个元素中，你可以让用户自己编写代码，也可以以编程方式输入代码。请看下面的例子：

PyScript REPL（图片由作者提供）

如你所见，上图中有一个单元格，其中包括在py-repl标签中指定的代码。值得注意的是，单元格中的代码可以引用我们之前在py-script标签中定义的变量。一切看起来都很协调。

感想

本文介绍的内容是现阶段 PyScript 所能提供的主要亮点。它似乎是一个很有前途的产品，因为它提供了一个灵活的框架，让 Python 程序员可以在没有太多 Web 开发知识的情况下创建 Web 应用。然而，也有其他类似的成功的产品，因此，竞争会很激烈。

例如，如果我需要为自己的数据科学项目创建一个 Web 应用，我就会直接使用 Streamlit。它的功能已经相对成熟。请注意，虽然都与 Web 开发有关，但 PyScript 和 Streamlit 属于不同的产品系。PyScript 应该更通用，因为它的目标是让你可以在任何网页上嵌入任何 Python 代码，Streamlit 做不到这一点。

在 PyScript 为更多的人所接受之前，它有几个问题必须解决。例如，Web 页面的加载速度非常慢。如果你尝试跟随本教程运行代码，可能就会注意到，在 Web 页面的显示会有一个明显的滞后。

尽管如此，我还是觉得这个产品会继续发展，我的信心主要来自于它的开发者——给我们带来极好的 Anaconda 工具的 Anaconda 团队。

本文最初发布于 Better Programming。

查看英文原文：Running Python Scripts on the Web Using PyScript

了解更多软件开发与相关领域知识，点击访问 InfoQ 官网：https://www.infoq.cn/，获取更多精彩内容！

者：刘早起

来源：早起Python

如何在线执行 pandas 代码感兴趣，今天就简单来说一下我探索这一功能的过程。

首先在设计这一功能时，需要先明确大致需求：

⭐⭐⭐用户可以在当前页面执行
不同用户之间独立运行
不需要加载额外代码或操作

其中最重要的一点就是用户可以在当前网站、当前单元格执行代码，其次尽可能的减少其他操作。

其实为了实现这个功能，我探索了大半个月，不断修改方案，删掉了几个写了很久但是不能完美实现的代码，几度放弃，最后还是磕磕碰碰的做出来，下面是我的一些经验，仅供参考。

方案1

首先最简单的思路就是用自己的服务器，前端写一个输入框，然后将用户提交的代码到后台，执行后再返回前端，就像这样

但是思索了一番还是放弃了，除了要防止恶意用户执行sudo rm - rf /*之类的代码，为了满足第二个需求就要给每个用户分配一定的空间，这就很吃服务器的配置，例如前天最高100+用户同时运行，我的 4c8g 服务器肯定是带不动的。

并且如果采取这个的方案，理论上可以实现，但除了升级服务器要钱，我也没有开发类似产品的经验，时间成本不好预估，遂放弃。

方案2

之后又是一番面向 stackoverflow 编程，我了解到很多可以在线执行代码的网站，就像这样

确实可以在线执行一段代码，但是除去我是否能做出来，如何控制权限等问题，这样的网站主要是以执行代码为主，无法完成 pandas 教程的任务。

并且代码不能预设置，只能进入页面后手动输入，本地数据也不好加载，而且执行一次就要跳转到一个新的页面，十分繁琐（写一个爬虫接口也是一个办法，但是就太依赖对方网站），于是很快放弃了这条思路。

Jupyterhub

继续一番搜索后，我发现了一个神器 —— Jupyterhub

如上图架构展示的一样，使用Jupyterhub 可以给每个用户分配一个独立的Jupyter Notebook，并且无需考虑权限等问题，我也可以提前将代码和数据进行预设。

但问题在于采取此方案无法满足教程需求，因为全部内容都需要放在 Jupyter Notebook中，整体上就是将 pandas300题做成了在线版，而我想要的是一个网站。

并且使用Jupyterhub不可避免的要进行一些 docker 或 k8s 操作，这也不是我熟悉的领域，虽热在这条思路上走了一段时间，但还是放弃了。

JupyterBook

之后又是一番检索，但无非都是上面几种方案，在我感觉要放弃做这个网站时，无意中发现一个项目JupyterBook

简单来说，他可以将你的 Jupyter Notebook 转换为 html 页面（基于 sphinx），并且一个很重要的特点就是可以在线、交互式执行代码。

具体怎么实现的呢？首先需要将你的项目上传到一个公共资源平台binder，这个网站会为你的项目创建一个镜像，这样可以方便给不同用户使用

简单来说，可以理解为将你的 Jupyter Notebook 挂在这个网站，别人就能去在线执行，但是很明显，我们都需要跳转到这个页面去使用，而我希望在当前页面执行代码。

这时就需要在使用另一个项目（Thebe）

它使用JupyterLab API，通过加载一段JS代码，再指定一个执行后端（上面提到的binder），就可以在当前页面执行代码。

听起来很复杂，但是实现起来很简单，上面我们说到，JupyterBook 是基于 Sphinx制作页面的，所以只需要提前在配置 Sphinx时加载 sphinx_thebe插件即可，

至此，开头我需求中的1、2就完美实现了，还剩最后一个问题就是如何让用户更少的执行代码？

如果你体验过我的网站，你会发现执行一个 pandas 操作连 import pandas as pd和读取数据的操作都不用！

其实这些代码在启动jupyter notebook时就预先加载了，只需要在对应单元格上加上 thebe-init的 tag 即可。

当然，使用 JupyterBook 还是有很多坑，消耗我最多的时间就是在修改样式上，默认的样式如下，可能英文状态下表现还行，但是到中文并不是很适配

为了大家不仅用的爽，我对网站颜值的要求也很高，于是爆改了几千行的 css 和 js 代码，甚至组件的位置都调整到小数点后两位才让我满意，磕磕碰碰一个多月终于将整个网站做出来

最后，本文仅是对在线执行代码做了一个快速、不完整的总结。由于篇幅限制，还有很多搭建、部署网站细节的内容没有涉及到，如果你觉得不错，欢迎点赞、转发。

器之心报道

项目作者：vinayak mehta参与：一鸣

从 PDF 表格中获取数据是一项痛苦的工作。不久前，一位开发者提供了一个名为 Camelot 的工具，使用三行代码就能从 PDF 文件中提取表格数据。

PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来，形成版面清晰且美观的展示效果。然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。

大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据，但是对于如果想要直接从表格中复制数据则会非常麻烦。不久前，有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot，能够直接将大部分表格转换为 Pandas 的 Dataframe。

项目地址：https://github.com/camelot-dev/camelot

Camelot 是什么

据项目介绍称，Camelot 是一个 Python 工具，用于将 PDF 文件中的表格数据提取出来。

具体而言，用户可以像使用 Pandas 那样打开 PDF 文件，然后利用这个工具提取表格数据，最后再指定输出的形式（如 csv 文件）。

代码示例

项目提供的 PDF 文件如图所示，假设用户需要提取这些文字之间的表格 2-1 中的信息。

PDF 文件。我们需要提取表格 2-1。

使用 Camelot 提取表格数据的代码如下：

>>> import camelot
>>> tables = camelot.read_pdf('foo.pdf') #类似于Pandas打开CSV文件的形式
>>> tables[0].df # get a pandas DataFrame!
>>> tables.export('foo.csv', f='csv', compress=True) # json, excel, html, sqlite，可指定输出格式
>>> tables[0].to_csv('foo.csv') # to_json, to_excel, to_html, to_sqlite， 导出数据为文件
>>> tables
<TableList n=1>
>>> tables[0]
<Table shape=(7, 7)> # 获得输出的格式
>>> tables[0].parsing_report
{
 'accuracy': 99.02,
 'whitespace': 12.24,
 'order': 1,
 'page': 1
}

以下为输出的结果，对于合并的单元格，Camelot 在抽取后做了空行处理，这是一个稳妥的方法。

安装方法

项目作者提供了三种安装方法。首先，你可以使用 Conda 进行安装，这是最简单的。

conda install -c conda-forge camelot-py

最流行的安装方法是使用 pip 安装。

pip install camelot-py[cv]

还可以从项目中克隆代码，并使用源码安装。

在线咨询

上一篇：十款好用的HTML生成工具推荐，帮你高效完成开发
下一篇：HTML-盒子模型的应用

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商