是下一个大事件吗?如果继续发展下去,有可能。
在 2022 年 PyCon 美国大会期间,作为主题演讲嘉宾之一的 Peter Wang 公布了 PyScript,一种在 HTML 中直接编写 Python 脚本的方法。或许你不知道 Peter,但你可能听说过 Anaconda,这是一种流行的开源的 Python 和 R 语言的发行版本,特别关注数据科学。Peter 正是 Anaconda 的 CEO 和联合创始人。
换言之,PyScript 是由一家著名的科技公司开发的,这可能会保证它在不久的将来成为可行的方案。它在 Python 和 Web 开发者中受到了极大的关注,GitHub 上已有超过 10k 颗 Stars。然而,它是否能成为一个成功的、有竞争力的产品,取决于长期的时间和开发投入。目前,它还有一些已知的缺陷(将在最后讨论)。
闲话少说,让我们快速了解一下这个令人振奋的产品吧!
我们知道,HTML 文件是大多数网站最常见的元素。在创建网站时,我们的工作就是直接或间接地通过一些框架来编制 HTML 文件。在典型的 HTML 文件中,你会看到各种类型的标签。例如,<head>定义了 HTML 页面的元数据和关键信息,<title>是整个文档的标题,而<h1>、<h2>等定义了不同级别的内容标题。
如前所述,PyScript 允许你在 HTML 中编写 Python 脚本,它使用一个特殊的标签py-script。在这个标签中,你可以嵌入 Python 脚本。要了解它是如何工作的,可以创建一个 HTML 文件,其中包含以下代码,并使用 Chrome 浏览器打开该文件。在 Chrome 浏览器中,你应该能够看到类似下面这样的内容:
作者截图
在上面的代码片段中,你可能已经注意到以下三个关键点:
这很酷,不是吗?如果你不熟悉 Web 开发,但了解 Python,就可以使用 PyScript 嵌入任何有效的 Python 代码。让我们再看一个例子。
另一个 PyScript 示例(图片由作者提供)
在这里,我们写了一些需要计算的代码,可以看到,脚本得到了正确的执行。
在编写更复杂的代码时,就需要使用第三方库。在这种情况下,我们可以利用py-env标签。你可能已经猜到的,env 是 environment 的缩写。py-env标签中列出了运行代码所需的 Python 包。
你可能知道,许多数据科学家都使用 pandas 进行数据处理工作。让我们看看下面的例子。
使用包的 PyScript(图片由作者提供)
如你所见,我们在py-env标签中指定了依赖项(即 Pandas),该标签包含在head标签中。如果页面需要多个依赖项,可以在这里把它们全部列出:
<py-env>
- pandas
- matplotlib
- numpy
</py-env>
复制代码
如你所见,在py-script标签中,我们确实可以使用 Pandas 库来创建一个DataFrame对象。然而,当我们把打印出来时就会发现,它是一个单行,而不是一个结构化的数据表。没有一个适当的结构,我们就无法理解这些数据。幸运的是,我们可以使用write函数(下文会讨论)。
除了 Python 中的标准打印函数print,作为脚本的一部分,PyScript 有自己的write函数,可以将数据发送到页面上指定的 Web 元素中。请看下面的例子:
PyScript 写函数 write(图片由作者提供)
与之前的例子相比,上述代码片段有两个重大变化:
write函数不仅能够打印表格,还能够打印数字。下面的例子向你展示了我们如何使用matplotlib(一个流行的 Python 包,用于数据可视化)来显示由 Python 创建的图。
PyScript 打印图(图片由作者提供)
如你所见,write 函数以期望的方式显示了图。
Python 学习的最好方法之一是使用 REPL:读取(Read)、求值(Evaluate)、打印(Print)和循环(Loop)。也就是说,使用一个交互式的 Python 控制台,输入一些代码,Python 对其进行求值并打印适当的输出,然后重复这个过程。Web 页面也可以提供这样的 REPL 环境,比如 Jupyter Notebook。
PyScript 可以使用py-repl标签提供与此类似的东西。在这个元素中,你可以让用户自己编写代码,也可以以编程方式输入代码。请看下面的例子:
PyScript REPL(图片由作者提供)
如你所见,上图中有一个单元格,其中包括在py-repl标签中指定的代码。值得注意的是,单元格中的代码可以引用我们之前在py-script标签中定义的变量。一切看起来都很协调。
本文介绍的内容是现阶段 PyScript 所能提供的主要亮点。它似乎是一个很有前途的产品,因为它提供了一个灵活的框架,让 Python 程序员可以在没有太多 Web 开发知识的情况下创建 Web 应用。然而,也有其他类似的成功的产品,因此,竞争会很激烈。
例如,如果我需要为自己的数据科学项目创建一个 Web 应用,我就会直接使用 Streamlit。它的功能已经相对成熟。请注意,虽然都与 Web 开发有关,但 PyScript 和 Streamlit 属于不同的产品系。PyScript 应该更通用,因为它的目标是让你可以在任何网页上嵌入任何 Python 代码,Streamlit 做不到这一点。
在 PyScript 为更多的人所接受之前,它有几个问题必须解决。例如,Web 页面的加载速度非常慢。如果你尝试跟随本教程运行代码,可能就会注意到,在 Web 页面的显示会有一个明显的滞后。
尽管如此,我还是觉得这个产品会继续发展,我的信心主要来自于它的开发者——给我们带来极好的 Anaconda 工具的 Anaconda 团队。
本文最初发布于 Better Programming。
查看英文原文:Running Python Scripts on the Web Using PyScript
了解更多软件开发与相关领域知识,点击访问 InfoQ 官网:https://www.infoq.cn/,获取更多精彩内容!
者:刘早起
来源:早起Python
如何在线执行 pandas 代码感兴趣,今天就简单来说一下我探索这一功能的过程。
首先在设计这一功能时,需要先明确大致需求:
其中最重要的一点就是用户可以在当前网站、当前单元格执行代码,其次尽可能的减少其他操作。
其实为了实现这个功能,我探索了大半个月,不断修改方案,删掉了几个写了很久但是不能完美实现的代码,几度放弃,最后还是磕磕碰碰的做出来,下面是我的一些经验,仅供参考。
首先最简单的思路就是用自己的服务器,前端写一个输入框,然后将用户提交的代码到后台,执行后再返回前端,就像这样
但是思索了一番还是放弃了,除了要防止恶意用户执行sudo rm - rf /*之类的代码,为了满足第二个需求就要给每个用户分配一定的空间,这就很吃服务器的配置,例如前天最高100+用户同时运行,我的 4c8g 服务器肯定是带不动的。
并且如果采取这个的方案,理论上可以实现,但除了升级服务器要钱,我也没有开发类似产品的经验,时间成本不好预估,遂放弃。
之后又是一番面向 stackoverflow 编程,我了解到很多可以在线执行代码的网站,就像这样
确实可以在线执行一段代码,但是除去我是否能做出来,如何控制权限等问题,这样的网站主要是以执行代码为主,无法完成 pandas 教程的任务。
并且代码不能预设置,只能进入页面后手动输入,本地数据也不好加载,而且执行一次就要跳转到一个新的页面,十分繁琐(写一个爬虫接口也是一个办法,但是就太依赖对方网站),于是很快放弃了这条思路。
继续一番搜索后,我发现了一个神器 —— Jupyterhub
如上图架构展示的一样,使用Jupyterhub 可以给每个用户分配一个独立的Jupyter Notebook,并且无需考虑权限等问题,我也可以提前将代码和数据进行预设。
但问题在于采取此方案无法满足教程需求,因为全部内容都需要放在 Jupyter Notebook中,整体上就是将 pandas300题做成了在线版,而我想要的是一个网站。
并且使用Jupyterhub不可避免的要进行一些 docker 或 k8s 操作,这也不是我熟悉的领域,虽热在这条思路上走了一段时间,但还是放弃了。
之后又是一番检索,但无非都是上面几种方案,在我感觉要放弃做这个网站时,无意中发现一个项目JupyterBook
简单来说,他可以将你的 Jupyter Notebook 转换为 html 页面(基于 sphinx),并且一个很重要的特点就是可以在线、交互式执行代码。
具体怎么实现的呢?首先需要将你的项目上传到一个公共资源平台binder,这个网站会为你的项目创建一个镜像,这样可以方便给不同用户使用
简单来说,可以理解为将你的 Jupyter Notebook 挂在这个网站,别人就能去在线执行,但是很明显,我们都需要跳转到这个页面去使用,而我希望在当前页面执行代码。
这时就需要在使用另一个项目(Thebe)
它使用JupyterLab API,通过加载一段JS代码,再指定一个执行后端(上面提到的binder),就可以在当前页面执行代码。
听起来很复杂,但是实现起来很简单,上面我们说到,JupyterBook 是基于 Sphinx制作页面的,所以只需要提前在配置 Sphinx时加载 sphinx_thebe插件即可,
至此,开头我需求中的1、2就完美实现了,还剩最后一个问题就是如何让用户更少的执行代码?
如果你体验过我的网站,你会发现执行一个 pandas 操作连 import pandas as pd和读取数据的操作都不用!
其实这些代码在启动jupyter notebook时就预先加载了,只需要在对应单元格上加上 thebe-init的 tag 即可。
当然,使用 JupyterBook 还是有很多坑,消耗我最多的时间就是在修改样式上,默认的样式如下,可能英文状态下表现还行,但是到中文并不是很适配
为了大家不仅用的爽,我对网站颜值的要求也很高,于是爆改了几千行的 css 和 js 代码,甚至组件的位置都调整到小数点后两位才让我满意,磕磕碰碰一个多月终于将整个网站做出来
最后,本文仅是对在线执行代码做了一个快速、不完整的总结。由于篇幅限制,还有很多搭建、部署网站细节的内容没有涉及到,如果你觉得不错,欢迎点赞、转发。
器之心报道
项目作者:vinayak mehta参与:一鸣
从 PDF 表格中获取数据是一项痛苦的工作。不久前,一位开发者提供了一个名为 Camelot 的工具,使用三行代码就能从 PDF 文件中提取表格数据。
PDF 文件是一种非常常用的文件格式,通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来,形成版面清晰且美观的展示效果。然而,对于想要从 PDF 中提取信息的人们来说,PDF 是个噩梦,尤其是表格。
大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据,但是对于如果想要直接从表格中复制数据则会非常麻烦。不久前,有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot,能够直接将大部分表格转换为 Pandas 的 Dataframe。
Camelot 是什么
据项目介绍称,Camelot 是一个 Python 工具,用于将 PDF 文件中的表格数据提取出来。
具体而言,用户可以像使用 Pandas 那样打开 PDF 文件,然后利用这个工具提取表格数据,最后再指定输出的形式(如 csv 文件)。
代码示例
项目提供的 PDF 文件如图所示,假设用户需要提取这些文字之间的表格 2-1 中的信息。
PDF 文件。我们需要提取表格 2-1。
使用 Camelot 提取表格数据的代码如下:
>>> import camelot >>> tables = camelot.read_pdf('foo.pdf') #类似于Pandas打开CSV文件的形式 >>> tables[0].df # get a pandas DataFrame! >>> tables.export('foo.csv', f='csv', compress=True) # json, excel, html, sqlite,可指定输出格式 >>> tables[0].to_csv('foo.csv') # to_json, to_excel, to_html, to_sqlite, 导出数据为文件 >>> tables <TableList n=1> >>> tables[0] <Table shape=(7, 7)> # 获得输出的格式 >>> tables[0].parsing_report { 'accuracy': 99.02, 'whitespace': 12.24, 'order': 1, 'page': 1 }
以下为输出的结果,对于合并的单元格,Camelot 在抽取后做了空行处理,这是一个稳妥的方法。
安装方法
项目作者提供了三种安装方法。首先,你可以使用 Conda 进行安装,这是最简单的。
conda install -c conda-forge camelot-py
最流行的安装方法是使用 pip 安装。
pip install camelot-py[cv]
还可以从项目中克隆代码,并使用源码安装。
*请认真填写需求信息,我们会在24小时内与您取得联系。