如何使用htmlq提取html文件内容

tmlq能够对 HTML 数据进行 sed 或 grep 操作。我们可以使用 htmlq 搜索、切片和过滤 HTML 数据。让我们看看如何在 Linux 或 Unix 上安装和使用这个方便的工具并处理 HTML 数据。

什么是htmlq？

htmlq类似于 jq，但用于 HTML。使用 CSS 选择器从 HTML 文件中提取部分内容。在 CSS 中，选择器用于定位我们想要设置样式的网页上的 HTML 元素。例如，我们可以使用此工具轻松提取图像或其他 URL。

安装htmlq

首先需要在系统中安装cargo然后使用cargo来安装htmlq：

[root@localhost ~]# yum -y install cargo
[root@localhost ~]# cargo install htmlq

设置可执行的路径

确保将 $HOME/.cargo/bin 添加到 PATH 变量中，以便能够使用 export 命令运行已安装的二进制文件：

[root@localhost ~]# echo 'export PATH="$PATH:$HOME/.cargo/bin"' >> ~/.bash_profile 
[root@localhost ~]# . ~/.bash_profile

如何使用 htmlq 从 HTML 文件中提取内容？

下面是使用curl和htmlq的用法：

curl -s url | htmlq '#css-selector'
curl -s url2 | htmlq '.css-selector'
curl -s https://www.linuxprobe.com | htmlq --pretty '#content' | more

让我们找到页面中的所有链接。例如：

[root@localhost ~]# curl -s https://www.linuxprobe.com | htmlq --attribute href a

人性化显示HTML:

[root@localhost ~]# curl --silent https://mgdm.net | htmlq --pretty '#posts'

帮助手册

使用下面命令查看帮助页面：

[root@localhost ~]# htmlq --help
htmlq 0.3.0
Michael Maclean <michael@mgdm.net>
Runs CSS selectors on HTML

USAGE:
    htmlq [FLAGS] [OPTIONS] [selector]...

FLAGS:
    -B, --detect-base          Try to detect the base URL from the <base> tag in the document. If not found, default to
                               the value of --base, if supplied
    -h, --help                 Prints help information
    -w, --ignore-whitespace    When printing text nodes, ignore those that consist entirely of whitespace
    -p, --pretty               Pretty-print the serialised output
    -t, --text                 Output only the contents of text nodes inside selected elements
    -V, --version              Prints version information

OPTIONS:
    -a, --attribute <attribute>    Only return this attribute (if present) from selected elements
    -b, --base <base>              Use this URL as the base for links
    -f, --filename <FILE>          The input file. Defaults to stdin
    -o, --output <FILE>            The output file. Defaults to stdout

ARGS:
    <selector>...    The CSS expression to select [default: html]

总结

htmlq能够对 HTML 数据进行 sed 或 grep 操作。我们可以使用 htmlq 搜索、切片和过滤 HTML 数据。

虫是Python的一个重要的应用，使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据，本文将基于爬取B站视频热搜榜单数据并存储为例，详细介绍Python爬虫的基本流程。如果你还在入门爬虫阶段或者不清楚爬虫的具体工作流程，那么应该仔细阅读本文！

第一步：尝试请求

首先进入b站首页，点击排行榜并复制链接

https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3

现在启动Jupyter notebook，并运行以下代码

import requests

url = 'https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3'
res = requests.get('url')
print(res.status_code)
#200

在上面的代码中，我们完成了下面三件事

导入requests
使用get方法构造请求
使用status_code获取网页状态码

可以看到返回值是200，表示服务器正常响应，这意味着我们可以继续进行。

第二步：解析页面

在上一步我们通过requests向网站请求数据后，成功得到一个包含服务器资源的Response对象，现在我们可以使用.text来查看其内容

可以看到返回一个字符串，里面有我们需要的热榜视频数据，但是直接从字符串中提取内容是比较复杂且低效的，因此我们需要对其进行解析，将字符串转换为网页结构化数据，这样可以很方便地查找HTML标签以及其中的属性和内容。

在Python中解析网页的方法有很多，可以使用正则表达式，也可以使用BeautifulSoup、pyquery或lxml，本文将基于BeautifulSoup进行讲解.

Beautiful Soup是一个可以从HTML或XML文件中提取数据的第三方库.安装也很简单，使用pip install bs4安装即可，下面让我们用一个简单的例子说明它是怎样工作的

from bs4 import BeautifulSoup

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
title = soup.title.text
print(title)
# 热门视频排行榜 - 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

在上面的代码中，我们通过bs4中的BeautifulSoup类将上一步得到的html格式字符串转换为一个BeautifulSoup对象，注意在使用时需要制定一个解析器，这里使用的是html.parser。

接着就可以获取其中的某个结构化元素及其属性，比如使用soup.title.text获取页面标题，同样可以使用soup.body、soup.p等获取任意需要的元素。

第三步：提取内容

在上面两步中，我们分别使用requests向网页请求数据并使用bs4解析页面，现在来到最关键的步骤：如何从解析完的页面中提取需要的内容。

在Beautiful Soup中，我们可以使用find/find_all来定位元素，但我更习惯使用CSS选择器.select，因为可以像使用CSS选择元素一样向下访问DOM树。

现在我们用代码讲解如何从解析完的页面中提取B站热榜的数据，首先我们需要找到存储数据的标签，在榜单页面按下F12并按照下图指示找到

可以看到每一个视频信息都被包在class="rank-item"的li标签下，那么代码就可以这样写

在线咨询

上一篇：技术贴：一篇文章看懂链接（超链接）设计
下一篇：一篇文章带你了解CSS 文本样式

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

如何使用htmlq提取html文件内容

您的项目需求