使用JavaScript写爬虫

比Python，JavaScript才是更适合写爬虫的语言。原因有如下三个方面：

JavaScript异步IO机制适用于爬虫这种IO密集型任务。JavaScript中的回调非常自然，使用异步网络请求能够充分利用CPU。
JavaScript中的jQuery毫无疑问是最强悍的HTML解析工具，使用JavaScript写爬虫能够减少学习负担和记忆负担。虽然Python中有PyQuery，但终究还是比不上jQuery自然。
爬取结果多为JSON，JavaScript是最适合处理JSON的语言。

一、任务：爬取用户在Github上的repo信息

通过实例的方式学习爬虫是最好的方法，先定一个小目标：爬取github repo信息。入口URL如下，我们只需要一直点击next按钮就能够遍历到用户的所有repo。

https://github.com/{{username}}?tab=repositories

获取repo之后，可以做什么？

统计用户最常使用的语言，统计用户语言使用分布情况统计用户所获取的star数，fork数

二、爬虫双股剑：axios和jQuery

axios是JavaScript中很常用的异步网络请求库，相比jQuery，它更轻量、更专业。既能够用于浏览器端，也可以用于Node。它的语法风格是promise形式的。在本任务中，只需要了解如下用法就足够了：

axios.get(url).then((resp) => {
 请求成功，处理resp.data中的html数据
}).catch((err) => {
 请求失败，错误处理
})

请求之后需要处理回复结果，处理回复结果的库当然是用jQuery。实际上，我们有更好的选择：cheerio。

在node下，使用jQuery，需要使用jsdom库模拟一个window对象，这种方法效率较低，四个字形容就是：笨重稳妥。

如下代码使用jQuery解析haha.html文件

fs = require("fs")
jquery=require('jquery')
jsdom=require('jsdom') //fs.readFileSync()返回结果是一个buffer，相当于byte[] 
html = fs.readFileSync('haha.html').toString('utf8') 
dom= new jsdom.JSDOM(html) 
$=jquery(dom.window) console.log($('h1'))

cheerio只实现了jQuery中的DOM部分，相当于jQuery的一个子集。cheerio的语法和jQuery完全一致，在使用cheerio时，几乎感觉不到它和jQuery的差异。在解析HTML方面，毫无疑问，cheerio是更好的选择。如下代码使用cheerio解析haha.html文件。

cheerio=require('cheerio')
html=require('fs').readFileSync("haha.html").toString('utf8')
$=cheerio.load(html)
console.log($('h1'))

只需20余行，便可实现简单的github爬虫，此爬虫只爬取了一页repo列表。

var axios = require("axios")
var cheerio = require("cheerio")
axios.get("https://github.com/weiyinfu?tab=repositories").then(resp => {
 var $ = cheerio.load(resp.data)
 var lis = $("#user-repositories-list li")
 var repos = []
 for (var i = 0; i < lis.length; i++) {
 var li = lis.eq(i)
 var repo = {
 repoName: li.find("h3").text().trim(),
 repoUrl: li.find("h3 a").attr("href").trim(),
 repoDesc: li.find("p").text().trim(),
 language: li.find("[itemprop=programmingLanguage]").text().trim(),
 star: li.find(".muted-link.mr-3").eq(0).text().trim(),
 fork: li.find(".muted-link.mr-3").eq(1).text().trim(),
 forkedFrom: li.find(".f6.text-gray.mb-1 a").text().trim()
 }
 repos.push(repo)
 }
 console.log(repos)
})

三、更丰富的功能

爬虫不是目的，而是达成目的的一种手段。获取数据也不是目的，从数据中提取统计信息并呈现给人才是最终目的。

在github爬虫的基础上，我们可以扩展出更加丰富的功能：使用echarts等图表展示结果。

要想让更多人使用此爬虫工具获取自己的github统计信息，就需要将做成一个网站的形式，通过搜索页面输入用户名，启动爬虫立即爬取github信息，然后使用echarts进行统计展示。网站肯定也要用js作为后端，这样才能和js爬虫无缝衔接，不然还要考虑跨语言调用。js后端有两大web框架express和koa，二者API非常相似，并无优劣之分，但express更加流行。

如上设计有一处用户体验不佳的地方：当启动爬虫爬取github信息时，用户可能需要等待好几秒，这个过程不能让用户干等着。一种解决思路是：让用户看到爬虫爬取的进度或者爬取过程。可以通过websocket向用户推送爬取过程信息并在前端进行展示。展示时，使用类似控制台的界面进行展示。

如何存储爬取到的数据呢？使用MongoDB或者文件都可以，最好实现两种存储方式，让系统的存储方式变得可配置。使用MongoDB时，用到js中的连接池框架generic-pool。

整个项目用到的库包括：

express：后端框架
cheerio+axios：爬虫
ws：websocket展示爬取过程
webpack：打包工具
less：样式语言
echarts：图表展示
vue：模板渲染
jquery：DOM操作
mongodb：存储数据
generic-pool：数据库连接池

试用地址：

https://weiyinfu.cn/githubstatistic/search.html

案例地址：https://github.com/weiyinfu/GithubStatistic

原文链接：https://zhuanlan.zhihu.com/p/53763115

虫是Python的一个重要的应用，使用Python爬虫我们可以轻松的从互联网中抓取我们想要的数据，本文将基于爬取B站视频热搜榜单数据并存储为例，详细介绍Python爬虫的基本流程。如果你还在入门爬虫阶段或者不清楚爬虫的具体工作流程，那么应该仔细阅读本文！

第一步：尝试请求

首先进入b站首页，点击排行榜并复制链接

https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3

现在启动Jupyter notebook，并运行以下代码

import requests

url = 'https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3'
res = requests.get('url')
print(res.status_code)
#200

在上面的代码中，我们完成了下面三件事

导入requests
使用get方法构造请求
使用status_code获取网页状态码

可以看到返回值是200，表示服务器正常响应，这意味着我们可以继续进行。

第二步：解析页面

在上一步我们通过requests向网站请求数据后，成功得到一个包含服务器资源的Response对象，现在我们可以使用.text来查看其内容

可以看到返回一个字符串，里面有我们需要的热榜视频数据，但是直接从字符串中提取内容是比较复杂且低效的，因此我们需要对其进行解析，将字符串转换为网页结构化数据，这样可以很方便地查找HTML标签以及其中的属性和内容。

在Python中解析网页的方法有很多，可以使用正则表达式，也可以使用BeautifulSoup、pyquery或lxml，本文将基于BeautifulSoup进行讲解.

Beautiful Soup是一个可以从HTML或XML文件中提取数据的第三方库.安装也很简单，使用pip install bs4安装即可，下面让我们用一个简单的例子说明它是怎样工作的

from bs4 import BeautifulSoup

page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
title = soup.title.text
print(title)
# 热门视频排行榜 - 哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

在上面的代码中，我们通过bs4中的BeautifulSoup类将上一步得到的html格式字符串转换为一个BeautifulSoup对象，注意在使用时需要制定一个解析器，这里使用的是html.parser。

接着就可以获取其中的某个结构化元素及其属性，比如使用soup.title.text获取页面标题，同样可以使用soup.body、soup.p等获取任意需要的元素。

第三步：提取内容

在上面两步中，我们分别使用requests向网页请求数据并使用bs4解析页面，现在来到最关键的步骤：如何从解析完的页面中提取需要的内容。

在Beautiful Soup中，我们可以使用find/find_all来定位元素，但我更习惯使用CSS选择器.select，因为可以像使用CSS选择元素一样向下访问DOM树。

现在我们用代码讲解如何从解析完的页面中提取B站热榜的数据，首先我们需要找到存储数据的标签，在榜单页面按下F12并按照下图指示找到

可以看到每一个视频信息都被包在class="rank-item"的li标签下，那么代码就可以这样写

在线咨询

上一篇：30 个纯 HTML5 实现的游戏
下一篇：纯干货，前端学者的福音！如何使用css滤镜改变图片颜色

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

使用JavaScript写爬虫

您的项目需求