整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

使用JavaScript写爬虫

比Python,JavaScript才是更适合写爬虫的语言。原因有如下三个方面:

  • JavaScript异步IO机制适用于爬虫这种IO密集型任务。JavaScript中的回调非常自然,使用异步网络请求能够充分利用CPU。
  • JavaScript中的jQuery毫无疑问是最强悍的HTML解析工具,使用JavaScript写爬虫能够减少学习负担和记忆负担。虽然Python中有PyQuery,但终究还是比不上jQuery自然。
  • 爬取结果多为JSON,JavaScript是最适合处理JSON的语言。

一、任务:爬取用户在Github上的repo信息

通过实例的方式学习爬虫是最好的方法,先定一个小目标:爬取github repo信息。入口URL如下,我们只需要一直点击next按钮就能够遍历到用户的所有repo。

https://github.com/{{username}}?tab=repositories

获取repo之后,可以做什么?

  • 统计用户最常使用的语言,统计用户语言使用分布情况统计用户所获取的star数,fork数

二、爬虫双股剑:axios和jQuery

axios是JavaScript中很常用的异步网络请求库,相比jQuery,它更轻量、更专业。既能够用于浏览器端,也可以用于Node。它的语法风格是promise形式的。在本任务中,只需要了解如下用法就足够了:

axios.get(url).then((resp) => {
 请求成功,处理resp.data中的html数据
}).catch((err) => {
 请求失败,错误处理
})

请求之后需要处理回复结果,处理回复结果的库当然是用jQuery。实际上,我们有更好的选择:cheerio。

在node下,使用jQuery,需要使用jsdom库模拟一个window对象,这种方法效率较低,四个字形容就是:笨重稳妥。

如下代码使用jQuery解析haha.html文件

fs = require("fs")
jquery=require('jquery')
jsdom=require('jsdom') //fs.readFileSync()返回结果是一个buffer,相当于byte[] 
html = fs.readFileSync('haha.html').toString('utf8') 
dom= new jsdom.JSDOM(html) 
$=jquery(dom.window) console.log($('h1'))

cheerio只实现了jQuery中的DOM部分,相当于jQuery的一个子集。cheerio的语法和jQuery完全一致,在使用cheerio时,几乎感觉不到它和jQuery的差异。在解析HTML方面,毫无疑问,cheerio是更好的选择。如下代码使用cheerio解析haha.html文件。

cheerio=require('cheerio')
html=require('fs').readFileSync("haha.html").toString('utf8')
$=cheerio.load(html)
console.log($('h1'))

只需20余行,便可实现简单的github爬虫,此爬虫只爬取了一页repo列表。

var axios = require("axios")
var cheerio = require("cheerio")
axios.get("https://github.com/weiyinfu?tab=repositories").then(resp => {
 var $ = cheerio.load(resp.data)
 var lis = $("#user-repositories-list li")
 var repos = []
 for (var i = 0; i < lis.length; i++) {
 var li = lis.eq(i)
 var repo = {
 repoName: li.find("h3").text().trim(),
 repoUrl: li.find("h3 a").attr("href").trim(),
 repoDesc: li.find("p").text().trim(),
 language: li.find("[itemprop=programmingLanguage]").text().trim(),
 star: li.find(".muted-link.mr-3").eq(0).text().trim(),
 fork: li.find(".muted-link.mr-3").eq(1).text().trim(),
 forkedFrom: li.find(".f6.text-gray.mb-1 a").text().trim()
 }
 repos.push(repo)
 }
 console.log(repos)
})

三、更丰富的功能

爬虫不是目的,而是达成目的的一种手段。获取数据也不是目的,从数据中提取统计信息并呈现给人才是最终目的。

在github爬虫的基础上,我们可以扩展出更加丰富的功能:使用echarts等图表展示结果。

要想让更多人使用此爬虫工具获取自己的github统计信息,就需要将做成一个网站的形式,通过搜索页面输入用户名,启动爬虫立即爬取github信息,然后使用echarts进行统计展示。网站肯定也要用js作为后端,这样才能和js爬虫无缝衔接,不然还要考虑跨语言调用。js后端有两大web框架express和koa,二者API非常相似,并无优劣之分,但express更加流行。

如上设计有一处用户体验不佳的地方:当启动爬虫爬取github信息时,用户可能需要等待好几秒,这个过程不能让用户干等着。一种解决思路是:让用户看到爬虫爬取的进度或者爬取过程。可以通过websocket向用户推送爬取过程信息并在前端进行展示。展示时,使用类似控制台的界面进行展示。

如何存储爬取到的数据呢?使用MongoDB或者文件都可以,最好实现两种存储方式,让系统的存储方式变得可配置。使用MongoDB时,用到js中的连接池框架generic-pool。

整个项目用到的库包括:

  • express:后端框架
  • cheerio+axios:爬虫
  • ws:websocket展示爬取过程
  • webpack:打包工具
  • less:样式语言
  • echarts:图表展示
  • vue:模板渲染
  • jquery:DOM操作
  • mongodb:存储数据
  • generic-pool:数据库连接池

试用地址:

https://weiyinfu.cn/githubstatistic/search.html​

案例地址:https://github.com/weiyinfu/GithubStatistic

原文链接:https://zhuanlan.zhihu.com/p/53763115

刚,记者从杭州市发改委获悉,2022年春节期间留杭省外员工电子消费券申报工作,将于明天(1月18日)8:00开始,至1月24日21:00截止;异议处理申请于1月25日12:00截止。

申报通道根据员工参保情况,分为2个:

用人单位申报:职工社保或工程建设项目工伤保险的参保人员,由用人单位通过PC端在“亲清在线”平台申报。

灵活就业个人申报:灵活就业参保人员由个人通过手机端在浙里办APP“亲清在线”应用申报。

具体怎么申报?一起来看!

1.登录亲清在线

路径1:在“浙江省政务服务网”(https://www.zjzwfw.gov.cn)首页“亲清在线”栏目进入;

路径二:浏览器直接访问https://qinqing.hangzhou.gov.cn,进入亲清在线。

打开“亲清在线”首页,在右上角按【登录】,选择【法人登录】,使用浙江政务网高级实名认证账号、法人数字证书、电子营业执照等方式登录。

2.进入政策

登录后,在“惠企政策”页,找到置顶政策“春节期间留杭省外员工电子消费券发放”,点击【兑现】。

如跳出“账号等级不够或未授权”提示框,说明当前账号不符合申报要求,请根据提示提升账号等级或由更高账号进行授权操作。

3.查阅政策

进入政策后可查阅政策内容,点击【申报】进入政策申报页面。

以下申报单位将无法进入申报页面,如与事实不符可联系亲清D小二:

①申报单位是国企、事业单位和非杭州企业;

②申报单位无法判断是否在杭(企业、个体工商户、社会组织);

③申报单位未在杭纳税。

4.政策申报

第一步:确认企业信息无误后,可直接添加申领补贴的员工。

添加员工支持单条录入和批量录入两种方式:

①单条录入:点击【添加员工】进行添加。【员工姓名】框支持使用姓名模糊查询满足参保和非浙条件的参保员工信息,选中后将自动补全对应信息,填报人员补充员工手机号即可完成填报;也可直接手动录入员工信息。

②批量录入:【下载待申报数据】Excel电子表格(名单中包含满足参保和非浙条件的员工信息),根据员工留杭情况对表格人员进行增删处理,并补充员工手机号码。确保表格内只保留需申报的员工信息,点击【批量导入】上传表格。(批量导入数据单次最大支持200条,支持连续上传多个表格)

添加成功后,员工将展示在下方申报列表中。

注:个人证件类型支持以下几种,填报须使用与缴纳社保时使用的证件类型一致,否则存在社保无记录的问题:

(1)身份证;

(2)护照;

(3)其他:含港澳台居民来往内地通行证、港澳台居民居住证、外国人永久居留证、护照等

第二步:在申报列表勾选员工,点击【阅读并签署《承诺函》】。

第三步:点击页面上方的【提交兑现】,即完成申报操作。

5.申报记录查看

点击【兑现记录】,可查看申报记录的进度及状态。

6.申报成功

申报单状态为“申报成功”,即表示该员工已通过审核。员工会收到通过审核的短信通知。

***,感谢您积极响应杭州市委市政府的倡议,将最好的时光留在杭州。请您于1月28日-2月6日期间,使用尾号“***”的证件号码实名登录“云闪付”APP领取新春留杭消费券(下载APP:app.95516.com;操作说明:https://article.95516.com/eq/ls/H9aryasG.html)。“亲清在线”预祝您在杭州度过一个平安幸福年!

7.异议申请

申报单状态未通过的,可点击【查看详情】查看不通过的原因。

不通过原因有两种:

(1)未查到2021年12月度当前员工在杭社保或工伤险缴纳记录。

(2)当前员工不符合非浙户籍。

若是因为员工信息填写错误造成未通过,可以点击【修改员工信息】更正员工姓名和手机号。

若对不通过原因有异议,可点击【提交异议】上传证明材料发起异议申请(异议处理不通过后不能再发起,还未处理的异议申报人可撤销)。

8.处理记录

异议经政府端审批后返回审批结果,可在处理记录里查看详细说明。

9.亲清攻略

亲清在线在页面顶端的“亲清攻略”可查阅操作手册和常见问题。

▷下载与登录

通过应用市场或政务服务网(www.zjzwfw.gov.cn/zjzw/zj/zw_pc_download) 下载浙里办APP。个人实名登录浙里办后,在“杭州市本级”站点首页腰线处可见“亲清在线”入口或直接搜索“亲清在线”。

本端提供:

①灵活就业参保人员申报;

②企业员工查看本人是否通过审核。

▷ 查看政策

进入置顶政策“春节期间留杭省外员工电子消费券发放”,查看阅读政策内容,系统根据当前用户自动显示不同功能。灵活就业参保人员显示【申报】按钮,可进入申报;单位参保员工显示【查看】按钮,可查阅审批通过情况。

▷ 申报政策

如当前用户符合灵活就业参保、非浙户籍(2021年12月31日)、有效在杭居住证等条件,将显示以下页面,个人选中承诺事项后,提交申报即可完成申报。

如不符合以上条件,系统将根据情况返回以下三种提示:

▷ 异议申请

不符合2021年12月份灵活就业参保条件的需上传个人参保证明、非浙户籍证明、在杭居住证等扫描件或清晰照片。

提出异议经人工审批后将返回结果。

▷ 查看申报结果

如完成申报的,可查看申报记录。单位申报和个人申报结果都在此处展示。

用人单位为员工申报的状态

个人申报的状态

▷ 申报关闭

1月24日21点后申报将关闭;1月25日12点后异议申请将关闭。

如申报中还遇到其他问题

咨询服务看这里

NO.1 线上咨询

本政策页面右侧设置D小二咨询图标。点击开启后,申报单位可通过即时对话方式在线与亲清D小二进行互动交流,支持发送图文信息、在线查看常见问题等服务。

本次电子消费券咨询开通时间为1月18-25日,其中人工客服时间:1月18日-21日8:00-21:00,1月22日-23日为8:00-19:00,1月24日-25日为8:00-21:00。D小二响应时间在3分钟以内。若D小二因过于忙碌无法及时回复消息,申报单位可以选择留言,留言将生成工单由D小二处理。

NO.2 热线咨询

  • 政策咨询热线:96345。提供政策申报方面问题咨询。服务时间从2022年1月12日起至活动结束。

  • 消费券客服热线:银联7×24小时专属客服热线95516。服务时间从1月28日至2月底。提供消费券领取、使用、退款等相关问题的咨询和处理。

常见问题

1.登录账号等级无法办理

本政策需要具备二级以上实名认证账号进行操作,对应经办人认证等级2级以上,即1级、2级账号可以直接申报本政策。如出现登录账号等级无法办理的提示,可进入右上角【我的企业】【我的信息】-【经办人授权】查看账号等级。

1级经办人指通过电子数字证书及电子营业执照登录的企业账号。2级经办人指在浙江政务服务网完成高级实名认证的账号。

如需要使用3级账号申报,可通过1级或2级账号给3级账号单独授权本政策申报权限。选中经办人给您的账号授权。

2.经办人信息不完善

使用数字证书或电子营业执照登录亲清平台,在事项办理中,可能会出现经办人信息不完善的提示:

可点击“我的企业”“修改手机号”补全经办人手机号信息。

3.批量导入失败/添加失败

通过【批量导入】导入Excel表格,员工信息出现缺失字段或人员重复等问题将会跳出以下提示。

4.港澳台、外籍灵活就业参保人员

无法登录浙里办申报的

港澳台、外籍在杭参加灵活就业社保的,如无法正常使用浙里办,请往电子邮箱bgs@fzw.hz.gov.cn寄送本人签名的留杭承诺函照片进行报名,审核情况将以邮箱回复。承诺函模板可点击此链接下载:《港澳台及外籍在杭灵活就业参保人员春节期间个人留杭承诺函》。

天我们继续看看html的学习笔记。

文本标签

标题标签<hn>

将文本设置为标题显示的标签对。设定标题字体大小,n=1(大)~6(小),标题大小一共有6种,也就是从<h1>……</h1>到<h6>……</h6>

<html lang="zh-cn">
<head>
<meta content="text/html;charset=utf-8">
<title>菜鸟小白的学习分享</title>
</head>
<body bgcolor="11ffff" text="000000">
<h1>我是菜鸟小白</h1>
<h2>你们的好朋友</h2>
<h3>  让我们一起学习吧!!!</h3>
</body>
</html>

显示效果如下:


字体修饰标签

对文字的格式做相应的变化,如粗体、斜体、底线、上标、下标等。常用的字体修饰标签有以下几种。

  • <b>……</b>:指定文字为粗体字
  • <i>……</i>:指定文字为斜体字
  • <u>……</u>:指定文字为带有下划线
  • <tt>……</tt>:指定文字为打字机效果
  • <sup>……</sup>:指定文字为上标
  • <sub>……</sub>:指定文字为小标
  • <em>……</em>:对某段文字进行强调,通常用斜体字显示出来
  • <strong>……</strong>:对文本进行强调,通常用粗体字显示出来我们看下加粗前后对比,其它效果类似方式
<html lang="zh-cn">
<head>
<meta content="text/html;charset=utf-8">
<title>菜鸟小白的学习分享</title>
</head>
<body bgcolor="11ffff" text="000000">
<b>我是菜鸟小白呀</b>
我是菜鸟小白呀
</body>
</html>

显示效果如下:


字体标签<font>

设置文档的字体,改变其属性,对文本进行不同的设置,包含字体、大小、颜色等

  • size
  • face
  • color

我们看看大小的对比区别

<html lang="zh-cn">
<head>
<meta content="text/html;charset=utf-8">
<title>菜鸟小白的学习分享</title>
</head>
<body bgcolor="11ffff" text="000000">
我是菜鸟小白
<font size="20px">我是菜鸟小白呀</font>
</body>
</html>

显示效果如下:


超链接标签

超链接的定义

在不同文档、同一个文档的不同段落之前相互跳转。html链接包含两部分:锚标和目标点。锚标就是链接的源点,当鼠标被移动到锚标处时会变成小手状。此时,用户通过点击鼠标就可以到达链接的目标点。目标点可以是一张图片、一个网络文件、一个多媒体文件等。

属性href(hypertext reference)

用于设定链接地址,其链接地址必须是URL地址,必须给出具体的路径。其中URL地址可以为下面内容:

  • 网站:可以设置ip地址或者是网站的网址。
<a href="http://www.baidu.com">百度地址</a>

点击页面的百度地址可直接跳转到百度页面


  • 网页:链接到本机的网页。
<a href="cainiao-跳转后页面.html">跳转</a>

跳转前页面


点击跳转后直接跳转到新的本机页面


  • 可执行文件:当文件扩展名不是html、asp等时,会将链接到的文件下载到本地计算机或直接执行。如果是文本文件(如word格式),则在浏览器中打开文件并进行编辑。
<a href="index.txt">txt文件,打开进行编辑</a>
<a href="index.wav">播放声音</a>
  • 网页上的书签:通常使用在网页的长度超过屏幕时,可以使用书签直接跳转到该书签指向的具体内容,节省移动滚动条的时间。

属性target

  • 属性值分别为_blank、_self、_parent、_top。
  • target=_blank:在新的浏览器窗口中打开连接的文档,同时保持当前窗口不变
  • target=_self:将链接的文档载入链接所在的同一框架或窗口,默认设置为_self
  • target=_parent:将链接的文档载入该链接所在框架的父框架或父窗口。如果包含链接的框架不是嵌套框架,则所链接的文档载入整个浏览器窗口。
  • target=_top:将链接的文档载入整个浏览器窗口,从而删除所有框架我们以“_blank”为例,可以按照如下方式编写:
<!--在新的窗口中打开百度首页-->
<a href="http://www.baidu.com" target=_blank>百度地址</a>

属性title

浏览器会以浮动提示的方式显示解释信息

<a href="http://www.baidu.com" target=_blank title="百度欢迎你">百度地址</a>

实际效果展示:


属性name

利用name属性作为锚定位,可以实现文档内部的定位。这个需要我们在两个<a>标签中,一个写明name,作为一个锚点;另外一个写明herf,用于指向锚点。如下面的示例,点击“百度地址”会跳转到“这是测试跳转处”(当页面超过一页长度时,测试效果更明显)

<html lang="zh-cn">
<head>
<meta content="text/html;charset=utf-8">
<title>菜鸟小白的学习分享</title>
</head>

<body bgcolor="11ffff" text="000000">
<a name=ceshi>这是测试跳转</a>
<a href="#ceshi" title="百度欢迎你">百度地址</a>
​
</body>
</html>

图像标签

图片标签<img 属性=“属性值”>

  • 属性src:来定义图片的URL(统一资源定位符)地址,是图片必不可少的属性。用法形如:<img src="url">
<img src="https://mmbiz.qpic.cn/sz_mmbiz_png/l8AWk3KYjz4lGzzlHNpH7gCkT3kPLd0OSvgQJIp5RotD7VwV0zmYdXMACNBoOWE12FXnYZOkbv0VmnxkWibic5eQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1">
  • 属性height和width:规定图片的大小。属性值都是数字,表示图像宽度和高度所占的像素点数。默认是浏览器窗口将自动调整图像显示尺寸
<img heigh="500px" width="500px" src="https://mmbiz.qpic.cn/sz_mmbiz_png/l8AWk3KYjz4lGzzlHNpH7gCkT3kPLd0OSvgQJIp5RotD7VwV0zmYdXMACNBoOWE12FXnYZOkbv0VmnxkWibic5eQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1">
  • 属性align:设置图片对齐方式,垂直对齐(居上、居中和居下)和水平对齐(居左、居中和居右)。
<img align="right" heigh="500px" width="500px" src="https://mmbiz.qpic.cn/sz_mmbiz_png/l8AWk3KYjz4lGzzlHNpH7gCkT3kPLd0OSvgQJIp5RotD7VwV0zmYdXMACNBoOWE12FXnYZOkbv0VmnxkWibic5eQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1">
  • 属性border:默认图片是没有边框的,可以利用border属性添加边框。
<img border="20px" align="rows" heigh="500px" width="500px" src="https://mmbiz.qpic.cn/sz_mmbiz_png/l8AWk3KYjz4lGzzlHNpH7gCkT3kPLd0OSvgQJIp5RotD7VwV0zmYdXMACNBoOWE12FXnYZOkbv0VmnxkWibic5eQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1">

表格标签

表<table>

创建一个表格,有属性width(宽度)、height(高度)、border(边框)、bordercolor(边框颜色)、cellspacing、cellpadding

行<tr>

创建表格中的每一行,有属性align、valign、bgcolor

列<td>

创建表格的中每一列,有属性

表头<th>

设置表头

我们现在建造一个表

<html lang="zh-cn">
<head>
<meta content="text/html;charset=utf-8">
<title>菜鸟小白的学习分享</title>
</head>
​
<body bgcolor="11ffff" text="000000">
​
<table border>
<th>测试表头</th>
​
<tr>
<td>这是第一行第一列</td>
<td>这是第一行第二列</td>
<td>这是第一行第三列</td>
</tr>
<tr>
<td>这是第二行第一列</td>
<td>这是第二行第二列</td>
<td>这是第二行第三列</td>
</tr>
</table>

</body>
</html>

显示如下:


框架标签

框架<frame>

一个浏览器文档窗口一般只能显示一个网页文件,但是使用框架标签就可以将一个浏览器文档窗口分割成多个子窗口,每个子窗口中都可以显示一个独立的网页文件。

框架集<frameset>

多个框架组成了一个框架集(Frameset),定义了各个框架如何排列的。有属性rows和cols,两个属性至少选择一个,否则浏览器只显示第一个定义的框架。

<html lang="zh-cn">
<head>
<meta content="text/html;charset=utf-8">
<title>菜鸟小白的学习分享</title>
</head>
​
<frameset cols="25%,50%,25%">
<frame src="https://www.baidu.com"></frame>
<frame src="https://www.qq.com"></frame>
<frame src="https://www.sina.com"></frame>
</frameset>
​
</html>

最终我们将三个页面在同一个web窗口展示出来了


表单标签

表单标签<form>

主要用于采集和提交用户输入的信息,使网页具有交互功能。有属性:

  • action(处理提交数据的页面)
  • method(提交方式(get、post、request))
  • target()

用户输入区域标签<input type="">

这个标签必须放在<form>……</form>标签之间。有属性type,具体参数值有:

  • text(单行文本输入框)
  • textarea(多行输入框)
  • password(密码输入框)
  • radio(单选框)
  • checkbox(复选框)
  • select(下拉框)
  • submit(提交)
  • reset(重置)
  • image(图片提交)
  • file(上传文件)
<html lang="zh-cn">
<head>
<meta content="text/html;charset=utf-8">
<title>菜鸟小白的学习分享</title>
</head>
​
<body>
<p>用户名<input type="text"></input></p>
<p>多行输入框<textarea></textarea></p>
<p>密  码<input type="password"></input></p>
<p>单选框<input type="radio"></input></p>
<p>复选框<input type="checkbox"></input></p>
<p>下拉框<input type="select"></input></p>
<p>提交<input type="submit"></input></p>
<p>重置<input type="reset"></input></p>
<p>图片提交<input type="image"></input></p>
<p>文件提交<input type="file"></input></p>
​
</body>
</html>

实现效果:



好了,今天的内容就分享完了,如有什么意见和建议可以私信菜鸟小白哦,我们下期再会~