比Python,JavaScript才是更适合写爬虫的语言。原因有如下三个方面:
一、任务:爬取用户在Github上的repo信息
通过实例的方式学习爬虫是最好的方法,先定一个小目标:爬取github repo信息。入口URL如下,我们只需要一直点击next按钮就能够遍历到用户的所有repo。
https://github.com/{{username}}?tab=repositories
获取repo之后,可以做什么?
二、爬虫双股剑:axios和jQuery
axios是JavaScript中很常用的异步网络请求库,相比jQuery,它更轻量、更专业。既能够用于浏览器端,也可以用于Node。它的语法风格是promise形式的。在本任务中,只需要了解如下用法就足够了:
axios.get(url).then((resp)=> { 请求成功,处理resp.data中的html数据 }).catch((err)=> { 请求失败,错误处理 })
请求之后需要处理回复结果,处理回复结果的库当然是用jQuery。实际上,我们有更好的选择:cheerio。
在node下,使用jQuery,需要使用jsdom库模拟一个window对象,这种方法效率较低,四个字形容就是:笨重稳妥。
如下代码使用jQuery解析haha.html文件
fs=require("fs") jquery=require('jquery') jsdom=require('jsdom') //fs.readFileSync()返回结果是一个buffer,相当于byte[] html=fs.readFileSync('haha.html').toString('utf8') dom=new jsdom.JSDOM(html) $=jquery(dom.window) console.log($('h1'))
cheerio只实现了jQuery中的DOM部分,相当于jQuery的一个子集。cheerio的语法和jQuery完全一致,在使用cheerio时,几乎感觉不到它和jQuery的差异。在解析HTML方面,毫无疑问,cheerio是更好的选择。如下代码使用cheerio解析haha.html文件。
cheerio=require('cheerio') html=require('fs').readFileSync("haha.html").toString('utf8') $=cheerio.load(html) console.log($('h1'))
只需20余行,便可实现简单的github爬虫,此爬虫只爬取了一页repo列表。
var axios=require("axios") var cheerio=require("cheerio") axios.get("https://github.com/weiyinfu?tab=repositories").then(resp=> { var $=cheerio.load(resp.data) var lis=$("#user-repositories-list li") var repos=[] for (var i=0; i < lis.length; i++) { var li=lis.eq(i) var repo={ repoName: li.find("h3").text().trim(), repoUrl: li.find("h3 a").attr("href").trim(), repoDesc: li.find("p").text().trim(), language: li.find("[itemprop=programmingLanguage]").text().trim(), star: li.find(".muted-link.mr-3").eq(0).text().trim(), fork: li.find(".muted-link.mr-3").eq(1).text().trim(), forkedFrom: li.find(".f6.text-gray.mb-1 a").text().trim() } repos.push(repo) } console.log(repos) })
三、更丰富的功能
爬虫不是目的,而是达成目的的一种手段。获取数据也不是目的,从数据中提取统计信息并呈现给人才是最终目的。
在github爬虫的基础上,我们可以扩展出更加丰富的功能:使用echarts等图表展示结果。
要想让更多人使用此爬虫工具获取自己的github统计信息,就需要将做成一个网站的形式,通过搜索页面输入用户名,启动爬虫立即爬取github信息,然后使用echarts进行统计展示。网站肯定也要用js作为后端,这样才能和js爬虫无缝衔接,不然还要考虑跨语言调用。js后端有两大web框架express和koa,二者API非常相似,并无优劣之分,但express更加流行。
如上设计有一处用户体验不佳的地方:当启动爬虫爬取github信息时,用户可能需要等待好几秒,这个过程不能让用户干等着。一种解决思路是:让用户看到爬虫爬取的进度或者爬取过程。可以通过websocket向用户推送爬取过程信息并在前端进行展示。展示时,使用类似控制台的界面进行展示。
如何存储爬取到的数据呢?使用MongoDB或者文件都可以,最好实现两种存储方式,让系统的存储方式变得可配置。使用MongoDB时,用到js中的连接池框架generic-pool。
整个项目用到的库包括:
试用地址:
https://weiyinfu.cn/githubstatistic/search.html?
案例地址:https://github.com/weiyinfu/GithubStatistic
原文链接:https://zhuanlan.zhihu.com/p/53763115
刚,记者从杭州市发改委获悉,2022年春节期间留杭省外员工电子消费券申报工作,将于明天(1月18日)8:00开始,至1月24日21:00截止;异议处理申请于1月25日12:00截止。
申报通道根据员工参保情况,分为2个:
用人单位申报:职工社保或工程建设项目工伤保险的参保人员,由用人单位通过PC端在“亲清在线”平台申报。
灵活就业个人申报:灵活就业参保人员由个人通过手机端在浙里办APP“亲清在线”应用申报。
具体怎么申报?一起来看!
1.登录亲清在线
路径1:在“浙江省政务服务网”(https://www.zjzwfw.gov.cn)首页“亲清在线”栏目进入;
路径二:浏览器直接访问https://qinqing.hangzhou.gov.cn,进入亲清在线。
打开“亲清在线”首页,在右上角按【登录】,选择【法人登录】,使用浙江政务网高级实名认证账号、法人数字证书、电子营业执照等方式登录。
2.进入政策
登录后,在“惠企政策”页,找到置顶政策“春节期间留杭省外员工电子消费券发放”,点击【兑现】。
如跳出“账号等级不够或未授权”提示框,说明当前账号不符合申报要求,请根据提示提升账号等级或由更高账号进行授权操作。
3.查阅政策
进入政策后可查阅政策内容,点击【申报】进入政策申报页面。
以下申报单位将无法进入申报页面,如与事实不符可联系亲清D小二:
①申报单位是国企、事业单位和非杭州企业;
②申报单位无法判断是否在杭(企业、个体工商户、社会组织);
③申报单位未在杭纳税。
4.政策申报
第一步:确认企业信息无误后,可直接添加申领补贴的员工。
添加员工支持单条录入和批量录入两种方式:
①单条录入:点击【添加员工】进行添加。【员工姓名】框支持使用姓名模糊查询满足参保和非浙条件的参保员工信息,选中后将自动补全对应信息,填报人员补充员工手机号即可完成填报;也可直接手动录入员工信息。
②批量录入:【下载待申报数据】Excel电子表格(名单中包含满足参保和非浙条件的员工信息),根据员工留杭情况对表格人员进行增删处理,并补充员工手机号码。确保表格内只保留需申报的员工信息,点击【批量导入】上传表格。(批量导入数据单次最大支持200条,支持连续上传多个表格)
添加成功后,员工将展示在下方申报列表中。
注:个人证件类型支持以下几种,填报须使用与缴纳社保时使用的证件类型一致,否则存在社保无记录的问题:
(1)身份证;
(2)护照;
(3)其他:含港澳台居民来往内地通行证、港澳台居民居住证、外国人永久居留证、护照等
第二步:在申报列表勾选员工,点击【阅读并签署《承诺函》】。
第三步:点击页面上方的【提交兑现】,即完成申报操作。
5.申报记录查看
点击【兑现记录】,可查看申报记录的进度及状态。
6.申报成功
申报单状态为“申报成功”,即表示该员工已通过审核。员工会收到通过审核的短信通知。
***,感谢您积极响应杭州市委市政府的倡议,将最好的时光留在杭州。请您于1月28日-2月6日期间,使用尾号“***”的证件号码实名登录“云闪付”APP领取新春留杭消费券(下载APP:app.95516.com;操作说明:https://article.95516.com/eq/ls/H9aryasG.html)。“亲清在线”预祝您在杭州度过一个平安幸福年!
7.异议申请
申报单状态未通过的,可点击【查看详情】查看不通过的原因。
不通过原因有两种:
(1)未查到2021年12月度当前员工在杭社保或工伤险缴纳记录。
(2)当前员工不符合非浙户籍。
若是因为员工信息填写错误造成未通过,可以点击【修改员工信息】更正员工姓名和手机号。
若对不通过原因有异议,可点击【提交异议】上传证明材料发起异议申请(异议处理不通过后不能再发起,还未处理的异议申报人可撤销)。
8.处理记录
异议经政府端审批后返回审批结果,可在处理记录里查看详细说明。
9.亲清攻略
亲清在线在页面顶端的“亲清攻略”可查阅操作手册和常见问题。
?下载与登录
通过应用市场或政务服务网(www.zjzwfw.gov.cn/zjzw/zj/zw_pc_download) 下载浙里办APP。个人实名登录浙里办后,在“杭州市本级”站点首页腰线处可见“亲清在线”入口或直接搜索“亲清在线”。
本端提供:
①灵活就业参保人员申报;
②企业员工查看本人是否通过审核。
? 查看政策
进入置顶政策“春节期间留杭省外员工电子消费券发放”,查看阅读政策内容,系统根据当前用户自动显示不同功能。灵活就业参保人员显示【申报】按钮,可进入申报;单位参保员工显示【查看】按钮,可查阅审批通过情况。
? 申报政策
如当前用户符合灵活就业参保、非浙户籍(2021年12月31日)、有效在杭居住证等条件,将显示以下页面,个人选中承诺事项后,提交申报即可完成申报。
如不符合以上条件,系统将根据情况返回以下三种提示:
? 异议申请
不符合2021年12月份灵活就业参保条件的需上传个人参保证明、非浙户籍证明、在杭居住证等扫描件或清晰照片。
提出异议经人工审批后将返回结果。
? 查看申报结果
如完成申报的,可查看申报记录。单位申报和个人申报结果都在此处展示。
用人单位为员工申报的状态
个人申报的状态
? 申报关闭
1月24日21点后申报将关闭;1月25日12点后异议申请将关闭。
如申报中还遇到其他问题
咨询服务看这里
NO.1 线上咨询
本政策页面右侧设置D小二咨询图标。点击开启后,申报单位可通过即时对话方式在线与亲清D小二进行互动交流,支持发送图文信息、在线查看常见问题等服务。
本次电子消费券咨询开通时间为1月18-25日,其中人工客服时间:1月18日-21日8:00-21:00,1月22日-23日为8:00-19:00,1月24日-25日为8:00-21:00。D小二响应时间在3分钟以内。若D小二因过于忙碌无法及时回复消息,申报单位可以选择留言,留言将生成工单由D小二处理。
NO.2 热线咨询
政策咨询热线:96345。提供政策申报方面问题咨询。服务时间从2022年1月12日起至活动结束。
消费券客服热线:银联7×24小时专属客服热线95516。服务时间从1月28日至2月底。提供消费券领取、使用、退款等相关问题的咨询和处理。
常见问题
1.登录账号等级无法办理
本政策需要具备二级以上实名认证账号进行操作,对应经办人认证等级2级以上,即1级、2级账号可以直接申报本政策。如出现登录账号等级无法办理的提示,可进入右上角【我的企业】【我的信息】-【经办人授权】查看账号等级。
1级经办人指通过电子数字证书及电子营业执照登录的企业账号。2级经办人指在浙江政务服务网完成高级实名认证的账号。
如需要使用3级账号申报,可通过1级或2级账号给3级账号单独授权本政策申报权限。选中经办人给您的账号授权。
2.经办人信息不完善
使用数字证书或电子营业执照登录亲清平台,在事项办理中,可能会出现经办人信息不完善的提示:
可点击“我的企业”“修改手机号”补全经办人手机号信息。
3.批量导入失败/添加失败
通过【批量导入】导入Excel表格,员工信息出现缺失字段或人员重复等问题将会跳出以下提示。
4.港澳台、外籍灵活就业参保人员
无法登录浙里办申报的
港澳台、外籍在杭参加灵活就业社保的,如无法正常使用浙里办,请往电子邮箱bgs@fzw.hz.gov.cn寄送本人签名的留杭承诺函照片进行报名,审核情况将以邮箱回复。承诺函模板可点击此链接下载:《港澳台及外籍在杭灵活就业参保人员春节期间个人留杭承诺函》。
JQuery 是将 JS 的一些代码块进行封装,方便使用。
1.JQ的引入
(1)link 导入
先进入 https://www.bootcdn.cn/ 网站进行查找,找到后复制到一个 js 中,进行引用。
(2)直接复制标签
<script src="https://cdn.bootcdn.net/ajax/libs/jquery/3.5.1/jquery.js"></script>
1. JQ 获取元素
$('.p1').eq(1).text('今天天气真好')
$('.p1').html('<h>天气真热</h>')
2.JS 转 JQ
$(ap1).text('天好冷')
3. JQ 转 JS
var ap3=$('.p1')
ap3[0].innerText='金地是'
ap3.get(1).innerText='多少金币' //get() 传下标
4. JQ JS 都可用
$('ul li').each(function (){
console.log($(this).text());
// console.log(this.innerText);
console.log($(this).index()); //jq 获取下标
})
<button>添加</button>
<button>删除</button>
1. 添加 class
//添加class
$("button").eq(0).click(function (){
$("div").addClass("div1")
})
2. 删除 class
(1)removeClass
//删除class
$("button").eq(1).click(function (){
$("div").removeClass("div1")
})
(2)removeAttr
//删除属性和属性值
$("button").eq(1).click(function (){
$("div").removeAttr("class")
3. 修改 class
(1)toggleclass
//无则增 有则增
$("button").eq(0).click(function (){
$("div").toggleClass("div1")
(2)attr
//无则增 有则改
$("button").eq(0).click(function (){
$("div").attr("class","div1")
$("div").attr("class","div2")
})
4.获取 value
$("input").eq(0).val('666');
1. 获取盒子宽高
(1)获取宽
console.log($("div").width());
(2)获取内边框加宽
$("div").innerWidth()
(3)获取内边框,边框外边距和宽的宽度
$("div").outerWidth()
2. JQ 修改 CSS
// jq修改css
$("div").css("background","blue")
$("div").css({
"background":"pink",
"width":"150px"
})
3.定位元素(父级元素一定要有定位)
$(".div2").position()
4.定位浏览器窗口
$(".div2").offset()
1.单击事件
$("div").click(function (){
console.log(1);
})
2.双击事件
$("div").dblclick(function (){
console.log(2);
})
3.划入事件
$("div").mouseenter(function (){
console.log(3);
})
4.划出事件
$("div").mouseout(function (){
console.log(4);
})
5.划入划出事件
$("div").hover(
function (){
console.log(3);
},function (){
console.log(5);
}
)
6.绑定事件
$("button").click(function (){
$("p").on("click",function (){
$("p").css('background','red')
})
})
7.绑定多个事件
$("p").on({
"mouseenter":function (){
$(this).css('background','yellow')
},
"mouseout":function (){
$(this).css('background','blue')
}
})
8.清除事件
$("button").click(function (){
$("p").off()
})
1. 隐藏
$("button").eq(0).click(function (){
// $("div").hide(1000)
$("div").slideUp(1000)
})
2.显示
$("button").eq(1).click(function (){
$("div").show(1000)
// $("div").slideDown(1000)
})
3.取反
$("button").eq(2).click(function (){
$("div").slideToggle(1000)
// $("div").slideDown(1000)
})
4.淡出事件
$("button").eq(3).click(function (){
$("div").fadeOut(1000)
})
5.淡入事件
$("button").eq(4).click(function (){
$("div").fadeIn(1000)
})
6.淡入淡出取反事件
$("button").eq(5).click(function (){
$("div").fadeToggle(1000)
})
7.动画效果
$("button").eq(6).click(function (){
$("div").delay(100).animate({
"width":"130px",
"height":"130px",
"top":"50px",
"left":"20px",
})
})
8.停止
$("button").eq(7).click(function (){
$("div").stop(1000)
})
附(今日份学习):
*请认真填写需求信息,我们会在24小时内与您取得联系。