整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Express中间件之入门

Express中间件之入门

. 什么是中间件

Express中间件是在请求和响应之间执行的函数,它可以访问请求对象(req)、响应对象(res)和应用程序中的下一个中间件函数(通常命名为next)。中间件函数可以执行各种任务,例如修改请求和响应对象、执行身份验证、记录请求信息、处理错误等。Express中间件是构建强大Web应用程序的关键组件之一。以下是关于Express中间件的介绍:

2. 内置中间件

Express提供了一些内置的中间件函数,用于执行常见的任务,例如处理JSON、URL编码和静态文件。你可以通过调用app.use()方法来使用这些内置中间件。

  • express.json(): 用于解析传入的请求主体为JSON格式。
  • express.urlencoded({ extended: true }): 用于解析传入的请求主体为URL编码格式。
  • express.static(): 用于提供静态文件,例如HTML、CSS和客户端JavaScript文件。

3. 自定义中间件

你还可以编写自定义中间件来执行特定的任务。自定义中间件函数采用三个参数:req(请求对象)、res(响应对象)和next(调用下一个中间件函数的函数)。你可以将自定义中间件函数添加到Express应用程序中,以便在请求处理流程中使用它们。

javascript复制代码app.use((req, res, next)=> {
  // 在请求到达时执行的任务
  console.log('Middleware executed');
  next(); // 调用下一个中间件函数
});

4. 第三方中间件

除了内置的和自定义的中间件之外,Express 社区提供了许多第三方中间件,可以用于处理各种任务,如身份验证、日志记录、跨域请求等。你可以通过 npm 安装这些中间件并将它们集成到你的 Express 应用程序中。例如:

bash
复制代码npm install helmet

然后在应用程序中使用:

javascript复制代码const helmet=require('helmet');
app.use(helmet());

5. 中间件的执行顺序

在 Express 应用程序中,中间件的顺序非常重要。中间件的顺序决定了它们被执行的顺序。通常,你应该先使用那些处理请求的中间件,然后才是处理响应的中间件。例如,使用 express.json()express.urlencoded() 中间件来解析请求体应该放在路由处理程序之前。

6. 错误处理中间件

Express还允许你定义专门用于处理错误的中间件。错误处理中间件函数采用四个参数:err(错误对象)、req(请求对象)、res(响应对象)和next(调用下一个中间件函数的函数)。你可以在应用程序中定义一个或多个错误处理中间件来捕获并处理在请求处理过程中发生的错误。

javascript复制代码app.use((err, req, res, next)=> {
  // 错误处理逻辑
  console.error(err);
  res.status(500).send('Internal Server Error');
});

7. 路由级中间件

除了应用级中间件,Express还支持路由级中间件。这些中间件与特定路由相关联,只在匹配该路由时才会执行。

javascript复制代码const router=express.Router();

router.use((req, res, next)=> {
  // 路由级中间件逻辑
  next();
});

router.get('/', (req, res)=> {
  res.send('Hello from router');
});

app.use('/api', router);

8. 中间件链和组合

在Express中,你可以将多个中间件函数链接在一起形成中间件链。这些中间件函数按照它们添加到链中的顺序依次执行。你还可以使用app.use()来组合多个中间件函数,使它们在应用程序的所有路由中都得到执行。

javascript复制代码app.use(middleware1);
app.use('/api', middleware2);
app.use(middleware3);

9. 异步中间件

中间件函数可以是同步的,也可以是异步的。如果中间件函数执行异步操作(如访问数据库或调用外部API),则应该在函数体内使用async关键字,并且要么在函数体内使用await关键字等待异步操作完成,要么返回一个Promise。

javascript复制代码app.use(async (req, res, next)=> {
  try {
    await someAsyncOperation();
    next();
  } catch (err) {
    next(err);
  }
});

总结

通过充分了解和灵活使用Express中间件的类型、作用、用法和执行顺序,开发者可以更好地构建灵活、高效的Node.js应用程序。中间件提供了一个强大的工具集,可以帮助开发者处理各种请求、执行各种任务,并确保应用程序的性能和可维护性。因此,深入学习和掌握Express中间件是构建出色Node.js应用程序的关键之一。

比Python,JavaScript才是更适合写爬虫的语言。原因有如下三个方面:

  • JavaScript异步IO机制适用于爬虫这种IO密集型任务。JavaScript中的回调非常自然,使用异步网络请求能够充分利用CPU。
  • JavaScript中的jQuery毫无疑问是最强悍的HTML解析工具,使用JavaScript写爬虫能够减少学习负担和记忆负担。虽然Python中有PyQuery,但终究还是比不上jQuery自然。
  • 爬取结果多为JSON,JavaScript是最适合处理JSON的语言。

一、任务:爬取用户在Github上的repo信息

通过实例的方式学习爬虫是最好的方法,先定一个小目标:爬取github repo信息。入口URL如下,我们只需要一直点击next按钮就能够遍历到用户的所有repo。

https://github.com/{{username}}?tab=repositories

获取repo之后,可以做什么?

  • 统计用户最常使用的语言,统计用户语言使用分布情况统计用户所获取的star数,fork数

二、爬虫双股剑:axios和jQuery

axios是JavaScript中很常用的异步网络请求库,相比jQuery,它更轻量、更专业。既能够用于浏览器端,也可以用于Node。它的语法风格是promise形式的。在本任务中,只需要了解如下用法就足够了:

axios.get(url).then((resp)=> {
 请求成功,处理resp.data中的html数据
}).catch((err)=> {
 请求失败,错误处理
})

请求之后需要处理回复结果,处理回复结果的库当然是用jQuery。实际上,我们有更好的选择:cheerio。

在node下,使用jQuery,需要使用jsdom库模拟一个window对象,这种方法效率较低,四个字形容就是:笨重稳妥。

如下代码使用jQuery解析haha.html文件

fs=require("fs")
jquery=require('jquery')
jsdom=require('jsdom') //fs.readFileSync()返回结果是一个buffer,相当于byte[] 
html=fs.readFileSync('haha.html').toString('utf8') 
dom=new jsdom.JSDOM(html) 
$=jquery(dom.window) console.log($('h1'))

cheerio只实现了jQuery中的DOM部分,相当于jQuery的一个子集。cheerio的语法和jQuery完全一致,在使用cheerio时,几乎感觉不到它和jQuery的差异。在解析HTML方面,毫无疑问,cheerio是更好的选择。如下代码使用cheerio解析haha.html文件。

cheerio=require('cheerio')
html=require('fs').readFileSync("haha.html").toString('utf8')
$=cheerio.load(html)
console.log($('h1'))

只需20余行,便可实现简单的github爬虫,此爬虫只爬取了一页repo列表。

var axios=require("axios")
var cheerio=require("cheerio")
axios.get("https://github.com/weiyinfu?tab=repositories").then(resp=> {
 var $=cheerio.load(resp.data)
 var lis=$("#user-repositories-list li")
 var repos=[]
 for (var i=0; i < lis.length; i++) {
 var li=lis.eq(i)
 var repo={
 repoName: li.find("h3").text().trim(),
 repoUrl: li.find("h3 a").attr("href").trim(),
 repoDesc: li.find("p").text().trim(),
 language: li.find("[itemprop=programmingLanguage]").text().trim(),
 star: li.find(".muted-link.mr-3").eq(0).text().trim(),
 fork: li.find(".muted-link.mr-3").eq(1).text().trim(),
 forkedFrom: li.find(".f6.text-gray.mb-1 a").text().trim()
 }
 repos.push(repo)
 }
 console.log(repos)
})

三、更丰富的功能

爬虫不是目的,而是达成目的的一种手段。获取数据也不是目的,从数据中提取统计信息并呈现给人才是最终目的。

在github爬虫的基础上,我们可以扩展出更加丰富的功能:使用echarts等图表展示结果。

要想让更多人使用此爬虫工具获取自己的github统计信息,就需要将做成一个网站的形式,通过搜索页面输入用户名,启动爬虫立即爬取github信息,然后使用echarts进行统计展示。网站肯定也要用js作为后端,这样才能和js爬虫无缝衔接,不然还要考虑跨语言调用。js后端有两大web框架express和koa,二者API非常相似,并无优劣之分,但express更加流行。

如上设计有一处用户体验不佳的地方:当启动爬虫爬取github信息时,用户可能需要等待好几秒,这个过程不能让用户干等着。一种解决思路是:让用户看到爬虫爬取的进度或者爬取过程。可以通过websocket向用户推送爬取过程信息并在前端进行展示。展示时,使用类似控制台的界面进行展示。

如何存储爬取到的数据呢?使用MongoDB或者文件都可以,最好实现两种存储方式,让系统的存储方式变得可配置。使用MongoDB时,用到js中的连接池框架generic-pool。

整个项目用到的库包括:

  • express:后端框架
  • cheerio+axios:爬虫
  • ws:websocket展示爬取过程
  • webpack:打包工具
  • less:样式语言
  • echarts:图表展示
  • vue:模板渲染
  • jquery:DOM操作
  • mongodb:存储数据
  • generic-pool:数据库连接池

试用地址:

https://weiyinfu.cn/githubstatistic/search.html?

案例地址:https://github.com/weiyinfu/GithubStatistic

原文链接:https://zhuanlan.zhihu.com/p/53763115

xpress框架是Node.js基金会的一个项目,官方网址为http://expressjs.com。(中文网站为http://expressjs.com/zh-cn)。它提供了对Node.js原生API比较好的封装,从而使开发者更容易的使用Node.js,并用来开发强壮的Web、移动应用,以及API的一些其他功能。开发人员还能够方便的为它开发插件和扩展,从而增加Express的能力。

简言之,Express 是一个简洁而灵活的 node.js Web应用框架, 提供了一系列强大特性帮助你创建各种 Web 应用,和丰富的 HTTP 工具。使用 Express 可以快速地搭建一个完整功能的网站。

通过使用Node Express,可以使用更少的代码来实现功能。至少通过使用Node Express可以实现中间件来响应http请求,可以定义路由表来定义不同请求的响应函数,还可以使用模板引擎来输出html页面。其实这也是Express的核心特点。

Express 框架核心特性:

可以设置中间件来响应 HTTP 请求。

定义了路由表用于执行不同的 HTTP 请求动作。

可以通过向模板传递参数来动态渲染 HTML 页面。

好,接下来我们进行Express的安装,我们通过以下命令就可以安装 Express 并将其保存到依赖列表中:

npm install express --save

上命令会将 Express 框架安装在当前目录的 node_modules 目录中, node_modules 目录下会自动创建 express 目录。以下几个重要的模块是需要与 express 框架一起安装的:

body-parser - node.js 中间件,用于处理 JSON, Raw, Text 和 URL 编码的数据。

cookie-parser - 这就是一个解析Cookie的工具。通过req.cookies可以取到传过来的cookie,并把它们转成对象。

multer - node.js 中间件,用于处理 enctype="multipart/form-data"(设置表单的MIME编码)的表单数据。

npm install body-parser --save

npm install cookie-parser --save

npm install multer --save

安装完后,我们可以通过以下npm命令查看 express 使用的版本号:

npm list express

如果小伙伴们进行到了上一步骤,说明我们已经把Express安装成功了。接下来,我们就可以学习Express和使用它进行一个实例的开发。哈哈,废话不多说,第一个实例想都不用想,就是用Express框架来输出Hello World。

以下实例的需求呢就是,我们新建一个demo.js文件,在文件我们需要引入express模块,并在客户端发起请求后,响应“Hello World”字符串。

创建demo.js文件,代码如下所示:

上面代码写完之后,我们开始运行,程序运行起来,通过访问http://localhost:3000/

就可以看到字符串“Hello World”

接下来,我们看看Express是如何处理请求和响应的。

Express 应用使用回调函数的参数: requestresponse 对象来处理请求和响应的数据。

app.get('/', function (req, res) {

// --})

request 和 response 对象的具体介绍:

Request 对象 - request 对象表示 HTTP 请求,包含了请求查询字符串,参数,内容,HTTP 头部等属性。常见属性有:

1.req.app:当callback为外部文件时,用req.app访问express的实例

2.req.baseUrl:获取路由当前安装的URL路径

3.req.body / req.cookies:获得「请求主体」/ Cookies

4.req.fresh / req.stale:判断请求是否还「新鲜」

5.req.hostname / req.ip:获取主机名和IP地址

6.req.originalUrl:获取原始请求URL

7.req.params:获取路由的parameters

8.req.path:获取请求路径

9.req.protocol:获取协议类型

10.req.query:获取URL的查询参数串

11.req.route:获取当前匹配的路由

12.req.subdomains:获取子域名

13.req.accepts():检查可接受的请求的文档类型

14.req.acceptsCharsets / req.acceptsEncodings / req.acceptsLanguages:返回指定字符集的第一个可接受字符编码

15.req.get():获取指定的HTTP请求头

16.req.is():判断请求头Content-Type的MIME类型

Response 对象 - response 对象表示 HTTP 响应,即在接收到请求时向客户端发送的 HTTP 响应数据。常见属性有:

1.res.app:同req.app一样

2.res.append():追加指定HTTP头

3.res.set()在res.append()后将重置之前设置的头

4.res.cookie(name,value [,option]):设置Cookie

5.opition: domain / expires / httpOnly / maxAge / path / secure / signed

6.res.clearCookie():清除Cookie

7.res.download():传送指定路径的文件

8.res.get():返回指定的HTTP头

9.res.json():传送JSON响应

10.res.jsonp():传送JSONP响应

11.res.location():只设置响应的Location HTTP头,不设置状态码或者close response

12.res.redirect():设置响应的Location HTTP头,并且设置状态码302

13.res.render(view,[locals],callback):渲染一个view,同时向callback传递渲染后的字符串,如果在渲染过程中有错误发生next(err)将会被自动调用。callback将会被传入一个可能发生的错误以及渲染后的页面,这样就不会自动输出了。

14.res.send():传送HTTP响应

15.res.sendFile(path [,options] [,fn]):传送指定路径的文件 -会自动根据文件extension设定Content-Type

16.res.set():设置HTTP头,传入object可以一次设置多个头

17.res.status():设置HTTP状态码

18.res.type():设置Content-Type的MIME类型

今天小编就把Express框架先介绍到这里吧。其实呢,Express框架还有很多核心功能,例如其中的路由、处理静态文件、处理get请求、post请求等等功能,这写功能的使用,我们将会在下期在一一介绍,我们下期再见。