整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

一文搞定!前端需要了解的骨架屏注入实践

比于早些年前后端代码紧密耦合、后端工程师还得写前端代码的时代,如今已发展到前后端分离,这种开发方式大大提升了前后端项目的可维护性与开发效率,让前后端工程师关注于自己的主业。然而在带来便利的同时,也带来了一些弊端,比如首屏渲染时间(FCP)因为首屏需要请求更多内容,比原来多了更多HTTP的往返时间(RTT),这造成了白屏,如果白屏时间过长,用户体验会大打折扣,如果用户网速差,则FCP会更长。

由此引申出一系列的优化方法,骨架屏也因此被提出,本文就以 Vue 项目中的骨架屏为例,探讨一下骨架屏的优缺点和注入方式。

感兴趣的同学可以加一下微信群,一起讨论吧~

1. FCP 优化

在 Google 提出的以用户为中心的四个页面性能衡量指标中,FP/FCP可能是开发者们最熟悉的了:

为了优化首屏渲染时间这个指标,减少白屏时间,前端仔们想了很多办法:

  • 加速或减少HTTP请求损耗:使用CDN加载公用库,使用强缓存和协商缓存,使用域名收敛,小图片使用Base64代替,使用Get请求代替Post请求,设置 Access-Control-Max-Age 减少预检请求,页面内跳转其他域名或请求其他域名的资源时使用浏览器prefetch预解析等;
  • 延迟加载:非重要的库、非首屏图片延迟加载,SPA的组件懒加载等;
  • 减少请求内容的体积:开启服务器Gzip压缩,JS、CSS文件压缩合并,减少cookies大小,SSR直接输出渲染后的HTML等;
  • 浏览器渲染原理:优化关键渲染路径,尽可能减少阻塞渲染的JS、CSS;
  • 优化用户等待体验:白屏使用加载进度条、菊花图、骨架屏代替等;

这里要介绍的就是优化用户等待体验的骨架屏,它可以被视为是原来加载菊花图的一种升级版,结合传统的首屏优化方法对应用进行优化可以达到不错的效果。

2. 骨架屏

骨架屏可以理解为是当数据还未加载进来前,页面的一个空白版本,一个简单的关键渲染路径。可以看一下下面Facebook的骨架屏实现,可以看到在页面完全渲染完成之前,用户会看到一个样式简单,描绘了当前页面的大致框架的骨架屏页面,然后骨架屏中各个占位部分被实际资源完全替换,这个过程中用户会觉得内容正在逐渐加载即将呈现,降低了用户的焦躁情绪,使得加载过程主观上变得流畅。

可以看一下下面的示例图,第一个为骨架屏,第二个为菊花图,第三个为无优化,可以看到相比于传统的菊花图会在感官上觉得内容出现的流畅而不突兀,体验更加优良。

如今这项技术已经在Facebook、Google、支付宝、饿了么、简书、新浪微博、知乎、美团、领英等公司的产品中被广泛的使用。在论坛和社区也都有不少文章讨论骨架屏的实现和使用场景等。

3. 生成骨架屏的方法

生成骨架屏的方式主要有:

  1. 手写HTML、CSS的方式为目标页定制骨架屏 做法可以参考,主要思路就是使用 vue-server-renderer 这个本来用于服务端渲染的插件,用来把我们写的 .vue文件处理为 HTML,插入到页面模板的挂载点中,完成骨架屏的注入。这种方式不甚文明,如果页面样式改变了,还得改一遍骨架屏,增加了维护成本。
  2. 使用图片作为骨架屏;简单暴力,让UI同学花点功夫吧哈哈;小米商城的移动端页面采用的就是这个方法,它是使用了一个Base64的图片来作为骨架屏。
  3. 自动生成并自动插入静态骨架屏 这种方法跟第一种方法类似,不过是自动生成骨架屏,可以关注下饿了么开源的插件 page-skeleton-webpack-plugin ,它根据项目中不同的路由页面生成相应的骨架屏页面,并将骨架屏页面通过 webpack 打包到对应的静态路由页面中,不过要注意的是这个插件目前只支持history方式的路由,不支持hash方式,且目前只支持首页的骨架屏,并没有组件级的局部骨架屏实现,作者说以后会有计划实现。

另外还有个插件 vue-skeleton-webpack-plugin,它将插入骨架屏的方式由手动改为自动,原理在构建时使用 Vue 预渲染功能,将骨架屏组件的渲染结果 HTML 片段插入 HTML 页面模版的挂载点中,将样式内联到 head标签中。这个插件可以给单页面的不同路由设置不同的骨架屏,也可以给多页面设置,同时为了开发时调试方便,会将骨架屏作为路由写入router中,可谓是相当体贴了。

vue-skeleton-webpack-plugin 的具体使用参考 vue-style-codebase,主要关注build目录的几个文件,实例跑起来之后在 Chrome 的 DevTools 中把 network 的网速调为 Gast3G/Slow3G 就能看到效果了~

一下 http 和 https

参考回答:

https 的 SSL 加密是在传输层实现的。

(1)http 和 https 的基本概念

http: 超文本传输协议, 是互联网上应用最为广泛的一种网络协议, 是一个客户端和服 务器端请求和应答的标准 (TCP) , 用于从 WWW 服务器传输超文本到本地浏览器的传 输协议, 它可以使浏览器更加高效, 使网络传输减少。

https: 是以安全为目标的 HTTP 通道, 简单讲是 HTTP 的安全版, 即 HTTP 下加入 SSL 层, HTTPS 的安全基础是 SSL, 因此加密的详细内容就需要 SSL。

https 协议的主要作用是:建立一个信息安全通道,来确保数组的传输,确保网站的真实 性。

(2)http 和 https 的区别?

http 传输的数据都是未加密的,也就是明文的, 网景公司设置了 SSL 协议来对 http 协议 传输的数据进行加密处理,简单来说 https 协议是由 http 和 ssl 协议构建的可进行加密传 输和身份认证的网络协议, 比 http 协议的安全性更高。

主要的区别如下:

Https 协议需要 ca 证书, 费用较高。

http 是超文本传输协议, 信息是明文传输, https 则是具有安全性的 ssl 加密传输协议。 使用不同的链接方式, 端口也不同, 一般而言, http 协议的端口为 80, https 的端口为443。

http 的连接很简单,是无状态的;HTTPS 协议是由 SSL+HTTP 协议构建的可进行加密传 输 、身份认证的网络协议, 比 http 协议安全。

(3)https 协议的工作原理

客户端在使用 HTTPS 方式与 Web 服务器通信时有以下几个步骤, 如图所示。 客户使用 https url 访问服务器, 则要求web 服务器建立 ssl 链接。

web 服务器接收到客户端的请求之后, 会将网站的证书 (证书中包含了公钥) , 返回或 者说传输给客户端。

客户端和 web 服务器端开始协商 SSL 链接的安全等级, 也就是加密等级。

客户端浏览器通过双方协商一致的安全等级,建立会话密钥,然后通过网站的公钥来加 密会话密钥, 并传送给网站。

web 服务器通过自己的私钥解密出会话密钥。

web 服务器通过会话密钥加密与客户端之间的通信。

(4)https 协议的优点

使用HTTPS 协议可认证用户和服务器, 确保数据发送到正确的客户机和服务器;

HTTPS 协议是由 SSL+HTTP 协议构建的可进行加密传输 、身份认证的网络协议, 要比 http 协议安全, 可防止数据在传输过程中不被窃取 、改变, 确保数据的完整性 。 HTTPS 是现行架构下最安全的解决方案,虽然不是绝对安全,但它大幅增加了中间人攻 击的成本。

谷歌曾在 2014 年 8 月份调整搜索引擎算法, 并称“比起同等 HTTP 网站, 采用 HTTPS 加密的网站在搜索结果中的排名将会更高”。

(5)https 协议的缺点

https 握手阶段比较费时, 会使页面加载时间延长 50%, 增加 10%~20%的耗电。

https 缓存不如 http 高效, 会增加数据开销。

SSL 证书也需要钱, 功能越强大的证书费用越高。

SSL 证书需要绑定 IP, 不能再同一个 ip 上绑定多个域名, ipv4 资源支持不了这种消耗。

tcp 三次握手, 一句话概括

参考回答:

客户端和服务端都需要直到各自可收发, 因此需要三次握手。

简化三次握手:

<img width="487" alt="2018-07-10 3 42 11" src="https://user-images.githubusercontent.com/ 17233651/42496289-1c6d668a-8458-11e8-98b3-65db50f64d48.png">

从图片可以得到三次握手可以简化为:C 发起请求连接 S 确认,也发起连接 C 确认我们 再看看每次握手的作用: 第一次握手: S 只可以确认 自己可以接受 C 发送的报文段第 二次握手: C 可以确认 S 收到了自己发送的报文段, 并且可以确认 自己可以接受 S 发 送的报文段第三次握手: S 可以确认 C 收到了自己发送的报文段。

TCP 和 UDP 的区别

参考回答:

( 1) TCP 是面向连接的, udp 是无连接的即发送数据前不需要先建立链接。

( 2) TCP 提供可靠的服务 。也就是说, 通过 TCP 连接传送的数据, 无差错, 不丢失, 不重复, 且按序到达;UDP 尽最大努力交付, 即不保证可靠交付 。 并且因为 tcp 可靠, 面向连接, 不会丢失数据因此适合大数据量的交换。

( 3) TCP 是面向字节流,UDP 面向报文,并且网络出现拥塞不会使得发送速率降低 (因 此会出现丢包, 对实时的应用比如 IP 电话和视频会议等) 。

( 4) TCP 只能是 1 对 1 的, UDP 支持 1 对 1,1 对多。

( 5) TCP 的首部较大为 20 字节, 而 UDP 只有 8 字节。

( 6) TCP 是面向连接的可靠性传输, 而 UDP 是不可靠的。

WebSocket 的实现和应用

参考回答:

(1)什么是 WebSocket?

WebSocket 是 HTML5 中的协议, 支持持久连续, http 协议不支持持久性连接 。Http1.0 和 HTTP1.1 都不支持持久性的链接, HTTP1.1 中的 keep-alive, 将多个 http 请求合并为 1 个

(2)WebSocket 是什么样的协议, 具体有什么优点?

HTTP 的生命周期通过 Request 来界定, 也就是 Request 一个 Response, 那么在 Http1.0 协议中, 这次 Http 请求就结束了 。在 Http1.1 中进行了改进, 是的有一个 connection: Keep-alive,也就是说,在一个 Http 连接中,可以发送多个 Request,接收多个 Response。 但是必须记住, 在 Http 中一个 Request 只能对应有一个 Response, 而且这个 Response 是被动的, 不能主动发起。

WebSocket 是基于 Http 协议的,或者说借用了 Http 协议来完成一部分握手,在握手阶段 与 Http 是相同的。我们来看一个 websocket 握手协议的实现,基本是 2 个属性,upgrade, connection。

基本请求如下:

GET /chat HTTP/1.1

Host: server.example.com

Upgrade: websocket

Connection: Upgrade

Sec-WebSocket-Key: x3JJHMbDL1EzLkh9GBhXDw==

Sec-WebSocket-Protocol: chat, superchat

Sec-WebSocket-Version: 13

Origin: http://example.com

多了下面 2 个属性:

Upgrade:webSocket
Connection:Upgrade

告诉服务器发送的是websocket

Sec-WebSocket-Key: x3JJHMbDL1EzLkh9GBhXDw==
Sec-WebSocket-Protocol: chat, superchat
Sec-WebSocket-Version: 13

HTTP 请求的方式, HEAD 方式

参考回答:

head: 类似于 get 请求, 只不过返回的响应中没有具体的内容, 用户获取报头 options: 允许客户端查看服务器的性能, 比如说服务器支持的请求方式等等。

一个图片 url 访问后直接下载怎样实现?

参考回答:

请求的返回头里面, 用于浏览器解析的重要参数就是 OSS 的 API 文档里面的返回http 头, 决定用户下载行为的参数。

下载的情况下:

x-oss-object-type: Normal
x-oss-request-id: 598D5ED34F29D01FE2925F41
x-oss-storage-class: Standard

说一下 web Quality (无障碍)

参考回答:

能够被残障人士使用的网站才能称得上一个易用的 (易访问的) 网站。 残障人士指的是那些带有残疾或者身体不健康的用户。

使用 alt 属性:

<img src="person.jpg" alt="this is a person"/>

有时候浏览器会无法显示图像 。具体的原因有:

用户关闭了图像显示

浏览器是不支持图形显示的迷你浏览器

浏览器是语音浏览器 (供盲人和弱视人群使用)

如果您使用了alt 属性, 那么浏览器至少可以显示或读出有关图像的描述。

几个很实用的 BOM 属性对象方法?

参考回答:

什么是 Bom? Bom 是浏览器对象 。有哪些常用的 Bom 属性呢?

(1)location 对象

location.href-- 返回或设置当前文档的 URL

location.search -- 返回 URL 中的查询字符串部分 。 例

http://www.dreamdu.com/dreamdu.php?id=5&name=dreamdu 返回包括(?)后面的内 容?id=5&name=dreamdu

location.hash -- 返回 URL#后面的内容, 如果没有#, 返回空

location.host -- 返回 URL 中的域名部分, 例如 www.dreamdu.com

location.hostname -- 返回 URL 中的主域名部分, 例如 dreamdu.com

location.pathname -- 返回 URL 的域名后的部分 。例如 http://www.dreamdu.com/xhtml/ 返 回/xhtml/

location.port -- 返回 URL 中的端口部分 。 例如 http://www.dreamdu.com:8080/xhtml/ 返回8080

location.protocol -- 返回 URL 中的协议部分。例如 http://www.dreamdu.com:8080/xhtml/ 返 回(//)前面的内容 http:

location.assign -- 设置当前文档的 URL

location.replace() -- 设置当前文档的 URL, 并且在 history 对象的地址列表中移除这个 URL location.replace(url);

location.reload() -- 重载当前页面

(2)history 对象

history.go() -- 前进或后退指定的页面数 history.go(num);

history.back() -- 后退一页

history.forward() -- 前进一页

(3)Navigator 对象

navigator.userAgent -- 返回用户代理头的字符串表示(就是包括浏览器版本信息等的字 符串)。

navigator.cookieEnabled -- 返回浏览器是否支持(启用)cookie。

说一下 HTML5 drag api

参考回答:

dragstart: 事件主体是被拖放元素, 在开始拖放被拖放元素时触发, 。

darg: 事件主体是被拖放元素, 在正在拖放被拖放元素时触发。

dragenter: 事件主体是目标元素, 在被拖放元素进入某元素时触发。

dragover: 事件主体是目标元素, 在被拖放在某元素内移动时触发。

dragleave: 事件主体是目标元素, 在被拖放元素移出目标元素是触发。

drop: 事件主体是目标元素, 在目标元素完全接受被拖放元素时触发。

dragend: 事件主体是被拖放元素, 在整个拖放操作结束时触发。

说一下 http2.0

参考回答:

首先补充一下, http 和 https 的区别, 相比于 http,https 是基于 ssl 加密的 http 协议

简要概括: http2.0 是基于 1999 年发布的 http1.0 之后的首次更新。

提升访问速度 (可以对于, 请求资源所需时间更少, 访问速度更快, 相比 http1.0)

允许多路复用:多路复用允许同时通过单一的 HTTP/2 连接发送多重请求-响应信息。改 善了: 在 http1.1 中, 浏览器客户端在同一时间, 针对同一域名下的请求有一定数量限 制 (连接数量) , 超过限制会被阻塞。

二进制分帧:HTTP2.0 会将所有的传输信息分割为更小的信息或者帧,并对他们进行二 进制编码、首部压缩、服务器端推送。

补充 400 和 401 、403 状态码

参考回答:

(1)400 状态码: 请求无效

产生原因:

前端提交数据的字段名称和字段类型与后台的实体没有保持一致。

前端提交到后台的数据应该是 json 字符串类型, 但是前端没有将对象 JSON.stringify 转化成字符串。

解决方法:

对照字段的名称, 保持一致性,将 obj 对象通过 JSON.stringify 实现序列化。

(2)401 状态码: 当前请求需要用户验证

(3)403 状态码: 服务器已经得到请求, 但是拒绝执行

fetch 发送 2 次请求的原因

参考回答:

fetch 发送 post 请求的时候, 总是发送 2 次, 第一次状态码是 204, 第二次才成功?

原因很简单, 因为你用 fetch 的 post 请求的时候, 导致 fetch 第一次发送了一个 Options 请求,询问服务器是否支持修改的请求头,如果服务器支持,则在第二次中发送真正的 请求。

说一下 web worker

参考回答:

在 HTML 页面中,如果在执行脚本时,页面的状态是不可相应的,直到脚本执行完成后, 页面才变成可相应 。web worker 是运行在后台的 js, 独立于其他脚本, 不会影响页面你 的性能 。并且通过 postMessage 将结果回传到主线程 。这样在进行复杂操作的时候, 就 不会阻塞主线程了。

如何创建 web worker:

检测浏览器对于 web worker 的支持性

创建 web worker 文件 (js, 回传函数等)

创建 web worker 对象

对 HTML 语义化标签的理解

参考回答:

HTML5 语义化标签是指正确的标签包含了正确的内容,结构良好,便于阅读, 比如nav 表示导航条, 类似的还有 article 、header 、footer 等等标签。

iframe 是什么?有什么缺点?

参考回答:

定义: iframe 元素会创建包含另一个文档的内联框架

提示: 可以将提示文字放在<iframe></iframe>之间, 来提示某些不支持 iframe 的浏览器 缺点: 会阻塞主页面的 onload 事件 搜索引擎无法解读这种页面, 不利于 SEO iframe 和主页面共享连接池, 而浏览器对相同区域有限制所以会影响性能。

Doctype 作用?严格模式与混杂模式如何区分? 它们有何意义?

参考回答:

Doctype 声明于文档最前面, 告诉浏览器以何种方式来渲染页面, 这里有两种模式, 严 格模式和混杂模式。

严格模式的排版和 JS 运作模式是 以该浏览器支持的最高标准运行。

混杂模式, 向后兼容, 模拟老式浏览器, 防止浏览器无法兼容页面。

Cookie 如何防范 XSS 攻击

参考回答:

XSS (跨站脚本攻击) 是指攻击者在返回的 HTML 中嵌入 javascript 脚本,为了减轻这些 攻击, 需要在 HTTP 头部配上, set-cookie:

httponly-这个属性可以防止 XSS,它会禁止 javascript 脚本来访问 cookie。

secure - 这个属性告诉浏览器仅在请求为 https 的时候发送 cookie。

结果应该是这样的: Set-Cookie=<cookie-value>.....

一句话概括 RESTFUL

参考回答:

就是用URL 定位资源, 用 HTTP 描述操作。

讲讲 viewport 和移动端布局

参考回答:

可以参考这篇文章:

响应式布局的常用解决方案对比(媒体查询、百分比、rem 和 vw/vh)

click 在 ios 上有 300ms 延迟, 原因及如何解决?

参考回答:

(1)粗暴型, 禁用缩放

<meta name="viewport" content="width=device-width, user-scalable=no">

(2)利用 FastClick, 其原理是:

检测到 touchend 事件后, 立刻出发模拟 click 事件, 并且把浏览器 300 毫秒之后真正出 发的事件给阻断掉。

addEventListener 参数

参考回答:

addEventListener(event, function, useCapture)

其中, event 指定事件名; function 指定要事件触发时执行的函数; useCapture 指定事件 是否在捕获或冒泡阶段执行。

介绍知道的 http 返回的状态码

参考回答:

100 Continue 继续 。客户端应继续其请求。

101 Switching Protocols 切换协议。服务器根据客户端的请求切换协议。只能切换到更 高级的协议, 例如, 切换到HTTP 的新版本协议。

200 OK 请求成功 。一般用于 GET 与 POST 请求。

201 Created 已创建 。成功请求并创建了新的资源。

202 Accepted 已接受 。 已经接受请求, 但未处理完成。

203 Non-Authoritative Information 非授权信息。请求成功。但返回的 meta 信息不在原 始的服务器, 而是一个副本。

204 No Content 无内容 。服务器成功处理, 但未返回内容 。在未更新网页的情况下, 可确保浏览器继续显示当前文档。

205 Reset Content 重置内容。服务器处理成功, 用户终端 (例如: 浏览器) 应重置文 档视图 。可通过此返回码清除浏览器的表单域。

206 Partial Content 部分内容 。服务器成功处理了部分 GET 请求。

300 Multiple Choices 多种选择。请求的资源可包括多个位置,相应可返回一个资源特 征与地址的列表用于用户终端 (例如: 浏览器) 选择。

301 Moved Permanently 永久移动。请求的资源已被永久的移动到新 URI,返回信息会 包括新的 URI,浏览器会自动定向到新 URI。今后任何新的请求都应使用新的 URI 代替。

302 Found 临时移动。与 301 类似。但资源只是临时被移动。客户端应继续使用原有 URI。

303 See Other 查看其它地址 。与 301 类似 。使用 GET 和 POST 请求查看。

304 Not Modified 未修改 。所请求的资源未修改, 服务器返回此状态码时, 不会返回 任何资源。客户端通常会缓存访问过的资源,通过提供一个头信息指出客户端希望只返 回在指定日期之后修改的资源。

305 Use Proxy 使用代理 。所请求的资源必须通过代理访问。

306 Unused 已经被废弃的 HTTP 状态码。

307 Temporary Redirect 临时重定向 。与 302 类似 。使用 GET 请求重定向。

400 Bad Request 客户端请求的语法错误, 服务器无法理解。

401 Unauthorized 请求要求用户的身份认证。

402 Payment Required 保留, 将来使用。

403 Forbidden 服务器理解请求客户端的请求, 但是拒绝执行此请求。

404 Not Found 服务器无法根据客户端的请求找到资源 (网页) 。通过此代码, 网站 设计人员可设置"您所请求的资源无法找到"的个性页面。

405 Method Not Allowed 客户端请求中的方法被禁止。

406 Not Acceptable 服务器无法根据客户端请求的内容特性完成请求。

407 Proxy Authentication Required 请求要求代理的身份认证, 与 401 类似, 但请求者 应当使用代理进行授权。

408 Request Time-out 服务器等待客户端发送的请求时间过长, 超时。

409 Conflict 服务器完成客户端的 PUT 请求是可能返回此代码,服务器处理请求时发 生了冲突。

410 Gone 客户端请求的资源已经不存在。410 不同于 404,如果资源以前有现在被永 久删除了可使用410 代码, 网站设计人员可通过 301 代码指定资源的新位置。

411 Length Required 服务器无法处理客户端发送的不带 Content-Length 的请求信息。

412 Precondition Failed 客户端请求信息的先决条件错误。

413 Request Entity Too Large 由于请求的实体过大,服务器无法处理, 因此拒绝请求。 为防止客户端的连续请求,服务器可能会关闭连接。如果只是服务器暂时无法处理,则 会包含一个 Retry-After 的响应信息。

414 Request-URI Too Large 请求的 URI 过长 ( URI 通常为网址) , 服务器无法处理。

415 Unsupported Media Type 服务器无法处理请求附带的媒体格式。

416 Requested range not satisfiable 客户端请求的范围无效。

417 Expectation Failed 服务器无法满足 Expect 的请求头信息。

500 Internal Server Error 服务器内部错误, 无法完成请求。

501 Not Implemented 服务器不支持请求的功能, 无法完成请求。

502 Bad Gateway 作为网关或者代理工作的服务器尝试执行请求时, 从远程服务器接 收到了一个无效的响应。

503 Service Unavailable 由于超载或系统维护,服务器暂时的无法处理客户端的请求。 延时的长度可包含在服务器的 Retry-After 头信息中。

504 Gateway Time-out 充当网关或代理的服务器, 未及时从远端服务器获取请求。

505 HTTP Version not supported 服务器不支持请求的 HTTP 协议的版本, 无法完成处 理。

http 常用请求头

参考回答:

协议头

说明

Accept

可接受的响应内容类型 (Content-Types) 。

Accept-Charset

可接受的字符集。

Accept-Encoding

可接受的响应内容的编码方式。

Accept-Language

可接受的响应内容语言列表。

Accept-Datetime

可接受的按照时间来表示的响应内容版本。

Authorization

用于表示 HTTP 协议中需要认证资源的认证信息。

Cache-Control

用来指定当前的请求/回复中的, 是否使用缓存机制。

Connection

客户端 (浏览器) 想要优先使用的连接类型。

Cookie

由之前服务器通过 Set-Cookie(见下文)设置的一个 HTTP 协议 Cookie。

Content-Length

以 8 进制表示的请求体的长度。

Content-MD5

请求体的内容的二进制 MD5 散列值 (数字签名) , 以 Base64 编码的结果。

Content-Type

请求体的 MIME 类型 (用于 POST 和 PUT 请求中)。

Date

发送该消息的日期和时间 (以RFC 7231中定义的"HTTP 日期"格式 来发送)。

Expect

表示客户端要求服务器做出特定的行为。

From

发起此请求的用户的邮件地址。

Host

表示服务器的域名以及服务器所监听的端口号 。如果所请求的端口 是对应的服务的标准端口 ( 80) , 则端口号可以省略。

If-Match

仅当客户端提供的实体与服务器上对应的实体相匹配时, 才进行对应的操作 。主要用于像 PUT 这样的方法中, 仅当从用户上次更新 某个资源后, 该资源未被修改的情况下, 才更新该资源。

If-Modified-Since

允许在对应的资源未被修改的情况下返回304 未修改

If-None-Match

允许在对应的内容未被修改的情况下返回304 未修改 ( 304 Not Modified ) , 参考 超文本传输协议 的实体标记

If-Range

如果该实体未被修改过, 则向返回所缺少的那一个或多个部分 。否 则, 返回整个新的实体。

If-Unmodified-Since

仅当该实体自某个特定时间以来未被修改的情况下, 才发送回应。

Max-Forwards

限制该消息可被代理及网关转发的次数。

Origin

发起一个针对跨域资源共享的请求 (该请求要求服务器在响应中加入一个 Access-Control-Allow-Origin 的消息头,表示访问控制所允许 的来源) 。

Pragma

与具体的实现相关, 这些字段可能在请求/回应链中的任何时候产 生。

Proxy-Authorization

用于向代理进行认证的认证信息。

Range

表示请求某个实体的一部分, 字节偏移以 0 开始。

Referer

表示浏览器所访问的前一个页面, 可以认为是之前访问页面的链接将浏览器带到了当前页面。Referer 其实是 Referrer 这个单词,但 RFC 制作标准时给拼错了, 后来也就将错就错使用 Referer 了。

TE

浏览器预期接受的传输时的编码方式: 可使用回应协议头 Transfer-Encoding 中的值 (还可以使用"trailers"表示数据传输时的分 块方式) 用来表示浏览器希望在最后一个大小为 0 的块之后还接收到一些额外的字段。

User-Agent

浏览器的身份标识字符串。

Upgrade

要求服务器升级到一个高版本协议。

Via

告诉服务器, 这个请求是由哪些代理发出的。

Warning

一个一般性的警告, 表示在实体内容体中可能存在错误。


强, 协商缓存

参考回答:

缓存分为两种: 强缓存和协商缓存, 根据响应的header 内容来决定。


获取资源形式

状态码

发送请求到服务器

强缓存

从缓存取

200 (from cache)

否, 直接从缓存取

协商缓存

从缓存取

304 (not modified)

是,通过服务器来告知缓存是否可 用


强缓存相关字段有 expires, cache-control 。如果 cache-control 与 expires 同时存在的话, cache-control 的优先级高于 expires。

协商缓存相关字段有 Last-Modified/If-Modified-Since, Etag/If-None-Match。

讲讲 304

参考回答:

304:如果客户端发送了一个带条件的 GET 请求且该请求已被允许,而文档的内容 (自 上次访问以来或者根据请求的条件) 并没有改变, 则服务器应当返回这个 304 状态码。

强缓存 、协商缓存什么时候用哪个

参考回答:

因为服务器上的资源不是一直固定不变的,大多数情况下它会更新,这个时候如果我们 还访问本地缓存,那么对用户来说,那就相当于资源没有更新,用户看到的还是旧的资 源;所以我们希望服务器上的资源更新了浏览器就请求新的资源,没有更新就使用本地 的缓存, 以最大程度的减少因网络请求而产生的资源浪费。

参考 https://segmentfault.com/a/1190000008956069

前端优化

参考回答:

降低请求量: 合并资源, 减少 HTTP 请求数, minify / gzip 压缩, webP, lazyLoad。

加快请求速度: 预解析 DNS, 减少域名数, 并行加载, CDN 分发。

缓存: HTTP 协议缓存请求, 离线缓存 manifest, 离线数据缓存 localStorage。

渲染: JS/CSS 优化, 加载顺序, 服务端渲染, pipeline。

摘要】


Nginx日志的重要性不言而喻,但也很容易被我们忽略。面对海量日志,很多时候我们无从下手,无奈望洋兴叹。对此我们引发思考:如何才高效分析Nginx日志,暴露“系统”乃至“业务”的问题,辅助开发和测试人员“定位”并“验证”问题! 本文将结合日常测试工作中对于accesslog的分析实践,来详细介绍日志分析工具 GoAccess,同时结合日常真实案例总结使用策略。

【背景】


随着产品日活体量的上涨,Nginx代理服务的日志体量也开始逐步增加,Nginx的日志分为访问日志access_log和错误日志error_log两大块,访问日志access_log主要记录客户端访问nginx的每一个请求,格式可以自定义;错误日志error_log主要记录客户端访问Nginx出错时的日志,格式不支持自定义。前者主要记录用户每次访问的情况,后者则侧重于服务器的具体错误,比如返回403的具体原因是文件不可读还是权限不足之类的。

通过错误日志,你可以得到系统某个服务或server的性能瓶颈等。而access_log却百分百记录了海量的用户请求行为过程日志,包含更多的业务、语义、行为轨迹相关的信息,这部分的日志同样具有价值,能够辅助“分析爬虫”、“评估客户端请求合理性”、“分析接口流量”、“带宽分布”、“分析客户端请求来源特征”、“请求溯源分析”、“请求地理位置分析”,能够为 “技术方案设计”乃“至业务方案设计” 提供更多的参考依据。因此,将日志好好利用,你可以得到很多有价值的信息。

【业界常规方法】


  • 很多业务在搭建网站时都会使用nginx作为代理服务器,为了了解网站的请求访问情况,一般有两种手段:
  1. 使用哈勃之类的方式,在前端页面插入js,或者客户端集成埋点SDK,用户访问的时候触发js,记录访问请求。
  2. 利用流计算、或离线统计分析nginx的access log,从日志中挖掘有用信息。
  • 两种方式各有优缺点:
  1. 埋点使用起来比较简单,各种指标定义清楚。但这种方式只能记录页面的访问请求,像ajax之类的请求是无法记录的,还有爬虫信息也不会记录。
  2. 利用流计算、离线计算引擎可以支持个性化需求,但需要搭建一套环境,成本较高,并且在实时性以及分析灵活性上比较难平衡。

【工具对比分析】


1. AWK

awk是行处理器: 相比较屏幕处理的优点,在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理,然后输出。常用指令如下:

1)总请求数
wc -l  access.log |awk '{print $1}'
2)独立IP数
awk '{print $1}' access.log|sort |uniq |wc -l
3)每秒客户端请求数 TOP5
awk '{print $6}' access.log|sort|uniq -c|sort -rn|head -5
4)访问最频繁IP Top5
awk '{print $1}' access.log|sort |uniq -c |sort -nr |head -5
5)访问最频繁的URL TOP5
awk '{print $7}' access.log|sort |uniq -c |sort -nr |head -5
6)响应大于5秒的URL TOP5
awk '{if ($7 > 5){print $6}}' access.log|sort|uniq -c|sort -rn |head -5
7)HTTP状态码(非200)统计 Top5
awk '{if ($11 != 200){print $11}}' access.log|sort|uniq -c|sort -rn|head -5
8)分析请求数大于50000的源IP
cat access.log|awk '{print $NF}'|sort |uniq -c |sort -nr|awk '{if ($1 >50000){print $2}}'

优点

  1. awk可以在非交互的情况下完成相当复杂的文本处理操作,
  2. 还可以进行样式装入、流程控制、数学运算符、进程控制语句甚至于使用内置的变量和函数。

缺点

  1. 缺乏可视化结果交互,无法直观获取并分析数据业务含义
  2. awk使用相对来说较复杂, 应对复杂分析场景需要编写的指令相当繁琐。

2.Request-log-analyzer

简介

request-log-analyzer这个工具是一个用ruby写的gem包,它不仅能分析rails项目的访问日志,还能分析nginxapacheMySQLPostgreSQL的日志,它能统计每个页面的访问次数,一天访问的情况,还有来源分析等。

现状

逐渐无人维护,功能陈旧,目前使用的人越来越少。

3.Nginx_log_analysis

简介

nginx_log_analysis是基于Ngx_Lua模块开发,日志通过UDP协议网络传输到InfluxDB数据库,可以部署在NginxOpenResty上,它有如下的功能:


1、支持Nginx集群日志集中存储
2、支持正则表达式的URI日志分析
3、支持upstream_time合并,可以正确统计到每条请求在后端的总时长
4、支持URI的 PV统计
5、支持URI平均响应时间计算,
6、支持URI P99,P90,P85的数据报表
7、数据存放InfluxDB,InfluxDB提供强大的函数查询,可以支持URI各种数据的汇总和自定义分析
8、监控数据可以轻松接口MySQL,完成自定义的需求
9、可设置自定义变量存储

特点

系一整套日志计算、结果存储的平台方案,相对较重。 适用于大盘监控,用作日常分析工具相对较重。

4.Rhit

简介

可以从标准文件夹中读取 Nginx 的日志文件(gzipped 的压缩文件也可以),并进行分析统计,在控制台中以可视化的表格形式展示,并且不会产生任何多余的临时文件或数据。可以按照日期、响应值、请求来源等进行过滤匹配,并进行分析,Rhit 具有很高的效率,每秒可以处理百万行日志数据。

优点

高效、灵活

缺点

缺乏可视化交互,缺少对全体数据进行预处理。

5.GoAccess

简介

GoAccess旨在成为一个基于终端的快速日志分析器,其核心思想是实时快速分析和查看Web服务器统计信息,GoAccess可分析Apache/Nginx等WEB日志,

特点

1、支持命令行结果交互,同时还支持生成HTML、JSON、CSV等数据报告。
2、GoAccess允许任何自定义日志格式字符串。预定义选项包括
ApacheNginxAmazon S3Elastic Load BalancingCloudFront等 跟踪提供请求所需的时间。如果您想跟踪减慢网站速度的网页,则非常有用。
3、数据持久性强,GoAccess能够通过磁盘上的B+ Tree数据库逐步处理日志。
4、您可以针对访问日志文件运行它,选择日志格式并让GoAccess解析访问日志并显示统计信息。按小时或日期确定最慢运行请求的匹配数,访问者数,带宽数和指标数。

【工具选型考虑】


  • 1.请求基础信息(时效性要求高)例如HTTPCode、RT等指标数据时效性要求较高,但运维监控平台已经支持该方面监测,可以不需要重复造轮子,且“流计算”,“离线数据收集、统计、分析”整套流程成本较高,投入产出比较低。
  • 2.业务数据信息(定时抽样即可)例如“分析接口流量”、“带宽分布”、“爬虫请求分析”、“客户端请求合理性评估”等包含较多业务的数据项,不会在短时间内发生剧烈变化,大可以每周或者每个版本,离线拉取 access_log 然后进行分析。(建议选在客户端版本发布之后,去定时分析新版本接口数据情况)
  • 3.“大海捞针”转为“小碗捞针” 并不要求工具能够完成所有内容的分析,但需要能够针对各项指标能有聚类分析,然后测试人员可以基于聚类分析报告,有针对性地去拉取异常数据并进行下一步分析。将日志从“海量”降为“碗量”,能够有效筛选日志分析范围,提高效率
  • 4.预分析全站数据,结果可视化 因accesslog日志体积庞大,希望能够预先统计分析各项显示数据,并且能有较好的可视化报告结果呈现,方便后续分析与进一步深挖问题。

【GoAccess详细介绍】


GoAccess是一个开源的网络日志分析器和交互式查看器,基于终端的日志分析工具。其核心理念是不需要通过 Web 浏览器就能快速分析并实时查看 Web 服务器的统计数据(这对于需要使用 SSH 来对访问日志进行快速分析或者习惯在终端环境下工作的人来说是超赞的)。同时,GoAccess 还支持生成完整的实时 HTML 报告(这对分析、监控以及数据可视化都是极好的),以及 JSON 和 CSV 格式的报告。

这个工具特别棒的地方在于它可以分析网络服务器访问日志,因此它是您可能获得的关于您的访问者的“最值得信赖”和“最接近现实”的数据。

页面示意图(该图数据源于goaccess,官网示例demo):

1.工具安装/使用

  • 可以直接下载 GoAccess 安装包,但为了能够更好的使用 GeoLocation / GeoIP功能(将IP地址与国家地区匹配,然后聚类分析),需要提前安装以下包:为GoAccess源代码构建,提供所需的配置选项。
$ sudo apt install libncursesw5-dev libgeoip-dev libmaxminddb-dev
  • 然后配置并构建 GoAccess:
$ wget https://tar.goaccess.io/goaccess-1.5.5.tar.gz
$ tar -xzvf goaccess-1.5.5.tar.gz
$ cd goaccess-1.5.5/
$ ./configure --enable-utf8 --enable-geoip=mmdb
$ make
# make install

备注:一定要配置 UTF-8 支持和 GeoIP 功能,否则后续将无法使用地理位置分析功能。

  • 检查一切是否正确构建和安装:
$ goaccess --version
GoAccess - 1.5.5
For more details visit: http://goaccess.io
Copyright (C) 2009-2022 by Gerardo Orellana
Build configure arguments:
--enable-utf8
--enable-geoip=mmdb
  • 设置 goaccess.conf 文件,配置文件位于(/usr/local/etc/goaccess/goaccess.conf或/etc/goaccess/goaccess.conf)。以下配置,可供大家参考。详细规则可以参考文档(超链接:https://goaccess.io/man
# log-format 
log-format %h %^[%d:%t %^] "%r" %s %b "%R" "%^" "%v" %^ %T "%^"

其中,log-format 与 access.log 的 log_format 格式对应,每个参数以空格或者制表符分割。参数说明如下:

%t  匹配time-format格式的时间字段
%d  匹配date-format格式的日期字段
%h  host(客户端ip地址,包括ipv4和ipv6)
%r  来自客户端的请求行
%m  请求的方法
%U  URL路径
%H  请求协议
%s  服务器响应的状态码
%b  服务器返回的内容大小
%R  HTTP请求头的referer字段
%u  用户代理的HTTP请求报头
%D  请求所花费的时间,单位微秒
%T  请求所花费的时间,单位秒
%^  忽略这一字段

上述goaccess.conf对应的nginx格式

log_format '$clientip - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" "X" '
'"$host" "$cookie_usertrack" $upstream_response_time $request_time $upstream_addr $upstream_status "$http_user_agent" "$http_x_forwarded_for"';
  • 离线拉取accesslog日志,到指定目录,然后进行分析。GoAccess 命令参数,如下
$ goaccess -h
# 常用参数
-a --agent-list 启用由主机用户代理的列表。为了更快的解析,不启用该项
-d --with-output-resolver 在HTML/JSON输出中开启IP解析,会使用GeoIP来进行IP解析
-f --log-file 需要分析的日志文件路径
-p --config-file 配置文件路径
-o --output 输出格式,支持html、json、csv
-m --with-mouse 控制面板支持鼠标点击
-q --no-query-string 忽略请求的参数部分
--real-time-html 实时生成HTML报告
--daemonize 守护进程模式,--real-time-html时使用
  • 具体执行分析命令:(HTML模式)
$ cd ~/yourpath/goaccess/goaccess-1.5.5/
$ goaccess -f /accesslogpath/*.* -p config/goaccess.conf -o /respath/reshtml/res-file-name.html
  • (控制台模式)
$ goaccess -a -d -f /data/logs/access.log -p /etc/goaccess.conf
控制台下的操作方法:
F1   主帮助页面
F5   重绘主窗口
q    退出
1-15 跳转到对应编号的模块位置 
o    打开当前模块的详细视图
j    当前模块向下滚动
k    当前模块向上滚动
s    对模块排序
/    在所有模块中搜索匹配
n    查找下一个出现的位置
g    移动到第一个模块顶部
G    移动到最后一个模块底部
  • GoAccess 还可以用 daemonize 模式运行,并提供创建实时 HTML 的功能,只需要在启动命令后追加--real-time-html --daemonize参数即可。
$ goaccess -a -d -f /data/logs/access.log -p /etc/goaccess.conf -o /data/html/go-access.html --real-time-html --daemonize# 监听端口7890$ netstat -tunpl | grep "goaccess"tcp   0   0 0.0.0.0:7890      0.0.0.0:*     LISTEN      21136/goaccess

以守护进程启动 GoAccess 后,使用 Websocket 建立长连接,它默认监听 7890 端口,可以通过--port参数指定端口号。

如果被检测站点启用了 HTTPS,所以 GoAccess 也需要使用 openssl,在配置文件goaccess.conf中配置ssl-cert和ssl-key项,并确保在安装过程中 configure 时已添加--with-openssl项来支持 openssl 。当使用 HTTPS 后 Websocket 通信时也应该使用 wss 协议,需要将ws-url项配置为wss://www.domain.com。

  • 在某些场景下,没有这样的实时性要求,可采用 crontab 机制实现定时更新 HTML 报表。
# 定时任务内容
0 0 1 * * goaccess -a -d -f /data/logs/access.log -p /etc/goaccess.conf -o /data/html/go-access.html 2> /data/logs/go-access.log

【结果报告数据分析---各项指标解读】


1、全站请求-数据统计

HITS 维度的访问数 VISITORS 维度的访问数 流量总量数据 以及请求耗时相关数据(因为一般服务都有运维监控平台,所以可以不关注)

2、URL维度-请求数据统计

每个URL 按HITS 维度的访问数 每个URL 按VISITORS 维度的访问数 每个URL 按流量消耗数据 每个URL 按请求耗时相关数据(因为我们有哨兵监控,所以可以不关注)

3、静态资源-请求数据统计

4、域名维度-请求数据统计

5、时间维度-请求数据统计

6、404异常-分析统计

7、请求ip源-分析统计

  1. 可以重点关注访问数量较高的IP地址,然后反向查询accesslog,分析请求的行为路径(对灰产分析、爬虫分析是个非常好的分析方向)
  2. 根据请求来源城市一定程度上也能辅助业务分析,也可分析特定地域用户的请求数据,评估对业务是否有价值。
  3. 某些场景下,看也可以关注经筛选后的accesslog ,是否存在地域特点

8、来源浏览器-分析统计

  1. 辅助分析产品业务所使用的浏览器分布,在策划、开发、测试过程中也可以有针对性的投入资源
  2. 横向对比各个浏览器的性能指标,观察是否有异常:
  • 单个请求平均流量消耗(总流量 / HITS数)
  • 平均请求耗时等数据

9、请求来源页面-统计

有助于业务溯源等角度进行分析(特别在站外投放的活动类的数据分析)

10、请求来源站点-统计

有助于业务溯源等角度进行分析(特别在站外投放的活动类的数据分析)

11、全站请求响应码-统计

12、请求来源城市地区-统计

13、请求文件类型-统计

14、TLS 协议类型-统计

【日常实践案例分享】


案例1:评估客户端请求合理性

对比分析客户端请求方式,发现并解决LOFTER-iOS端请求重复问题,节约服务端资源

  • 【典型案例描述】 :某次定时分析过程中,通过 REQUESTED FILES (URLS) 报表:发现“接口A”的请求频次和流量,iOS 是 Android 的2.7倍 ;(抽样时段内iOS 比 Android 多40G);“接口B”请求频次和流量,iOS 是 Android 的1.59倍 ;(抽样时段内iOS 比 Android 多7.8G)。后经排查发现这两个请求在iOS端存在多次重复请求场景,造成服务端计算资源浪费。后来在iOS客户端调整请求姿态后,情况得到有效缓解。

案例2:分析爬虫数据

异常爬虫分析

  • 【典型案例描述】:2020年7月20日早5点左右开始,主站 503请求次数较往常异常上升。
  • 【分析方式】:采集7月21日 5:00 - 9:00 服务 accesslog,使用GoAccess分析 “VISITOR HOSTNAMES AND IPS” 。结果发现,触发503请求的IP 段集中在:
    95.217.119.* (例如:95.217.119.94) 芬兰赫尔辛基
    116.202.228.* (例如:116.202.228.243) 德国纽伦堡
    均为 国外一个名为 “pimeyes.com crawler” 的爬虫

其在请求 /login 接口时返回503,原因分析:部分海外IP触发特定后端逻辑导致。

  • 过程中,通过GoAccess分析 “VISITOR HOSTNAMES AND IPS” 后发现,触发503请求的IP 段还集中在:47...* 、 111.7.. 进一步分析异常IP(47.95..)发现,在该时间内执行的用户行为均为:www.lofter.com/blog/** →302重定向 → **.lofter.com
    所访问用户主页 只有一篇文章, 内容为 某云盘外链, 传播内容为 某视频网站会员脚本工具。 后分析判定为外链传播号,进行重点关注处理。

案例3:HTTPCode分析

  • 【典型案例描述】 :LOFTER-某版本上线后,GoAccess报告发现有大量499响应请求,
  • 【影响】:服务端需处理大量无效请求,资源损耗严重 。
  • 【过程分析】随后拉取 499请求 accesslog后,分析发现,接口C的cancel率达到42+% (峰值时期5.3W次/小时)。并且该类异常请求,均来自于iOS客户端。最终定位发现,系 iOS客户端在输入框内触发请求过于灵敏,包含较多无效请求,新请求出现时会主动取消之前的请求。单iOS端接口C的cancel率达到42+%。
  • 【原因及修复处理】:iOS端某功能输入框未做防抖处理,在键盘输入过程,会多次敏感触发请求。在后续客户端版本中修复处理后,499异常请求得到有效解决。
    【注】:
    499 - (Nginx)Connection closed by client while processing request (499请求在业务服务的运维监控系统中无法监测,通常从代理日志层面来发现异常)

案例4:网络协议优化性能指标衡量

  • 【典型案例描述】:LOFTER 在某版本中各端(Android / iOS / Web)优化相关网络协议配置,升级至HTTP2 & brotli ,前端代理服务相应对 nginx 配置进行调整,以支持新版客户端 HTTP2 & brotli 协议优化项,测试需评估请求数据优化情况,于是使用GoAccess来量化衡量。
  • 【数据采样策略】

各维度采样策略如下:

  1. <时间维度> 收集发版前后各一周的晚间峰值时段 Nginx 的 accesslog (原始数据)
  2. <版本维度> 本次分析分别以(优化前)版本1和(优化后)版本2,进行数据分析。
  3. <日志维度> 因accesslog体积过于庞大,此次分析只从Nginx代理集群中抽样部分前端机上的请求accesslog日志分析

数据分析过程:使用goaccess 工具进行初步聚类处理,得到统计后的数据,使用全站请求数据(UNIQUE VISITORS PER DAY)和URL维度请求数据(REQUESTED FILES (URLS)) 分别统计全站请求。最终通过整体单接口平均响应体积瘦身情况,来有效评估网络协议升级效果。

【结语】


最后借用《大数据》作者 涂子沛 的一句话结束本文:谁能更好地抓住数据、理解数据、分析数据,谁就能在下一波的社会竞争中脱颖而出。


作者:孙乔

来源-微信公众号:LOFTER技术团队

出处:https://mp.weixin.qq.com/s/47HSFE9pKgrHyeO0d8CjmQ