整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

为什么要学习HTML?HTML会过时吗?

编程有没有必要学 HTML 呢?这是编程初学者中非常普遍的问题,而且在网上意见分歧很大。关于初学者在学习 HTML 前的一些常见问题,编程狮W3Cschool整理了以下资料希望对你有所帮助:

学编程不需要学习HTML?

那些说不需要 HTML 知识的人要么不了解 Web 设计,要么别有用心。虽然现在哪怕不会 HTML 也有其他方法可以解决 web 设计相关问题,但绝大多数资深前端开发者还是会建议你最好还是要学习它的。

没有时间学习HTML?

通常了解基本知识只需要20到40分钟。花几个小时学习 w3cschool官网 的《HTML 教程 》和《HTML 微课 》,你就可以制作一个简单而完整的网页。如果你愿意每周花几个小时,学习几个月的 《前端开发体系课程 _ 》,那么您将对网站的工作方式有一个很好的了解。这种时间上的投资将获得很大的回报比。试想下,如果你本周花在学习上一小时,未来的工作上每个月都将永远节省一个小时。尽管投资回收期在开始时比较缓慢,但你最终可以只需要花费一小部分时间用来完成工作,你觉得值得吗?

编写HTML太慢?

这是劝退很多人的一个原因,但实际上这个问题是不存在的。因为大多数情况下我们不需要编写 HTML 代码,只需了解它即可。

我有一个很好的所见即所得编辑器,所以我不需要HTML

市面上有很多可视化的工具如 WYSIWYG 、Dreamweaver及现在越来越多的”低代码“云开发工具等,它可以帮助你更高效地工作。如前所述,你并不是要手动输入 HTML 代码,而是要了解 HTML 的工作原理。

例如:射钉枪能比锤子更快地帮助您建造房屋,但是如果你不知道如何搭建框架以及将钉子钉在何处,造出来的房屋很可能会倒塌。我们需要了解如何手动构造 HTML,然后使用所见即所得工具更快地工作。

PS:所见即所得的编辑器永远不会是完美的,总有时候是需要我们手动来调整 HTML。。

我不擅长学习计算机语言

放心,虽然我们时常把它称为语言,但其实 HTML 并不是一种编程语言(从技术上讲,HTML 被称为“mark up”语言,也就是标记语言,英文全称是“HyperText Markup Language”。)。从难度上讲,它就像是小孩子们的“密码”游戏。真正难点在于要学习的东西太多了,但是请记住,你不必全部都学会!只要按照自己的步调学习尽可能多的知识即可。

不要将费时困难混淆。HTML 很耗时,但是并不难。另外,你不需要学会全部知识点,即使只花费几个小时来学习基本结构也将极大地帮助你。

HTML会过时吗?

不会。其他编程语言一直在发展中,并且很可能最终会取代 HTML,但是 HTML 将在很长一段时间内继续作为几乎所有网站的基础。在任何情况下,HTML 都会为您提供坚实的基础,然后再采用 XML 等新语言。

HTML对我而言太过局限了

如果您的目的是创建网页,那么很抱歉告诉你,无论你喜不喜欢,你只能选择 HTML,因为他是构成网络构成的基础。如果你真的想以其他格式(例如PDF)来传送,请注意,它并不是一个网页,所以它不能实现我们在网页中的一些常见功能。

以上就是编程狮W3Cschool为你整理的关于《为什么要学习HTML?HTML会过时吗?》的全部内容,现在你要开始学习 HTML 了吗?

能每一个前端工程师都想要理解浏览器的工作原理。

我们希望知道从在浏览器地址栏中输入 url 到页面展现的短短几秒内浏览器究竟做了什么;

我们希望了解平时常常听说的各种代码优化方案是究竟为什么能起到优化的作用;

我们希望更细化的了解浏览器的渲染流程。

浏览器的多进程架构

一个好的程序常常被划分为几个相互独立又彼此配合的模块,浏览器也是如此,以 Chrome 为例,它由多个进程组成,每个进程都有自己核心的职责,它们相互配合完成浏览器的整体功能,每个进程中又包含多个线程,一个进程内的多个线程也会协同工作,配合完成所在进程的职责。

对一些前端开发同学来说,进程和线程的概念可能会有些模糊,为了更好的理解浏览器的多进程架构,这里我们简单讨论一下进程和线程。

进程(process)和线程(thread)


进程就像是一个有边界的生产厂间,而线程就像是厂间内的一个个员工,可以自己做自己的事情,也可以相互配合做同一件事情。

当我们启动一个应用,计算机会创建一个进程,操作系统会为进程分配一部分内存,应用的所有状态都会保存在这块内存中,应用也许还会创建多个线程来辅助工作,这些线程可以共享这部分内存中的数据。如果应用关闭,进程会被终结,操作系统会释放相关内存。更生动的示意图如下:

一个进程还可以要求操作系统生成另一个进程来执行不同的任务,系统会为新的进程分配独立的内存,两个进程之间可以使用 IPC (Inter Process Communication)进行通信。很多应用都会采用这样的设计,如果一个工作进程反应迟钝,重启这个进程不会影响应用其它进程的工作。

如果对进程及线程的理解还存在疑惑,可以参考下述文章:

http://www.ruanyifeng.com/blog/2013/04/processes_and_threads.html

浏览器的架构

有了上面的知识做铺垫,我们可以更合理的讨论浏览器的架构了,其实如果要开发一个浏览器,它可以是单进程多线程的应用,也可以是使用 IPC 通信的多进程应用。


不同浏览器的架构模型

不同浏览器采用了不同的架构模式,这里并不存在标准,本文以 Chrome 为例进行说明 :

Chrome 采用多进程架构,其顶层存在一个 Browser process 用以协调浏览器的其它进程。


Chrome 的不同进程

具体说来,Chrome 的主要进程及其职责如下:

Browser Process:

  • 负责包括地址栏,书签栏,前进后退按钮等部分的工作;
  • 负责处理浏览器的一些不可见的底层操作,比如网络请求和文件访问;

Renderer Process:

  • 负责一个 tab 内关于网页呈现的所有事情

Plugin Process:

  • 负责控制一个网页用到的所有插件,如 flash
  • GPU Process
  • 负责处理 GPU 相关的任务



不同进程负责的浏览器区域示意图

Chrome 还为我们提供了「任务管理器」,供我们方便的查看当前浏览器中运行的所有进程及每个进程占用的系统资源,右键单击还可以查看更多类别信息。

通过「页面右上角的三个点点点 — 更多工具 — 任务管理器」即可打开相关面板。

Chrome 多进程架构的优缺点

优点

某一渲染进程出问题不会影响其他进程

更为安全,在系统层面上限定了不同进程的权限

缺点

由于不同进程间的内存不共享,不同进程的内存常常需要包含相同的内容。

为了节省内存,Chrome 限制了最多的进程数,最大进程数量由设备的内存和 CPU 能力决定,当达到这一限制时,新打开的 Tab 会共用之前同一个站点的渲染进程。

测试了一下在 Chrome 中打开不断打开知乎首页,在 Mac i5 8g 上可以启动四十多个渲染进程,之后新打开 tab 会合并到已有的渲染进程中。

Chrome 把浏览器不同程序的功能看做服务,这些服务可以方便的分割为不同的进程或者合并为一个进程。以 Broswer Process 为例,如果 Chrome 运行在强大的硬件上,它会分割不同的服务到不同的进程,这样 Chrome 整体的运行会更加稳定,但是如果 Chrome 运行在资源贫瘠的设备上,这些服务又会合并到同一个进程中运行,这样可以节省内存,示意图如下。

iframe 的渲染 – Site Isolation

在上面的进程图中我们还可以看到一些进程下还存在着 Subframe,这就是 Site Isolation 机制作用的结果。

Site Isolation 机制从 Chrome 67 开始默认启用。这种机制允许在同一个 Tab 下的跨站 iframe 使用单独的进程来渲染,这样会更为安全。


iframe 会采用不同的渲染进程

Site Isolation 被大家看做里程碑式的功能, 其成功实现是多年工程努力的结果。Site Isolation 不是简单的叠加多个进程。这种机制在底层改变了 iframe 之间通信的方法,Chrome 的其它功能都需要做对应的调整,比如说 devtools 需要相应的支持,甚至 Ctrl + F 也需要支持。关于 Site Isolation 的更多内容可参考下述链接:

https://developers.google.com/web/updates/2018/07/site-isolation

介绍完了浏览器的基本架构模式,接下来我们看看一个常见的导航过程对浏览器来说究竟发生了什么。

导航过程发生了什么

也许大多数人使用 Chrome 最多的场景就是在地址栏输入关键字进行搜索或者输入地址导航到某个网站,我们来看看浏览器是怎么看待这个过程的。

我们知道浏览器 Tab 外的工作主要由 Browser Process 掌控,Browser Process 又对这些工作进一步划分,使用不同线程进行处理:

  • UI thread : 控制浏览器上的按钮及输入框;
  • network thread: 处理网络请求,从网上获取数据;
  • storage thread: 控制文件等的访问;



浏览器主进程中的不同线程

回到我们的问题,当我们在浏览器地址栏中输入文字,并点击回车获得页面内容的过程在浏览器看来可以分为以下几步:

1. 处理输入

UI thread 需要判断用户输入的是 URL 还是 query;

2. 开始导航

当用户点击回车键,UI thread 通知 network thread 获取网页内容,并控制 tab 上的 spinner 展现,表示正在加载中。

network thread 会执行 DNS 查询,随后为请求建立 TLS 连接。


UI thread 通知 Network thread 加载相关信息

如果 network thread 接收到了重定向请求头如 301,network thread 会通知 UI thread 服务器要求重定向,之后,另外一个 URL 请求会被触发。

3. 读取响应

当请求响应返回的时候,network thread 会依据 Content-Type 及 MIME Type sniffing 判断响应内容的格式。


判断响应内容的格式

如果响应内容的格式是 HTML ,下一步将会把这些数据传递给 renderer process,如果是 zip 文件或者其它文件,会把相关数据传输给下载管理器。

Safe Browsing 检查也会在此时触发,如果域名或者请求内容匹配到已知的恶意站点,network thread 会展示一个警告页。此外 CORB 检测也会触发确保敏感数据不会被传递给渲染进程。


4. 查找渲染进程

当上述所有检查完成,network thread 确信浏览器可以导航到请求网页,network thread 会通知 UI thread 数据已经准备好,UI thread 会查找到一个 renderer process 进行网页的渲染。


收到 Network thread 返回的数据后,UI thread 查找相关的渲染进程

由于网络请求获取响应需要时间,这里其实还存在着一个加速方案。当 UI thread 发送 URL 请求给 network thread 时,浏览器其实已经知道了将要导航到那个站点。UI thread 会并行的预先查找和启动一个渲染进程,如果一切正常,当 network thread 接收到数据时,渲染进程已经准备就绪了,但是如果遇到重定向,准备好的渲染进程也许就不可用了,这时候就需要重启一个新的渲染进程。

5. 确认导航

进过了上述过程,数据以及渲染进程都可用了, Browser Process 会给 renderer process 发送 IPC 消息来确认导航,一旦 Browser Process 收到 renderer process 的渲染确认消息,导航过程结束,页面加载过程开始。

此时,地址栏会更新,展示出新页面的网页信息。history tab 会更新,可通过返回键返回导航来的页面,为了让关闭 tab 或者窗口后便于恢复,这些信息会存放在硬盘中。


6. 额外的步骤

一旦导航被确认,renderer process 会使用相关的资源渲染页面,下文中我们将重点介绍渲染流程。当 renderer process 渲染结束(渲染结束意味着该页面内的所有的页面,包括所有 iframe 都触发了 onload 时),会发送 IPC 信号到 Browser process, UI thread 会停止展示 tab 中的 spinner。


Renderer Process 发送 IPC 消息通知 browser process 页面已经加载完成。

当然上面的流程只是网页首帧渲染完成,在此之后,客户端依旧可下载额外的资源渲染出新的视图。

在这里我们可以明确一点,所有的 JS 代码其实都由 renderer Process 控制的,所以在你浏览网页内容的过程大部分时候不会涉及到其它的进程。不过也许你也曾经监听过 beforeunload 事件,这个事件再次涉及到 Browser Process 和 renderer Process 的交互,当当前页面关闭时(关闭 Tab ,刷新等等),Browser Process 需要通知 renderer Process 进行相关的检查,对相关事件进行处理。


浏览器进程发送 IPC 消息给渲染进程,通知要离开当前网站了

如果导航由 renderer process 触发(比如在用户点击某链接,或者 JS 执行 window.location = "http://newsite.com" ) renderer process 会首先检查是否有 beforeunload 事件处理器,导航请求由 renderer process 传递给 Browser process。

如果导航到新的网站,会启用一个新的 render process 来处理新页面的渲染,老的进程会留下来处理类似 unload 等事件。

关于页面的生命周期,更多内容可参考 Page Lifecycle API 。


浏览器进程发送 IPC 消息到新的渲染进程通知渲染新的页面,同时通知旧的渲染进程卸载。

除了上述流程,有些页面还拥有 Service Worker (服务工作线程),Service Worker 让开发者对本地缓存及判断何时从网络上获取信息有了更多的控制权,如果 Service Worker 被设置为从本地 cache 中加载数据,那么就没有必要从网上获取更多数据了。

值得注意的是 service worker 也是运行在渲染进程中的 JS 代码,因此对于拥有 Service Worker 的页面,上述流程有些许的不同。

当有 Service Worker 被注册时,其作用域会被保存,当有导航时,network thread 会在注册过的 Service Worker 的作用域中检查相关域名,如果存在对应的 Service worker,UI thread 会找到一个 renderer process 来处理相关代码,Service Worker 可能会从 cache 中加载数据,从而终止对网络的请求,也可能从网上请求新的数据。


Service Worker 依据具体情形做处理。

关于 Service Worker 的更多内容可参考:

https://developers.google.com/web/fundamentals/primers/service-workers/lifecycle

如果 Service Worker 最终决定通过网上获取数据,Browser 进程 和 renderer 进程的交互其实会延后数据的请求时间 。Navigation Preload 是一种与 Service Worker 并行的加速加载资源的机制,服务端通过请求头可以识别这类请求,而做出相应的处理。

更多内容可参考:

https://developers.google.com/web/updates/2017/02/navigation-preload

渲染进程是如何工作的?

渲染进程几乎负责 Tab 内的所有事情,渲染进程的核心目的在于转换 HTML CSS JS 为用户可交互的 web 页面。渲染进程中主要包含以下线程:


渲染进程包含的线程

1. 主线程 Main thread

2. 工作线程 Worker thread

3. 排版线程 Compositor thread

4. 光栅线程 Raster thread

后文我们将逐步介绍不同线程的职责,在此之前我们先看看渲染的流程。

1. 构建 DOM

当渲染进程接收到导航的确认信息,开始接受 HTML 数据时,主线程会解析文本字符串为 DOM。

渲染 html 为 DOM 的方法由 HTML Standard 定义。

2. 加载次级的资源

网页中常常包含诸如图片,CSS,JS 等额外的资源,这些资源需要从网络上或者 cache 中获取。主进程可以在构建 DOM 的过程中会逐一请求它们,为了加速 preload scanner 会同时运行,如果在 html 中存在 <img><link> 等标签,preload scanner 会把这些请求传递给 Browser process 中的 network thread 进行相关资源的下载。

3.JS 的下载与执行

当遇到 <script> 标签时,渲染进程会停止解析 HTML,而去加载,解析和执行 JS 代码,停止解析 html 的原因在于 JS 可能会改变 DOM 的结构(使用诸如 documwnt.write()等 API)。

不过开发者其实也有多种方式来告知浏览器应对如何应对某个资源,比如说如果在<script> 标签上添加了 async 或 defer 等属性,浏览器会异步的加载和执行 JS 代码,而不会阻塞渲染。更多的方法可参考 Resource Prioritization – Getting the Browser to Help You。

4. 样式计算

仅仅渲染 DOM 还不足以获知页面的具体样式,主进程还会基于 CSS 选择器解析 CSS 获取每一个节点的最终的计算样式值。即使不提供任何 CSS,浏览器对每个元素也会有一个默认的样式。


渲染进程主线程计算每一个元素节点的最终样式值

5. 获取布局

想要渲染一个完整的页面,除了获知每个节点的具体样式,还需要获知每一个节点在页面上的位置,布局其实是找到所有元素的几何关系的过程。其具体过程如下:

通过遍历 DOM 及相关元素的计算样式,主线程会构建出包含每个元素的坐标信息及盒子大小的布局树。布局树和 DOM 树类似,但是其中只包含页面可见的元素,如果一个元素设置了 display:none ,这个元素不会出现在布局树上,伪元素虽然在 DOM 树上不可见,但是在布局树上是可见的。


6. 绘制各元素

即使知道了不同元素的位置及样式信息,我们还需要知道不同元素的绘制先后顺序才能正确绘制出整个页面。在绘制阶段,主线程会遍历布局树以创建绘制记录。绘制记录可以看做是记录各元素绘制先后顺序的笔记。


主线程依据布局树构建绘制记录

7. 合成帧

熟悉 PS 等绘图软件的童鞋肯定对图层这一概念不陌生,现代 Chrome 其实利用了这一概念来组合不同的层。

复合是一种分割页面为不同的层,并单独栅格化,随后组合为帧的技术。不同层的组合由 compositor 线程(合成器线程)完成。

主线程会遍历布局树来创建层树(layer tree),添加了 will-change CSS 属性的元素,会被看做单独的一层。


主线程遍历布局树生成层树

你可能会想给每一个元素都添加上 will-change,不过组合过多的层也许会比在每一帧都栅格化页面中的某些小部分更慢。为了更合理的使用层,可参考 坚持仅合成器的属性和管理层计数 。

一旦层树被创建,渲染顺序被确定,主线程会把这些信息通知给合成器线程,合成器线程会栅格化每一层。有的层的可以达到整个页面的大小,因此,合成器线程将它们分成多个磁贴,并将每个磁贴发送到栅格线程,栅格线程会栅格化每一个磁贴并存储在 GPU 显存中。


栅格线程会栅格化每一个磁贴并存储在 GPU 显存中

一旦磁贴被光栅化,合成器线程会收集称为绘制四边形的磁贴信息以创建合成帧。

合成帧随后会通过 IPC 消息传递给浏览器进程,由于浏览器的 UI 改变或者其它拓展的渲染进程也可以添加合成帧,这些合成帧会被传递给 GPU 用以展示在屏幕上,如果滚动发生,合成器线程会创建另一个合成帧发送给 GPU。


合成器线程会发送合成帧给 GPU 渲染

合成器的优点在于,其工作无关主线程,合成器线程不需要等待样式计算或者 JS 执行,这就是为什么合成器相关的动画 最流畅,如果某个动画涉及到布局或者绘制的调整,就会涉及到主线程的重新计算,自然会慢很多。

浏览器对事件的处理

浏览器通过对不同事件的处理来满足各种交互需求,这一部分我们一起看看从浏览器的视角,事件是什么,在此我们先主要考虑鼠标事件。

在浏览器的看来,用户的所有手势都是输入,鼠标滚动,悬置,点击等等都是。

当用户在屏幕上触发诸如 touch 等手势时,首先收到手势信息的是 Browser process, 不过 Browser process 只会感知到在哪里发生了手势,对 tab 内内容的处理是还是由渲染进程控制的。

事件发生时,浏览器进程会发送事件类型及相应的坐标给渲染进程,渲染进程随后找到事件对象并执行所有绑定在其上的相关事件处理函数。


事件从浏览器进程传送给渲染进程

前文中,我们提到过合成器可以独立于主线程之外通过合成栅格化层平滑的处理滚动。如果页面中没有绑定相关事件,组合器线程可以独立于主线程创建组合帧。如果页面绑定了相关事件处理器,主线程就不得不出来工作了。这时候合成器线程会怎么处理呢?

这里涉及到一个专业名词「理解非快速滚动区域(non-fast scrollable region)」由于执行 JS 是主线程的工作,当页面合成时,合成器线程会标记页面中绑定有事件处理器的区域为 non-fast scrollable region ,如果存在这个标注,合成器线程会把发生在此处的事件发送给主线程,如果事件不是发生在这些区域,合成器线程则会直接合成新的帧而不用等到主线程的响应。


涉及 non-fast scrollable region 的事件,合成器线程会通知主线程进行相关处理。

web 开发中常用的事件处理模式是事件委托,基于事件冒泡,我们常常在最顶层绑定事件:

复制代码

document.body.addEventListener('touchstart', 
event => {
 if (event.target === area) {
 event.preventDefault();
 }
}
);
 

上述做法很常见,但是如果从浏览器的角度看,整个页面都成了 non-fast scrollable region 了。

这意味着即使操作的是页面无绑定事件处理器的区域,每次输入时,合成器线程也需要和主线程通信并等待反馈,流畅的合成器独立处理合成帧的模式就失效了。


由于事件绑定在最顶部,整个页面都成为了 non-fast scrollable region。

为了防止这种情况,我们可以为事件处理器传递 passive: true 做为参数,这样写就能让浏览器即监听相关事件,又让组合器线程在等等主线程响应前构建新的组合帧。

复制代码

document.body.addEventListener('touchstart', 
event => {
 if (event.target === area) {
 event.preventDefault()
 }
 }, {passive: true}
);
 

不过上述写法可能又会带来另外一个问题,假设某个区域你只想要水平滚动,使用 passive: true 可以实现平滑滚动,但是垂直方向的滚动可能会先于event.preventDefault()发生,此时可以通过 event.cancelable 来防止这种情况。

复制代码

document.body.addEventListener('pointermove', event => {
 if (event.cancelable) {
 event.preventDefault(); // block the native scroll
 /*
 * do what you want the application to do here
 */
 } 
}, {passive: true});
 

也可以使用 css 属性 touch-action 来完全消除事件处理器的影响,如:

复制代码

#area { 
 touch-action: pan-x; 
}
 

查找到事件对象

当组合器线程发送输入事件给主线程时,主线程首先会进行命中测试(hit test)来查找对应的事件目标,命中测试会基于渲染过程中生成的绘制记录( paint records )查找事件发生坐标下存在的元素。


主线程依据绘制记录查找事件相关元素。

事件的优化

一般我们屏幕的刷新速率为 60fps,但是某些事件的触发量会不止这个值,出于优化的目的,Chrome 会合并连续的事件 (如 wheel, mousewheel, mousemove, pointermove, touchmove ),并延迟到下一帧渲染时候执行 。

而如 keydown, keyup, mouseup, mousedown, touchstart, 和 touchend 等非连续性事件则会立即被触发。


Chrome 会合并连续事件到下一帧触发。

合并事件虽然能提示性能,但是如果你的应用是绘画等,则很难绘制一条平滑的曲线了,此时可以使用 getCoalescedEvents API 来获取组合的事件。示例代码如下:

复制代码

window.addEventListener('pointermove', event => {
 const events = event.getCoalescedEvents();
 for (let event of events) {
 const x = event.pageX;
 const y = event.pageY;
 // draw a line using x and y coordinates.
 }
});
 



花了好久来整理上面的内容,整理的过程收获还挺大的,也希望这篇笔记能对你有所启发,如果有任何疑问,欢迎一起来讨论。

本文经作者授权转载,原文链接为:

https://zhuanlan.zhihu.com/p/47407398

参考链接

  • https://developers.google.com/web/updates/2018/09/inside-browser-part1
  • https://developers.google.com/web/updates/2018/09/inside-browser-part2
  • https://developers.google.com/web/updates/2018/09/inside-browser-part3
  • https://developers.google.com/web/updates/2018/09/inside-browser-part4
  • https://www.html5rocks.com/zh/tutorials/internals/howbrowserswork/#Layered_representation

解一定的技术原理,对产品经理而言是有益处的。本文讲述的图像处理的基本思路,希望大家能够对当前图像处理技术有一定了解。

现在有个概念叫泛产品经理,这个概念本身是好的,核心说的是产品思维,但是在工作上我认为还是有一定误导性。产品经理在工作中要突出自己的核心价值与职业壁垒,如果无法构建良好的职业壁垒,就会面临中年危机带来的挑战。

人工智能相对的技术内容是塑造职业壁垒的有力武器,并非要求产品经理能够自己写代码开发产品,而且在了解技术原理后,能够将业务快速高效的转化为可实施的产品问题,对于人工智能相关的产品更加重要。所有了解一定的技术原理,对产品经理而言是有益处的。本文讲述的图像处理的基本思路,希望大家能够对当前图像处理技术有一定了解。

卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,是当今图像处理的主流技术。说起CNN卷积网络,不得不说2012 年Alex Krizhevsky 凭借它们赢得了那一年的 ImageNet 大赛(由斯坦福大学李飞飞发起的世界级人工智能大赛),AlexNet将图像分类误差记录从 26% 降低到 15%,之后很多公司开始将深度学习作为的核心技术发展。Facebook、谷歌、亚马逊等知名公司都利用卷积网络进行图像识别,商品推送等工作。

CNN卷积神经网络是一个大家族,对图像而言主要有以下4个关键技术应用。

  1. 物体定位:预测包含主要物体的图像区域,以便识别区域中的物体。
  2. 物体识别:针对分割好的目标进行分类。
  3. 目标分割:将图像目标分割出来,针对图像上的像素进行归属,例中如人类、建筑物等。
  4. 关键点检测:从图像中检测目标物体上某关键点的位置,例如人类面部关键点信息。

CNN网络训练数据集是公开的,支持全球的开发者进行下载训练模型数据集:

(1)MNIST:最受欢迎的深度学习数据集之一。手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。http://deeplearning.net/tutorial/gettingstarted.html

(2)ImageNet:李飞飞创立的全球视觉识别挑战赛数据集(ILSVRC)。http://image-net.org/index

(3)PASCAL:标准化的优秀的数据集,数据集可以用于图像分类、目标检测、图像分割。http://host.robots.ox.ac.uk/pascal/VOC/

(4)MS-COCO:COCO是一个大型的、丰富的物体检测,分割和字幕数据集。http://cocodataset.org/

为什么要用CNN来处理图像呢?

原因很简单,因为能在短时间内提取图像特征。

一般来讲,普通神经网络将输入层和隐含层进行全连接(Full Connected),从而保证系统能够提取张图像的特征。从算力的角度来分析,较小的图像从整幅图像中计算特征是可行的。比如提取一张28×28的小照片的特征,当前CPU还够用。

但是,如果提取大的图像(如 96×96 的图像),要使用这种普通神经网络全全连接方法来学习整幅图像上的特征,将变得非常耗时。需要设计个输入单元,如果要学习 100 个特征,那么就有个参数需要进行运算。

相比之下,96×96 的图像计算过程比28×28图像的处理过程慢100倍。大家都明白当前的相片动不动就是高清大图,普通神经网络按照全连接的方式无法预计何时才能处理完。

下面的内容是本节的重点部分,我们具体来讲述一下CNN网络的实现过程。

1. 图像的输入

我们首先要搞清楚一张照片是如何输入到神经网络中的。众所周知,计算机适合处理的是矩阵运算,所以必须要把图片转换成矩阵后计算机才能认识。所有的彩色图像都由红绿蓝(RGB)叠加而成,成为图像的三个通道,一张图片在计算机中存储也是通过这三个矩阵完成的。

图4-23图的色彩通道

如图4-23所示,一张64*64个像素大小的图片(例如白色可以表示成RGB(255,255,255),可以用3个64*64大小的矩阵来代表这个图。上面指画三个5 * 4的矩阵来代表64*64的全尺寸矩阵。RGB这三个矩阵称为为图像的3个通道,也作为神经网络的输入数据。

2. 卷积神经网络的组成

与其他神经网络相同,CNN网络同样也包含输入层、隐藏层、输出层几大部分,卷积神经网络的主要运算过程如图4-24所示。

图4-24卷积神经网络处理过程

卷积层(Convolutional layer):卷积层由多个卷积单元组成,每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算主要为了提取图像的特征,随着卷积层的增加,多层网络可以提取更为复杂的图像特征。

线性整流(Rectified Linear Units layer, ReLU layer):主要指的是激活函数运算(Activation function)使用线性整流的ReLu函数(Rectified Linear Units, ReLU)。

池化层(Pooling layer):在卷积之后图像的维度特征依然很多,将特征矩阵分割成几个单个区块,取其最大值或平均值,起到了降维的作用。

全连接层(Fully-Connected layer):把所有局部特征以及各通道的特征矩阵结合变为向量代表,计算最后每一类的得分。

3. 计算过程

CNN网络的计算过程如图XXX,每个组成模块代表了不同的计算内容。

(1)数据规则化

彩色图像的输入通常先要分解为R(红)G(绿)B(蓝)三个通道,其中每个值介于0~255之间。

(2)卷积运算(Convolution)

前面讲到,由于普通的神经网络对于输入与隐层采用全连接的方式进行特征提取,在处理图像时,稍微大一些的图将会导致计算量巨大而变得十分缓慢。卷积运算正是为了解决这一问题,每个隐含单元只能连接输入单元的一部分,我们可以理解为是一种特征的提取方法。

首先我们来明确几个基础概念:深度(depth)、步长(stride)、补零(zero-padding)、卷积核(convolution kernel)。

深度(depth):深度指的是图的深度与它控制输出单元的深度,也表示为连接同一块区域的神经元个数。

步幅(stride):用来描述卷积核移动的步长。

补零(zero-padding):通过对图片边缘补零来填充图片边缘,从而控制输出单元的空间大小。

卷积核(convolution kernel):在输出图像中每一个像素是输入图像中一个小区域中像素的加权平均的权值函数。卷积核可以有多个,卷积核参数可以通过误差反向传播来进行训练。

如图4-25为步长=1的卷积计算过程,卷积核依次向右移动进行卷积运算得到相应结果。

图4-25 卷积运算过程

为图像计算可以对边缘进行补零,可见这个过程改变了图像的运算大小,如图4-26所示。

卷积运算的过程其实非常简单,过程如图4-27描述,可以概括为公式(4.3.6)。其中B代表卷积后的结果,K是卷积核,A为图像的输入矩阵。

图4-27 卷积运算过程

如图4-27所示,可见卷积核K为2*2的卷积核,详细运算过程如下。

全部图像卷积运算可以通过公式(4.3.6)进行。

(3)激活

CNN卷积神经网络在卷积后需要经过激活过程,当前通常使用的激活函数是Relu函数。Relu函数的主要特点在之前的章节已经讲过。从函数的图像上来看,单侧抑制,相对宽阔的兴奋边界,具有稀疏激活性的特点。

(4)池化(Pooling)

池化的目的是提取特征,减少向下一个阶段传递的数据量。池化操作相对于对每个深度切片是独立,池化规模一般为像素的 2*2,与卷积运算相比,池化层运算一般有以下几种:

  1. 最大池化(Max Pooling):取4个点数值的最大值。这是最常用的池化算法。
  2. 均值池化(Mean Pooling):取4个点数值的均值。
  3. 高斯池化(Gauss Pooling):按照高斯模糊的方法。

如图4-28,描述了最大池化的计算方法。

图4-28 池化运算过程

(5)全连接(Fully-connected layer)

全连接层一般出现最后几步,在卷积神经网络中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。全连接过程是对矩阵的展开过程,也可以理解为输出矩阵与一个1*1的卷积核进行卷积运算,最后展开为一个1*n的向量。

在卷积神经网络中,全连接层一般使用Softmax函数来进行分类。Softmax函数适用于数据分类,用于保证每个分类概率总和为1。

卷积神经网络(CNN)的计算过程虽然讲解繁琐,但对于了解深刻理解神经网络算法非常有益。卷积神经网络经过近30年的发展拥有多条网络发展分支,并且持续高速发展之中。其中有网络层数加深的VGG16与VGG19等,有卷积模块增强的NIN网络等,从分类任务向目标检测任务过度的新型网络R-CNN等,图4-29展示了卷积神经网络的不同发展分支。

#专栏作家#

白白,人人都是产品经理专栏作家。公众号:白白说话(xiaob-talk)。医药行业资深产品专家,负责人工智能行业类产品综合架构与技术开发。在行业云产品架构,药物设计AI辅助、医疗知识图谱等领域有深入研究。

本文原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于 CC0 协议