作为一个内容类应用,看新闻读资讯一直是头条用户的核心需求,页面的打开速度直接关系到用户使用头条的核心体验,在头条中,为了更多的承载足够丰富的样式和逻辑下保持多端体验的统一,详情页的内容我们是通过 WebView 来承载的,但 WebView 本身的性能相比 Native 来说比较差,因此,技术团队一直致力于优化详情页的加载速度。
经过不断的优化,目前中详情页在线上的打开体验,从肉眼上基本已经感知不到加载过程。在接下来这篇文章里,我们会逐步拆解和介绍我们对详情页加载优化的思路和实践。
先让我们来看看优化前后的效果吧~
详情页加载体验优化前
详情页加载体验优化后
当我们开始着手优化页面加载速度之前,我们需要明确一个问题,怎样才是用户真正体验到的页面加载时间。
首先我们可以看下面这个公式:
页面加载时间 = 页面加载完成时间 - 页面开始加载时间
页面开始加载时间很好确定,当用户点击了 Feed 上的卡片,我们就可以认为页面开始加载了。
问题是怎么定义页面加载完成了呢?从客户端的角度上看,无论是 iOS 还是 Android,WebView 都提供了一个 loadFinsih 的回调,但在实际应用中我们发现,loadFinish 回调并不能反应用户的真实体验。
一般来说,WebView 渲染需要经过下面几个步骤
而 loadFinish 实际上是在页面加载完毕阶段,而 DOM 构建完成时页面结构就已经基本渲染完成,所以从用户真实体验的角度出发,我们以 DOM 结构构建完成(即 domReady)的时间点作为页面加载完成时间点。
在详情页浏览过程中,除了页面加载速度之外,还有一个特别影响用户体验的问题,就是页面的白屏,也是早期的时候用户反馈比较多的问题,但有很多场景都可能导致详情页发生白屏,比如说网络异常,WebView 异常等等,需要从用户体验的角度出发去检测用户发生白屏的情况。
目前可以想到最直观的方案就是对 WebView 进行截图,遍历截图的像素点的颜色值,如果非白屏颜色的颜色点超过一定的阈值,就可以认为不是白屏,目前需要考虑的是这个方案的性能问题和检测时机。
iOS 中提供了 WebView 快照的接口获取当前 WebView 渲染的内容,底层采用异步回调的实现方式,API 耗时 10ms 左右,用户基本无感知。
- (void)takeSnapshotWithConfiguration:(nullable WKSnapshotConfiguration *)snapshotConfiguration completionHandler:(void (^)(UIImage * _Nullable snapshotImage, NSError * _Nullable error))completionHandler API_AVAILABLE(ios(11.0));
Android 中系统提供的获取视图内容的接口为 getDrawingCache,API 耗时在 40ms 左右,性能损耗也不是特别大。
除了截图的性能损耗,像素点检测也是白屏检测中比较耗时的场景,经过实验,我们把 WebView 截图的图片进行缩小到原图的 1/6,遍历检测图片的像素点,当非白色的像素点大于 5% 的时候我们就认为是非白屏的情况,可以相对高效检测准确得出详情页是否发生了白屏。
确定好口径之后,我们还有需要明确的一个问题是,什么指标可以反映用户刷头条时的真实体验。
最早的时候,我们用的是详情页页面的页面平均加载时长,也就是页面加载时长的总和/页面 pv,在开始的时候这个指标也的确可以明确我们的加载速度。
后来随着详情页的加载优化逐渐的深入,会发现平均加载时长虽然也可以反映详情页加载速度,但是因为详情页的 pv 比较高,如果使用平均加载速度化很多用户体验问题就被平均掉了,并不能反映用户的真实情况,后面我们又调整了口径,将指标调整为所有用户进入详情页的 80 分位值,比如说,假如头条详情页加载速度 80 分位值是 1 秒,那么就说明 80% 的情况下用户进入详情页都能在 1s 内加载完成,当然经过我们的不断优化,详情页加载的 80 分位值已经能够达到 0.3s 以内,也就是说,80% 的情况下用户都能够在 0.3s 内完成页面加载。
80分位优化数据对比
再后来我们又发现,在头条详情页的量级下面,即使是 80 分位的数据也不能反应许多长尾用户的真实情况,也为了更极致的追求详情页的加载性能,我们最后将详情页的性能口径调整到 95 分位。到目前在我们的努力下,详情页的加载速度 95 分位也优化了将近 80% 。
我们究竟做了什么呢,接下来会慢慢介绍一下。
如前所述,图文详情页是通过 WebView 来承载的,而 WebView 承载页面最简单的做法就是直接通过 URL 去加载一个线上页面。那么先来一道简单的面试题,当用户从浏览器输入一个 URL 到页面展现发生了什么呢?
之前已经介绍过页面的渲染流程了,现在我们再简单看看用户从点击到看到页面内容需要经历如下几个阶段:
WebView 加载流程
可以看到,通过线上页面加载用户每次进入详情页都要通过多次网络加载,极容易受网络波动的影响,这种情况下,也无法保证页面加载的时长和成功率,极大的影响了用户体验。
于是在头条中,我们将新闻中标题和正文内容进行拆分,把头条详情页的公共样式 CSS 和 逻辑 JS 都抽离出来,形成一个独立而完备的详情页模板,这样我们就可以把模板直接内置在客户端中。
同时我们会与前端约定好的 JS 脚本,通过接口将正文内容数据注入页面完成详情页的页面展示,通过该这种方式我们可以将接口放到客户端上进行请求。
这样用户进入详情页的时候只需要本地加载模板,而且加载模板的时候也可以同时并行请求详情页数据,再将数据注入进模板中。
那么用户点击到看到页面内容只需要经历下面的阶段:
模板拆分
如上图所示,我们只需要通过一次网络加载就可以完成页面渲染。
还能不能更快一点呢?当然能!
为了提高页面的加载速度,客户端通过一定的策略去预加载新闻数据,这样在理想状态下用户进入页面时看到页面时就可以直接使用缓存的数据,用户在看新闻的时候可以实现完全离线化,避免受到网络的影响。
本地加载
完全脱离了网络加载之后,还能再快一点呢?当然还是可以的!
当全流程离线化之后,页面加载的瓶颈就变成了本地模板的加载时间,所以我们接下来要做的就是优化模板加载时间。
对于模板来说,我们做了两件事情
通过上面优化,我们就已经将模板加载时间大大优化了,但是还能不能更给力呢?还是可以的。
对于客户端来说,当模板跟数据分离之后,由于每次用户点击的时候加载的都是同一个模板,所以实际上,我们并不需要在用户进入页面的时候才去创建 WebView 以及加载模板,我们只需要在合适的时机在后台创建 WebView,并且提前预热加载模板,当用户点击进入页面的时候就能使用已经加载好模板的 WebView,直接将详情页的内容数据通过 JS 注入到页面中,前端收到数据后进行页面渲染即可。
此时用户进入详情页实际就不再需要重新加载模板了,路径就变成了:
模板预热
可以看下,通过本地测试的模板预热和数据预取的优化效果,还是比较明显的,基本上已经达到了上面的截图中的验证效果。
本地测试数据
当我们拆分完模板和数据之后,数据上优化已经比较明显,但我们说过,除了验证数据,我们还需要看线上用户的真实体验数据,从 95 分位上看实际数据优化却不是很明显,所以我们从数据上观察,用户预热模板的命中率只有 53%,还有进一步的提升空间。
模板预热率
为了尽可能的提高页面的加载速度,我们希望用户每次进入详情页的时候都能够使用预热好模板的 WebView,一般情况下,我们都会使用模板预创建池的手段来优化用户进入详情页时的预热模板命中率。
但其实在很多情况下,WebView 的创建是一个性能开销比较大的操作,如果我们使用预创建池的方案,那么就会在后台频繁创建 WebView,这样对用户在 Feed 场景的浏览体验也会有一定的影响。
而且假如用户频繁且快速进出详情页时,实际场景中用户也很容易遇到无法命中预热模板的场景。
这个时候为了优化用户的体验,如前文所述,我们每次使用的时候都是同一个模板,所以我们使用完当前 WebView 之后,只需要在用户退出页面的时候把正文数据清空,这样进入下一个页面的时候就能够继续复用这个 WebView 重新注入数据即可。
通过这个手段,我们既避免了频繁在后台预创建 WebView 对用户刷 Feed 体验的影响,把用户进入页面时候的预热模板命中率从 53% 提升到 92%,优化了用户体验。
预热模板命中率
说完我们在模板 WebView 方面的优化之后,再介绍一下我们在内容请求上的优化。
由于头条详情页请求有以下特点
所以我们将详情页内容数据分为静态和动态两部分,将正文内容、标题、作者栏等用户主要消费的又基本不变的内容托管到了 CDN 上。
CDN 的全称是 Content Delivery Network,即内容分发网络。其目的是通过在现有的 Internet 中增加一层新的网络架构,将网站的内容发布到最接近用户的网络“边缘”,使用户可以就近取得所需的内容,提高用户访问网站的响应速度。CDN 有别于镜像,因为它比镜像更智能,或者可以做这样一个比喻:CDN=更智能的镜像+缓存+流量导流。因而,CDN 可以明显提高 Internet 网络中信息流动的效率。从技术上全面解决由于网络带宽小、用户访问量大、网点分布不均等问题,提高用户访问网站的响应速度。
托管到 CDN 之后,全国各地的用户可以直接从最佳节点就获取到详情页数据,也大大节省了带宽成本。
1. 多域名备份
为了防止某个 CDN 出现故障,导致服务雪崩,服务端会下发多个 CDN 链接,当用户访问当前 CDN 节点的出异常时,可以快速自动切换到下个 CDN 节点。
2. 快速超时
一般的超时策略,客户端在请求时,会遍历请求 CDN 1、2、3。如果这些 CDN 都请求失败,则整个网络请求算作失败。
但这个方案的问题是,假设请求 CDN 的超时时间是 15s。如果 CDN 1 出现故障,则需要等待 15s 才能切换到 CDN 2 上,这对于详情页的加载时间来说是不可接受,如果用户网络突然变差,则需要等待 45s 才能返回失败展示错误页。
基于此我们设计了详情页请求的快速动态超时策略
几个 case:
可以看到,通过多域名备份和快速超时的策略,即使用户在网络或者服务异常的情况下,也能快速恢复或者让用户能感知到自身网络问题。
当我们在模板层和网络层优化到极致的时候,限制我们的就是 WebView 的渲染速度了!
正常来讲,正常的内容数据可能是类似 JSON 等数据,客户端获取到数据之后,将数据注入给前端,前端还需要将 JSON 数据跟模板进行组装,拼上 HTML 标签等模板了之后再呈现到 WebView 渲染,导致前端渲染上耗时也比较久。
为了提高用户的首屏效率,我们在服务端就会把所有的详情页正文的 HTML 数据组装好,通过将服务端直出内容注入到页面中时,可以直接给 WebView 进行渲染,对于其他动态下发的内容(比如相关搜索),前端再进行二次异步处理,提升用户效率。
一般来说,我们正文中所有内容都是通过 WebView 渲染,经过上述的优化之后,文章的文字部分渲染效率已经很高了,但是实际场景中,很多文章会包含比较多的图片和视频场景。
在实际场景中,WebView 渲染非文字内容会存在以下问题:
所以在详情页中,我们会将图片和视频等非文字内容通过原生组件的方式放在客户端进行渲染,既可以提高渲染效率,也可以减少不必要的流量消耗。
原生化渲染还有一个好处,图片越来越成为文章体验的重要部分,对于多图文章,我们在 Feed 页面也可以智能加载详情页需要的图片,增加用户的文章首屏体验。
讲完了性能优化,最后再分享一下我们对详情页白屏率的一些优化,其实很多用户反馈白屏问题大部分都可能是由于网络等问题导致页面加载时间过长,导致用户从体验上观感是白屏了,这部分通过上面分享的性能优化手段已经能够解决,所以下面只是简单介绍下一些非网络原因的白屏问题。
我们通过白屏检测和上报之后的数据分析之后发现,非网络原因导致的详情页的白屏问题大体是 WebView 加载的问题。
在 iOS 中,我们使用的是系统提供的 WKWebView,WKWebView 是运行在一个独立进程中的组件,所以当 WKWebView 上占用内存过大时,WKWebView 所在的 WebContent Process 会被系统 kill 掉,反映在用户体验上就是发生了白屏。
根据网上的做法,我们可以在 WKWebView 提供的回调 webViewWebContentProcessDidTerminate 函数中通过 reload 方法重新加载当前页面恢复,但是这种情况只适用于通过 loadRequest 加载的请求,在详情页中,由于使用了模板化的 WebView 中,重新 reload 只能重新 reload 模板,并不能正常恢复整个详情页,需要客户端重新加载模板之后再重新注入数据。
另外由于我们有预热模板的逻辑,所以可能在进入详情页的时候使用的 WKWebView 就已经崩溃,在调用 JS 注入数据时会直接返回失败,失败时,我们会尝试重新加载模板。但后来实际操作中发现一个问题,如果直接调用数据注入的方法,等待系统 WebView 返回失败的回调耗时比较久,所以后续也调整了数据注入的接口,我们提前在注入的脚本中判断是否存在数据注入的接口,如果不存在,就说明模板存在问题,直接重试即可。
而在 Android 中,我们采用的是自研内核 WebView,也会遇到一些奇奇怪怪的坑。
当然不管是 iOS 和 Android, WebView 加载的逻辑都比较复杂,有时候怎么重试也无法成功,这个时候我们会直接降级到加载线上的详情页,优先保证用户的体验。
限于篇幅原因,我们还做了很多其他事情,包括请求精简,push 文章预拉取,数据注入的方式优化等等,也做了很多其他的方向的探索,这里不做展开,希望有机会能再分享给大家。
最后总结一下我们在优化详情页打开速度之后的一些想法
Android Camera 内存问题剖析
字节跳动自研线上引流回放系统的架构演进
iOS大解密:玄之又玄的KVO
Android '秒' 级编译速度优化
技术团队不仅致力于在业务上不断深耕挖掘,在技术上也一直在追求极致的用户体验。
如果你也向往在一个亿级 DAU 业务里成长,也期待在技术上有突飞猛进的提升,欢迎你加入我们。
无论你是 iOS/Android/前端/后端,我们在深圳/北京/广州等你来,一起做更有挑战的事!简历投递邮箱: tech@bytedance.com ;邮件标题:姓名-工作年限-头条技术团队。
欢迎关注字节跳动技术团队
题:头条HTML提取失败的背后:挑战、创新与数据获取的新纪元
在数字化浪潮的汹涌推动下,信息的获取与利用已不仅仅是技术的较量,更是策略与智慧的碰撞。当我们在尝试从各大平台,如头条,提取HTML内容时遭遇失败,这不仅仅是一个简单的技术难题,更是对当前数据生态、技术局限以及未来发展方向的一次深刻反思。本文将从这一现象出发,探讨其背后的深层次原因,提出应对策略,并展望数据获取领域的新纪元。
一、现象透视:HTML提取失败的深层含义
在表面看来,HTML提取失败似乎只是一个技术障碍,实则不然。它映射出的是当前网络环境日益复杂、数据保护意识增强的现实。随着《数据安全法》、《个人信息保护法》等法律法规的出台,数据的合规性、安全性成为不可逾越的红线。同时,各大平台为了保护用户隐私、维护数据主权,也在不断升级防护措施,这使得传统的数据抓取手段面临前所未有的挑战。
二、挑战与反思:技术、法律与伦理的多重考验
技术挑战:随着网络技术的发展,平台反爬虫技术日益成熟,传统的HTTP请求、解析HTML等技术手段已难以满足需求。如何在不违反法律法规的前提下,有效、高效地获取所需数据,成为亟待解决的问题。
法律风险:数据抓取行为极易触及法律红线,如侵犯著作权、非法获取个人信息等。因此,在进行数据抓取前,必须深入研究相关法律法规,确保操作合法合规。
伦理考量:数据的价值在于流动与共享,但这一过程必须建立在尊重用户隐私、维护数据主权的基础上。因此,在追求数据价值的同时,必须坚守伦理底线,避免数据滥用。
三、应对策略:创新驱动,多维发展
技术创新:加大研发投入,探索新的数据抓取技术,如基于人工智能的模拟用户行为、深度学习等技术手段,以提高数据抓取的效率和准确性。同时,加强跨领域合作,引入计算机科学、法律、伦理等多学科知识,形成合力解决难题。
合规建设:建立健全数据抓取与使用的合规体系,明确数据抓取的范围、目的、方式及安全保护措施。加强员工培训,提高员工对法律法规的认识和遵守意识。
伦理引导:树立正确的数据观和伦理观,引导企业和个人在数据抓取和使用过程中遵守道德规范,尊重用户隐私和数据主权。通过社会舆论、行业自律等方式,形成良好的数据生态环境。
四、未来展望:数据获取的新纪元
随着技术的不断进步和法律法规的日益完善,数据获取领域将迎来新的发展机遇。未来,我们将看到更加智能化、高效化、合规化的数据抓取工具的出现,它们将能够在保障用户隐私和数据安全的前提下,满足各类用户对数据的需求。同时,随着区块链、分布式账本等新技术的发展,数据的溯源、验证和共享将更加便捷和透明,为数据经济的发展提供强有力的支撑。
总之,头条HTML提取失败虽是一个具体的技术难题,但它却引发了我们对数据获取领域的深刻反思。在未来的发展中,我们必须坚持创新驱动、合规建设和伦理引导相结合的原则,共同推动数据获取领域向更加健康、可持续的方向发展。
数字迷雾中:头条HTML提取的挫败与深思
在今日这个数据洪流不息的时代,每一秒都有无数信息如潮水般涌来,我们如同站在信息的海岸边,试图捕捉那些对我们有价值的浪花。然而,当我们的手伸向“头条”这片信息海洋,试图提取其HTML内容的珍珠时,却遭遇了前所未有的挫败。这不仅仅是一次简单的技术挑战,更是一次对数字时代信息获取方式的深刻反思。
一、迷雾中的探索:技术挑战与规则迷宫
在尝试揭开头条HTML内容的神秘面纱时,我们遭遇了前所未有的阻碍。这不禁让人思考,是技术的瓶颈限制了我们的探索,还是隐藏在背后的规则迷宫让我们迷失了方向?
从技术层面剖析,HTML内容的提取本应是爬虫技术的拿手好戏,它们如同网络世界的探险家,穿梭于各个网站之间,搜集着宝贵的数据。然而,随着反爬虫技术的日益精进,这些探险家们不得不面对更加复杂多变的挑战。头条,作为信息领域的巨擘,其反爬虫机制无疑也是行业内的佼佼者。我们的尝试,或许正是撞上了这堵由技术构建的坚固城墙。
但另一方面,我们也不能忽视规则的力量。在这个信息即财富的时代,各大平台对于自身内容的保护意识日益增强。头条等平台通过设置严格的规则体系,来确保内容的合法使用和传播。我们的失败,或许正是因为没有遵循这些规则,而触动了平台的敏感神经。
二、挫败后的觉醒:尊重与合作的新视角
面对这次挫败,我们不应仅仅停留在沮丧和懊恼之中,而应从中汲取教训,开启新的视角。首先,我们要深刻认识到尊重规则的重要性。在这个法治社会,任何行为都应在法律和规则的框架内进行。对于平台的内容,我们更应保持敬畏之心,遵循其使用规则,避免触碰法律的红线。
其次,我们要积极寻求与平台的合作机会。在信息共享的时代背景下,合作已成为不可逆转的趋势。我们可以尝试与头条等平台建立联系,共同探讨数据共享和使用的可能性。通过合法合规的途径获取数据,不仅能够保障数据的真实性和可靠性,还能够为双方带来更多的合作机会和共赢的可能。
三、展望未来:技术革新与规则进化的交响曲
虽然这次挫败让我们暂时停下了脚步,但我们也应看到前方的希望。随着技术的不断进步和规则的日益完善,我们有理由相信未来的信息获取将更加便捷和高效。
在技术层面,我们可以期待更加智能和先进的爬虫技术的出现。这些技术将能够更好地应对各种反爬虫措施的挑战,为我们提供更加全面和准确的数据支持。同时,随着人工智能技术的不断发展,我们或许还能够开发出更加智能化的信息分析工具,帮助我们更好地理解和利用这些数据。
在规则层面,我们可以预见各大平台将不断完善自己的规则体系。这些规则将更加明确和具体地规定内容的使用方式和限制条件,为数据的合法共享和使用提供更好的保障。同时,随着人们对数据隐私和版权的重视程度不断提高,我们也应积极参与相关规则的制定和完善工作,为构建一个更加健康、有序的信息环境。
这次头条HTML提取的挫败经历虽然让我们暂时受挫,但也为我们提供了宝贵的反思和成长机会。我们不仅要看到技术的局限性和规则的约束性,更要从中汲取教训、总结经验、寻找新的出路。在未来的道路上,我们将以更加开放的心态和敏锐的洞察力去迎接挑战、把握机遇、创造更加美好的未来。
*请认真填写需求信息,我们会在24小时内与您取得联系。