/ InfoQ记者 Tina (微信:whitecrow-tina)
又将搜索业务往前推进了一步。4 月 30 日,宣布上线“头条百科”测试版。界面简洁,除了搜索框外,只有一个 Slogan:来这里,认识世界!
这是头条搜索继 2019 年 8 月推出头条搜索网页版,2020 年 2 月上架头条搜索 APP 之后的新动作。仅经过一年多的发展,尽管没有大肆宣传,头条搜索也吸引了不少用户的注意,在用户体验方面也获得了用户的肯定。
关于头条搜索的相关技术,在外界极少量的资料中,我们看到朱文佳在他的演讲中提到:“我们建立了一套业界独有的搜索技术架构,我们从推荐引擎上探索出机器学习的方案,然后把这套技术架构和底层算法迁移到搜索引擎上,发现效果也很好。“
实际上,于 2017 年才开始组建搜索技术团队,头条搜索如何在这么短的时间里,做到这种效果?他们的搜索引擎到底与传统引擎有何不同?头条搜索是否打造出自己“理想的搜索中台架构”?
为此,InfoQ 独家采访了搜索技术部门,这也是头条搜索技术团队第一次接受外界采访。
从 2012 年开始,开始做推荐引擎。而到了 2016 年,在资讯信息分发市场上,有 50% 的内容分发是通过算法来完成的。
智能推荐引擎通过算法,综合用户特征、文章特征、环境特征,得出用户对内容感兴趣的概率,返回 TopN 的结果满足用户的需求。从无到有搭起平台,随着大数据技术的发展,在 2014 年及时引入实时流架构,用户的行为信息可以被模型快速捕捉并反馈至下一次刷新的推荐效果。 从成立开始,这家企业就开始大量招募擅长机器学习、推荐算法的技术人才。当时互联网还正处于招移动端、iOS 技术人员的阶段,有猎头评价:“很多人认为他们疯掉了”。
实际上,这些人才为推荐系统底层算法打下了基础。
随后,在构建搜索系统架构时,将从推荐引擎上探索出的技术架构和底层算法迁移到搜索引擎上。“发现效果也很好。” CEO 朱文佳在演讲中说。
头条搜索技术团队负责人在采访里表示:“推荐和搜索有一些相通的地方,背后都要有 AI 来理解用户的需求和内容,理解的越清楚,就越能帮助到用户。像大规模机器学习、深度学习、实时更新等推荐上成功应用的方法,都是建模用户、内容的有效方法。所以将这些技术应用到搜索上,也会取得不错的效果。”
实时更新也是传统搜索引擎的短板。最近几年随着 Storm、Spark streaming、Flink 等框架的成熟,实时流处理才能成为各公司 AI 平台的标配。
现在实时架构同样也被引入到头条搜索的搜索引擎里。“基于新闻推荐时效性的理解和经验,我们在搜索上也研发了全量实时更新的百亿倒排索引架构,大幅提升了内容的时效性,大事件发生时,往往最先能在头条搜索到。”头条搜索技术团队负责人表示。
即便如此,推荐与搜索还是存在不少差异。头条搜索技术团队负责人在采访中指出:“搜索要解决好长尾问题,不能过度依赖用户的行为反馈去理解特定的查询词、网页,而是需要寻找更泛化的方法。为了让通用技术发挥优势,也需要把搜索上特有的问题理解得更加充分,例如怎么做好对多语言的理解,怎么在万亿网页的检索系统中权衡好 Explore/Exploit,怎么在性能要求苛刻的场景中应用好复杂模型等等。另一方面,在推荐上目前不一定那么有效的方法,在搜索上却有可能大展拳脚,例如强化学习、迁移学习。整体来看,搜索系统复杂多样,对技术的广度、深度有非常高的要求,发挥的空间也更大。”
“很多新技术还没有被充分用到搜索引擎里去。”
作为全球最大的搜索引擎公司,Google 也是我们公认的大数据鼻祖,它存储着全世界几乎所有可访问的网页,数目可能超过十万亿规模。为了将这些文件存储并使用起来,Google 开发了 GFS、Bigtable 和 MapReduce 三驾马车。从此大数据得以繁荣发展,行业里也产生了数百万大数据从业需求。随着数据采集、存储、计算能力的提升,进一步开启了“AI 时代”。
搜索引擎的进化史,就是人工智能技术的进化史。今天,无论是搜索、还是信息流,所用的技术完全都是人工智能技术,包括谷歌在内的搜索引擎厂商,都在不断将人工智能新技术应用到搜索引擎中。
头条搜索在新技术应用上,也做了很多大胆的尝试。
例如,BERT 是 2018 年时 Google 在 NLP 上的一个重要突破,2019 年 10 月,Google 宣布将 BERT 算法应用到搜索引擎中,搜索结果得到了 10% 的提升。Google 宣称这是 Google 搜索引擎过去五年中最大、最正向的变化,而且也许是有史以来最大的变化。
但 Google 并不是第一家将 BERT 应用在搜索引擎里的,头条搜索技术团队负责人在采访中提到:“早在 2019 年初,头条搜索就已经将 BERT 在头条搜索上全流量应用,并且获得了显著的效果提升。上线得比 Google 更早,依靠的是大家大胆创新和快速迭代。”
此外,头条搜索技术团队负责人也认为,AI 技术能够更好的对问题进行端到端建模,例如网页内容的理解,传统方法会对这一问题进行不断细分,基于 HTML 结构等信息,对不同的子任务应用不同的规则,反复迭代来提升效果。而利用 AI 技术,头条搜索将网页渲染成图片,联合视觉、文本、HTML 结构等特征,对相似任务进行统一的端到端建模和多任务学习,大幅提高了分类、信息抽取的效果和效率。
头条搜索技术团队负责人表示,头条搜索技术团队也在继续借助 AI 探索更多的搜索引擎技术问题,例如多模态技术是否可端到端地搜索出更相关的图片、小视频;抓取、索引构建系统有没有可能基于模型重新设计;强化学习是否能让搜索排序更加智能并节约计算成本等等。
如果有这么一个可能,就是让老牌搜索引擎厂商在发展二十年后重做搜索系统,那么新的搜索系统会有什么不同?
搜索引擎是极其复杂的大工程,它通常都要将整个系统分解为若干子系统,比如会分解为链接发现、索引筛选、Query 理解、Ranking 等步骤。每一步骤内部又会进一步分解,这个过程可以无限分解下去,由不同的人和团队分工解决。但这个过程有个致命缺点,在每一步的分解过程中都会有信息损失,最后联合起来导致整个系统不能达到最优状态,比如 A 步骤精度 90%、B 步骤精度 90%、对接起来最终系统精度可能只有 80%。
这种精分细解,是传统搜索引擎受限于当时的技术手段,为了有效开展工作、更好地提升产品效果采取的技术决策,这在当时是非常正确的。“但精度不足,也限制了传统搜索引擎进一步提升效果。”在谈到传统搜索引擎的缺陷时,头条搜索技术团队负责人提到。
现在做搜索引擎,头条搜索技术团队负责人告诉 InfoQ,头条搜索技术团队主要有三个优势:
字节跳动公司搜索部门汇聚了大量行业顶尖技术精英,旨在从 0 到 1 打造一个用户体验更加理想的通用搜索引擎,支持公司所有产品的搜索功能,包括、抖音、西瓜、火山、懂车帝等多款备受欢迎的知名 app。在这里你有机会参与工业级搜索引擎从无到有的研发工作,并在此过程中挑战大规模分布式存储和计算架构、NLP、人工智能、ranking 等世界难题,很好地锻炼自己的工程能力、算法能力、业务能力。加入我们,参与并见证一个新产品的成长和成功,和大牛们一起完成最有挑战性的工作吧!
搜索算法工程师/搜索架构工程师
搜索算法实习生/搜索架构实习生
扫码可获上述职位详情
任何相关问题咨询:searchhr@bytedance.com
交网站是新站站长应该做的第一件事,也就是告诉各大搜索引擎,你的网站网上线了,来爬我的网站,收录我的网站吧,然后觉得还不错的话,记得给点排名,大概就是这么个意思。下面把国内主要的搜索引擎提交入口发出来,希望能免去你们一个个去找的麻烦。
百度搜索引擎提交入口:http://zhanzhang.baidu.com/sitesubmit/index
百度死链提交入口:http://zhanzhang.baidu.com/badlink/index
百度信誉申请:http://trust.baidu.com/vstar/feedback
搜狗URL提交:http://zhanzhang.sogou.com/index.php/urlSubmit/index
360URL提交:http://zhanzhang.so.com/?m=PageInclude&a=index
360搜索引擎登录入口:http://info.so.360.cn/site_submit.html
360新闻源收录入口:http://info.so.360.cn/news_submit.html
Google网址提交入口:https://www.google.com/webmasters/tools/submit-url?pli=1
Google新闻网站内容:http://www.google.com/support/news_pub/bin/request.py?contact_type=suggest_content&hl=cn
搜狗网站收录提交入口:http://www.sogou.com/feedback/urlfeedback.php
bing(必应)网页提交登录入口:http://www.bing.com/toolbox/submit-site-url
神马搜索提价入口:http://zhanzhang.sm.cn/ (这个搜索引擎主要是移动端,很重要)
简搜搜索引擎登陆口:http://www.jianso.com/add_site.html
雅虎中国网站登录口:http://sitemap.cn.yahoo.com/
搜索引擎登陆入口大全:http://www.zui5.com/addurl.html
中搜(中国搜索)网站提交入口:http://zhanzhang.chinaso.com/web-master/safe/sitelink/editLink
铭万网B2B(必途)网址登陆口:http://search.b2b.cn/pageInclude/addpage
搜外博客大全提交:http://123.seowhy.com/submit
蚁搜搜索网站登录口:http://www.antso.com/apply.asp
孙悟空搜索网站登录:http://www.swkong.com/add.php
卢松松大全提交:http://lusongsong.com/daohang/login.html
酷帝网站目录提交入口:http://www.coodir.com/accounts/addsite.asp
快搜网站登陆口:http://www.kuaisou.com/main/inputweb.asp
SOSO搜搜网站收录提交入口:http://help.soso.com/help_web_09.shtml
被百度K了或者申诉入口:http://zhanzhang.baidu.com/feedback
相信你只要在这些主流平台提交了你的网站,那基本上所有的搜索引擎都有你的记录了。
如果你还没有做的话那么这件事情早已经迫在眉睫了。据统计,在搜索引擎来源流量中,电脑端和移动端的普遍占比在30%:70%,你可丢失了70%的SEO流量!
早在2013年,移动互联网大爆炸式的崛起,让很多互联网巨头公司都措手不及,百度也不例外。但幸好百度抓取移动互联网还够及时,没能被拉下。在2014年百度站长平台就开始疯狂对移动端网站适配进行了大规模的宣传工作,目的就是让很多的网站能够尽快的搞一个手机上的网站出来。
当时,手机端网站的域名前缀也是比较多的,http://h5.xxx.com、http://wap.xxx.com、http://m.xxx.com,随着时间的推进,移动互联网生态的不断稳定,移动端网站这个词汇形成了,对应的域名前缀也多数使用了http://m.xxx.com。比如:pc端域名是http://www.xinya100.cn那么移动端对应是http://m.xinya100.cn;那针对百度而言,我们的移动站怎么才能获得排名和流量呢?
第一点就是移动端网站的适配,所谓适配就是将你电脑端的网站与移动端的网站进行一一关联,让搜索引擎知道你电脑端的某一个网页是有对应的移动端网页的。
从而如果是用户使用手机访问到了你电脑端的网页,你利用技术能力将这个电脑端的网页自动跳转到手机端的网页。当然移动适配是一个比较多的工作量,具体的内容,这里详细地介绍了移动端网站适配的操作步骤:
移动适配,从当下来看可以这样说:“做好了移动适配工作,wap站点85%甚至以上的工作,都已经完成了”。是的,即使你的wap站点是一个新站(PC站是有一定基础的),那么做好移动适配工作,在短暂的1-2周的搜索引擎处理后,就能获得至少PC端一半的流量。而今天无论在电商、房产、教育等等很多领域。搜索引擎流量来源的占比已经达到了wap端80%,PC端20%。所以,移动适配的工作在今天,不做是绝对不行了。
下面针对我们公司的wap站点进行的移动适配工作全过程,拿出来与大家分享。
移动适配的访问跳转是301还是302?
第一步就是做好跳转工作,因为在你没做移动适配之前,搜索引擎的wap端是有很多你PC的页面的。这样的页面不仅不能获得一定的排名还严重影响了用户的体验。所以我们要将使用移动设备访问我们PC页面的用户通过服务器识别出来并使这类用户跳转到对应的wap站对应的页面上。
记得我在2015年加入犀牛之星这家公司时,就发现了PC到wap站点的跳转采用的是js,wap端流量是小几千的日UV,而PC已经是1万多了。两者差距很大,基本上就是移动适配的跳转工作做了,但并没有做好!
所以这里不建议使用js跳转,跳转方式一定是301或者302状态码的跳转形态。否则搜索引擎无法识别。而在301和302之间,我个人建议使用301跳转。之前的一次案例使用302搜索引擎的反应速度并没有301快是个人证实的,但询问官方人员后,并未证实我这个观点,这里只是建议。
还有一点需要额外的提醒大家,PC页面和WAP端页面的对应关系一定要做好。PC端说的是1,跳转到wap端,也必须是1。当然除了主体内容外,其他的元素可以不同。例如我们的列表页主要的列表有就可以,文章页中主要的文章存在即可。其他的可以略有不同。
帮助搜索引擎识别页面的类型:
搜索引擎从本质上,是不清楚我们的页面是PC页,还是wap端页面的,那么我们需要针对不同的端添加如下两行代码:
PC端:
移动端:
这里需要注意的事项只有一个,就是这两行代码要分别添加在PC端和wap端的head标签内即可。
在PC页声明对应的wap站页面
搜索引擎在抓取我们页面的同时,我们需要在PC的页面中指明对应的wap端页面地址,这样同样是为了帮助搜索引擎更好的找到该PC页对应的wap端页面,代码如下:
如上,content属性对应的值,是声明我们对应的wap端页面为html5的页面,URL地址为:http://m.xxx.com/news/2021-3/15199816265369.html即可。
提交搜索引擎站长工具 – 移动适配
利用搜索引擎站长工具的移动适配工具,提交我们的适配规则,这也是最后一步,更是最重要的一步。百度、360、搜狗以及google的方式大同小异,这里以百度为例。
百度站长平台(现更名搜索资源平台)地址:http://ziyuan.baidu.com,打开之后在导航栏“网站支持”找到“移动适配”,如下图:
进入之后,点击“添加适配关系”这时我们会看到两种提交方式一种是规则适配,另一种是URL适配。
这两种我们都有用到,我们下面分别进行说明:
百度移动端适配提交之规则适配
所谓规则,是指我们的PC端与wap端的URL是有规律可循的,例如:PC端和移动端的分别如下:
PC:http://www.xxx.com/web_news/html/2021-3/15199816265369.html
移动端:http://m.xxx.com/news/2021-3/15199816265369.html
可以看到,/2021-3/15199816265369.html是一样的,其他的有区别,且也只有这段是变化的,其他的也都是不变的。那么我们的规则可以写成如下:
PC:http://www.xxx.com/web_news/html/(\d+)-(\d+)/(\d+).html
移动端:http://m.xxx.com/news/(\d+)-(\d+)/(\d+).html
这样就可以了,如上代码中的 (\d+)代表数字的意思,如果想了解其他可参考百度给出的官方说明文档,链接如下:
https://ziyuan.baidu.com/college/courseinfo?id=267&page=5#h2_article_title22
规则适配,也分为单条规则和多条规则的提交。这里我们举了一个例子,多条的只是需要把这些规则放到txt文件中,然后写多个提交。没什么区别,这里就不多说了。
百度移动端适配提交之URL适配
URL适配,是指那些没有规则的页面,实际中,我们每一个站点可能都或多或少地存在这样的问题。百度也给出了我们解决办法。
需要我们提交pc-wap端url对,可以是文件上传,也可以在工具中直接填写。这里建议少的话就直接在工具中填写,要是多的话就提交txt文件即可。
选择文件提交需要注意如下条件:
文件类型为txt,文件大小<=10M。URL对不超过50000对。
文件要求每行一对URL,URL对文件为两列,第一列为PC URL,第二列为移动URL,两列之间以空格隔开。
一次最多上传10个文件,可以提交多次。
选择URL对提交,直接填写即可,注意看截图中的文字提示要求。
如上步骤我们的移动适配工作就全部完成了。等待搜索引擎提示适配成功就等着流量上涨吧!2015年8月底做完之后,短暂2个月,大约增长约200%,当然之后还是增长的,由于数据问题,我删除了具体数值以及没有选择更长的时间维度。我想这样应该够说明问题了。
如上就是我之前操作的百度移动适配的案例以及操作细节的全过程。
其次就是TDK字数与电脑端不一致。手机屏幕那么小,肯定不能像电脑端一样展示那么多字。正常来说你的网页标题,也就是title控制在20个字以内。描述还是80个字,而关键词可填写也可以不填写,如果需要填写的话,控制在3~5个词即可。
除了这两个事情外,友情链接也是要正常交换的,你可以用别人的电脑端网站和你的移动端网站进行交换,当然最好还是找到同为移动端网站的优质站点。虽然搜索引擎的效果上来说没什么大问题,但如果和电脑端的网站换了友情链接,真实的用户从别人的电脑端网站点击到你的移动端网站,这样的体验是非常不友好的。
最后一点就是访问速度,在移动端网站上,搜索引擎额外的强调了网页的打开速度,百度认为如果一个网站打开速度超过3秒,那么无论你网站多么的优质,都会被强制性认为是垃圾站点。
除了图上的一些问题外,我还要告诉大家,实际上百度的几乎80%甚至以上的工作重心都在移动端了,可以这么来形容如果你认识百度的相关工作人员,和他们聊起网站或者seo时,他们的脑子里一定和你聊的移动端网站的事情。从百度的一系列算法来看也是如此。
*请认真填写需求信息,我们会在24小时内与您取得联系。