策 发自 凹非寺
量子位 报道 | 公众号 QbitAI
训练一个简易AI对话交互式机器人需要什么?
一篇文档+3分钟足矣。
在今年的世界人工智能大会(WAIC)上,我算是见识到了。整个开发过程没有用到一句代码。
先上传一篇Word格式文档:
不到3分钟的时间里,一个简易AI客服快速生成,然后你就可以和“她”聊天了:
这是一家提供对话AI平台的公司的最新产品:输入文档便可让AI自动生成知识图谱,知其然更知其所以然,成为一个真正掌握知识的AI。
而且这家公司的CEO还撂下“狠话”:图灵测试不重要。
“对话AI落地应用需要产生价值,需要解决企业或个人使用上的问题,而不是在是否通过图灵测试的问题上纠结。”
这家公司便是由前微软(亚洲)互联网工程院副院长简仁贤先生创办的竹间智能,这款前所未见的AI新作便是竹间推出的Gemini(Knowledge Factory)知识工程平台。
“虽然是机器人,但我们确实解决了问题。”
既然AI能提高效率,为什么一定要纠结让聊天机器人通过图灵测试呢?
或许过去产业界真的走了弯路。
3年前,有个聊天机器人算是小范围通过了图灵测试,那就是谷歌推出的Duplex,一个可以帮用户预订餐厅的AI。餐厅店员听到Duplex,甚至认为就是顾客本人在订位。
但是3年后呢?除了谷歌之外,我们几乎看不到哪个商用的对话AI通过了图灵测试。
毕竟不是每个企业都如谷歌般财大气粗,挥着大量的数据集和算力把AI训练到以假乱真。
图灵测试早已不再是检验机器人智能的唯一标准,是时候转变观念了:“解决问题才是王道!”
在这个问题上,学术界和产业界默契地达成了一致。
最近,华盛顿大学和艾伦人工智能研究院提出:人工审核不应该还是自然语言生成(NLG)的“黄金标准”,AI生成文本更重要的是内容是否正确、合乎逻辑。
企业当然也是这么想的,现阶段通过图灵测试不经济也不现实,既然人们已经接受了和AI对话,那么对话到底有没有“机器感”已经没那么重要了。
国内类似的呼声也越来越多。竹间智能的创始人兼CEO简仁贤同样也认为:关注AI的“实用性”。
要让AI实用,就必须要让它掌握知识举一反三。
给AI一篇骨关节文档,让它变成健康顾问。倘若把医学文档换成商品描述、说明书和用户评论,那么就可以得到一个更智能的电商推荐系统,比如输入“防风效果最好的夹克”来精确寻找符合需求的商品,而不是输入商品名称搜索。
而这仅仅是一篇文章产生的效果。可以想象,当你拥有一个储量丰富的知识文库,包含PDF、Word、PPT等不同类型、不同格式的文档,把他们统统输入到这个平台里,就可以得到一个针对特定行业的全能咨询师。
现实问题是,许多企业并不缺乏巨量文档,缺乏的是挖掘数据的能力。如果能把信息挖掘出来形成知识图谱,就可以产生非常大的作用。
而知识图谱的作用,就是能从海量数据中简洁快速地找到回答复杂业务问题的答案。
这些年,我们看到了很多计算机视觉(CV)、自然语言处理(NLP)这类感知AI的广泛商用,却较少看到像知识图谱这类认知AI的商用,为什么?
“一个文档可能有2万多字、10万多字,你可能有2万个文档、5万个文档需要去处理,怎么处理呢?传统的知识图谱技术是没有办法做到的,必须要成千上万人,用人工去看文档,一个字一个字看下来再去建图谱,这个不现实。”
竹间智能CEO简仁贤解释道。
所以,市场急需一个能够自动化构建知识图谱的工具。
而竹间智能给出了自己的解决方案,就是一个自动化平台——Gemini(Knowledge Factory)知识工程平台,从读文档、自动构建图谱到机器人自动回答,整个流程各环节无缝对接,只需要很少的人工干预。
无论你是来自医疗、制造业,还是金融、电商领域,都可以使用Gemini平台打造属于自己行业的知识图谱。
“知识图谱技术可以让AI更加高效。在机器学习和深度学习方面减少很多不必要的数据标注以及训练,让深度学习模型具备可解释性,也可以辅助多任务的机器学习,从而提升整体效率。”
简仁贤说。
这便是知识图谱在当今AI落地中的一大主要优势。
竹间智能“野心”不小,而Gemini平台的诞生也不是一蹴而就,甚至曾走过“弯路”。
2015年,从微软离职的简仁贤创立了竹间智能,公司最初选择了当时最为热门的面向消费者市场的聊天机器人。
事实证明,这是一条选手众多且难以差异化竞争的道路。
面对2C市场商业化的难题,竹间智能在2016年果断转变方向,进军2B市场,为企业开发0代码的对话AI平台。从那时起,竹间智能就已在开发知识图谱技术。
一年前竹间智能累积大量落地经验,发布了全新升级的Bot Factory,到现在,公司已经创建了6大技术、6大平台产品、6大行业解决方案。
不过从另一种角度来看,竹间智能也并未走弯路,而是带着2C的创业初期理想,一路探索,结合各行业实际需求,找到了B2B2C的宽阔道路。
凭借过去在NLP技术能力上的沉淀,竹间智能将知识图谱的推理能力结合自然语言理解能力,帮助企业更快地找到答案。
在成熟的对话式交互短文本NLP能力之上,结合机器阅读和知识工程的长文本NLP能力, 使机器人能处理繁琐且需要大量知识储备的业务,以知识图谱为现在的商用AI赋予认知智能,实现知识管理、运营服务和智能应用的全链条打通。
另外,竹间智能今年还完成了“ALL-in-Cloud”的全面云化策略,将六大核心产品平台悉数升级为云平台,可满足企业公有云、私有云及混合云的多种部署要求,应对行业云化趋势。
通过适配不同应用场景的需求,竹间智能的产品已经被数百家大型企业所采用。
从创业至今6年,竹间智能的技术逐渐获得了大厂认可,迄今为止已有金融、互联网、政务、汽车等行业的数百家大型企业使用其服务。
C端用户虽然不是竹间业务的直接服务对象,你却可能早已在不知不觉中用过竹间的技术,华为、OPPO手机中的语音助手就有竹间的技术支持。
简仁贤表示,某消费者电子产品的公司也正在用竹间智能来改进其产品。一个对话AI如何改进电子科技产品呢?
原来电子产品公司依靠竹间智能的Gemini知识工程平台,打造VOC(Voice of Customer)系统,聆听客户之声,全面收集电商平台上的用户评论,洞察度量用户的产品使用与购物体验,从而对下一代产品进行改进。
不仅能上天,竹间的AI技术还扎根老百姓,上海各地街道居委也在用竹间智能。
自从去年新冠疫情爆发以来,竹间智能利用语音机器人代替人工帮助徐汇区完成了外来务工人群的流调工作,通过2万通/日的防疫电话拨打,AI自动记录人员所在地、来访地、身体等信息,巩固防疫堡垒。今年竹间智能接到200万个接种疫苗通知电话的需求,AI机器人快速搭建落地、即刻投入运行,极大地减少了社区一线服务人员的工作量。
值得一提的是,在WAIC 2021上,中国信通院与竹间智能联合发布了《2021认知智能发展研究报告》,在这份报告中,中国信通院提出认知智能未来的三大趋势:
一、认知智能将进一步成为AI产业发展热点;
二、行业知识图谱和关系挖掘将推动认知智能在行业中更深层次的落地应用;
三、自动化、多模态、标准化的特征进一步凸显,主要表现在知识工程流程将加快实现自动化。
简仁贤对认知智能的这条赛道充满信心。认知智能未来将释放出更大的价值,受益的也不仅仅是竹间,而是千千万万家企业,更是无数的用户和消费者。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
器之心整理
参与:张倩、思
500 页图模型巨著,从图、概率图、统计和因果推理带你纵览神奇的图模型。
对因果推理感兴趣的读者想必对图灵奖得主 Judea Pearl 并不陌生,他的《The Book of Why: The New Science of Cause and Effect》详细阐述了自己在因果推理领域的研究成果,深受国内外读者的欢迎。近日,这位大牛在 Twitter 上推荐一本新书——《Handbook of Graphical Models》。
书籍链接:https://stat.ethz.ch/~maathuis/papers/Handbook.pdf
该书由多位世界知名的统计学家合作完成,整理了图模型自上世纪 80 年代诞生以来的发展脉络,可以为传统数据科学工作者学习因果建模提供一份有价值的入门材料。
该书由 Marloes Maathuis(苏黎世联邦理工学院统计学教授)、Mathias Drton(华盛顿大学统计学教授)、Steffen Lauritzen(哥本哈根大学数理统计教授)、Martin Wainwright(加州大学伯克利分校统计学、电子工程与计算机科学教授)以及多位贡献者合作完成。
本书的主要作者(从左至右:Marloes Maathuis、Mathias Drton、Steffen Lauritzen、Martin Wainwright)。
图模型是什么?
图模型是一种与图相关的统计模型。图的节点对应感兴趣的随机变量,边编码变量之间允许的条件依赖。基于图模型的因式分解特性便于使用多元分布进行易于处理的计算,使得该模型成为许多应用中的有用工具。此外,有向图模型容许直观的因果解释,已经成为因果推理的基石。
为什么要读这本书?
虽然目前已经有很多关于图模型的优秀书籍,但这一领域发展得如此之快,单个作者很难覆盖其全部内容。而且,图模型本来就是跨学科的,其成果来自多个学科,如统计学、计算机科学、电气工程、生物学、数学和哲学。通过介绍这些领域领先的研究成果,这本新书可以让我们看到图模型的当前发展状况。
书中写了哪些内容?
全书共分为 5 大部分,包含 21 个章节:
第一部分介绍了与图模型相关的基础知识,包括图如何编码随机变量之间的条件独立性(变量联合分布的因式分解)。
第二部分讲如何基于特定图模型进行高效计算,重点解释了相关因式分解特性的利用。
第三部分将重点转到统计推理问题,如学习图和从可用数据中估计相关参数。
第四部分是关于有向无环图的因果解释。相关章节概览了因果推理的图方法基本概念,同时还讨论了一些统计问题,如从数据中学习有向无环图。
最后一部分介绍了图模型在司法科学、生物学等学科中的应用。
了解了这本书的基本信息之后,我们来看一下书中的详细内容。
图的定义
整本书都是围绕「图」这一数据结构,而图模型将图中的节点视为随机变量,将连接的边视为独立性关系,那么图模型也就成为了一种强大的建模工具。
作为图模型的基础,我们先要了解「图」的标准定义,因此我们可以看看在这本书中 1.6 小节到底是如何定义图的。
这一章节介绍了关于图最基本的概念。现在若定义 N 为有限非空索引集的通用符号,其元素对应于随机变量,并且在图模型中以节点的方式出现。通过 N 定义的图可以理解为将 N 作为节点集合,本章考虑的图没有多重边,因此它们通过边可以分为无向图和有向图。
注:上面是原文对无向图和有向图的标准定义,其中无向图指节点间的边全是没有指向的,而有向图指节点间的边是有指向的。
给定在 N 上定义的图 G(无向图或有向图),且有非空节点集 T ⊆ N,那么由 G 诱导出的子图(induced subgraph)T 可以表示为 G_T。具体而言,G_T 表示在集合 T 上的图,其中所有的边即 G 中 T 个子节点间的边。
图 G 在 N 上的游走(walk)可以表示为从 i_1 到 i_k(k ≥ 1)的节点序列,序列中每一对相邻的节点在图 G 中都有一条边相连。游走的端节点为 i_1 和 i_k,如果 k ≥ 3,那么其余的节点可以表示为 i_l(1 < l < k),它们都是内部节点。游走过程中边的数量 k - 1 被称为游走的长度。
如果 i_1, ..., i_k 是唯一的,那么该游走就称为图 G 的径(Path);如果 k≥ 4,且满足 i_1 = i_k、i_1, . . . , i_k−1 是唯一的,那么这样的游走可以称为环(Cycle)。在有向图 G 中,一条径或者一个环之所以称为有向,是因为对于所有内部节点 l=1, ..., k-1,都有 i_l → i_l+1。
图 1.3:两种无向图。
如果有向图 G 不包括有向环,那么它按照惯例就可以称为有向无环图(DAG)。DAG 有一个众所周知的等价描述,即如果有向图 G 能枚举节点 i_1, ..., i_|N|,且它们的指向是一致的,那么就可以称为 DAG。即如果图 G 中 i_l → i_k,那么有 l < k。
另外一种重要的概念是弦图(无向图),弦图满足对于节点至少为 4 的环,它都至少有一条弦。也就是说,环中节点的边,并不是构成环的边。一种非常著名的等价定义方法可以表示为,一个弦图 G 指的是它的团可以以序列的方式组织 C_1, ...,C_m(m ≥ 1),它满足 running intersection 属性:对于所有 k ≥ 2,存在 l < k 以令
。
目录
最后,让我们看看整本书的目录和主题(滑动目录向下翻页)。
incent van Gogh (1853 - 1890), Saint-Rémy-de-Provence, 1890
Credits: Van Gogh Museum, Amsterdam (State of the Netherlands, bequest of A.E. Ribbius Peletier)
题图
4 月是生命力喷薄而出的季节,古语冠以「芳菲」二字有点过于文静了,相信多数人都被怒放的花儿所震撼过。感谢 4 月带给我们的这般热烈的生命力。题图为梵高在 1889 年 4 月画的花期中的李子树。
4 月的图书也像花儿一样争奇斗艳。
本月为大家特别推荐的书是——《深入剖析Kubernetes》,推荐理由如下。
技术图书作品
1. 深入剖析Kubernetes
作者:张磊
| 图书特色
本书深入剖析了Kubernetes的本质、核心原理和设计思想,从开发者和使用者的真实逻辑出发,逐层剖析Kubernetes项目的核心特性,全面涵盖集群搭建、容器编排、网络、资源管理等核心内容,以通俗易懂的语言揭示了Kubernetes的设计原则和容器编排理念,是一本全面且深入的Kubernetes技术指南。
2. 斯坦福数据挖掘教程(第3版)
作者:Jure Leskovec,Anand Rajaraman,Jeffrey Ullman
译者:王斌 , 王达侃
| 图书特色
本书源自斯坦福大学公开课“CS246:海量数据挖掘”“CS224W:图机器学习”和“CS341:项目实战课”,主要关注极大规模数据的挖掘。书中包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等主要内容。第3版新增了决策树、神经网络和深度学习等内容。几乎每节都有对应的习题,以此来巩固所讲解的内容。读者还可以从网上获取相关拓展资料。
3. 图神经网络导论
作者:刘知远 周界
译者:李泺秋
| 图书特色
图神经网络(GNN)是基于深度学习的图数据处理方法,因其卓越的性能而受到广泛关注。本书全面介绍了GNN的基本概念、具体模型和实际应用。书中首先概述数学基础和神经网络以及图神经网络的基本概念,接着介绍不同种类的GNN,包括卷积图神经网络、循环图神经网络、图注意力网络、图残差网络,以及几个通用框架。此外,本书还介绍了GNN在结构化场景、非结构化场景和其他场景中的应用。读完本书,你将对GNN的最新成果和发展方向有较为透彻的认识。
4. JavaScript深度学习
作者:蔡善清(Shanqing Cai), Stanley Bileschi,Eric D. Nielsen,François Chollet
译者:程泽
| 图书特色
本书教你使用TensorFlow.js构建强大的JavaScript深度学习应用程序。本书作者均是谷歌大脑团队的资深工程师,也是TensorFlow.js的核心开发人员。你将了解JavaScript与深度学习结合的独特优势,掌握客户端预测与分析、图像识别、监督学习、迁移学习、强化学习等核心概念,并动手在浏览器中实现计算机视觉和音频处理以及自然语言处理,构建并训练神经网络,利用客户端数据优化机器学习模型,开发基于浏览器的交互式游戏,同时为深度学习探索新的应用空间。你还可以获得深度学习模型构建过程中不同问题所涉及的策略和相关限制的实用知识,同时了解训练和部署这些模型的具体步骤以及重要的注意事项。
5. 独角兽项目:数字化转型时代的开发传奇
作者:Gene Kim
译者:张乐 , 孙振鹏 , 许峰
| 图书特色
一部令你豁然开朗的 IT 励志小说,沉浸式体验从困兽到独角兽的自我蜕变。
本书是运维名著《凤凰项目:一个IT运维的传奇故事》的姊妹篇,从软件开发人员的角度继续讲述无极限零部件公司的故事。玛克辛是开发主管兼架构师,因公司工资系统事故而被“流放”去做凤凰项目的文档工作。在这样一家刚刚度过百年华诞的老牌公司里,在电子商务已然风生水起的当下,玛克辛能否拯救那个已令数百名开发人员深陷其中的项目?作者在本书中提出“五大理念”,并相信有了这五个理念,企业就能打破壁垒、力排万难,在数字化洪流中力挽狂澜。
6. 数据驱动力:企业数据分析实战
作者:Carl Anderson
译者:张奎 , 郭鹏程 , 管晨
| 图书特色
面对大数据这一势不可挡的时代潮流,所有企业都需要思考如何在实际工作中挖掘数据,充分发挥数据分析师的才能,进而有效地利用数据完成商业决策。本书首先讲解数据本身,重点介绍如何选择正确的数据源,确保数据的质量和可靠性,然后讨论数据分析,组织需要获取拥有必备技术和工具并能洞察数据变化的人才。接下来几章介绍具体的分析工
本书通过丰富的案例展示如何打造完整的分析价值链:收集正确、可靠的数据,合理分析,获得见解,并将见解融入决策过程。
人生技能及科普作品
1. 写作的逻辑:从清晰表达到高效沟通
作者:仓岛保美
译者:甘菁菁 柳慕云
| 图书特色
逻辑性写作,不同于文学写作,它侧重信息表达的清晰性、有效性、正当性,是高效思考、沟通的有力工具。
本书是基于逻辑学、认知心理学的写作入门书。作者结合欧美大学开设的逻辑类写作课程,从人脑理解信息的“心智模型”出发,通俗讲述了“如何使用清晰、准确的语言进行表达”“怎样构建易读易懂、有说服力的文章结构”等内容,向读者传授了工作报告、技术报告、论文等逻辑类文章实用写作方法。
本书适合有写作需求的职场人士阅读,也可作为本科生、研究生撰写论文的参考资料。
2. 代数的历史:人类对未知量的不舍追踪(修订版)
作者:[美] 约翰·德比希尔
译者:张浩
| 图书特色
代数究竟为何物?它起源于何处?
谁是真正的“代数之父”?
字母符号是如何从无到有的?
代数如何达到了越来越高的抽象层次?
牛顿与莱布尼茨的“微积分之争”有无定论?
数学家在举世瞩目的成就背后,经历了怎样的磨难?
这是一部恢宏的数学史和人类思想史,一本阐明代数基本知识的“数学入门书”,一册数学家的趣味故事集。
本书向读者介绍了代数学自诞生以来的发展历程,内容涵盖代数学中的重要概念,如未知量、抽象概念、方程、向量空间、域论、代数几何,等等。作者以诙谐的笔触展现了代数几千年发展史中的重大事件和核心人物,并介绍了代数的基本知识,以代数这一重要而有趣的角度呈现数学思维的戏剧性进化历程,向读者展现了一种感知世界的全新方式。作者凭借历史学家的叙事能力,带领读者踏上一段令人称叹、充满挑战的数学之旅。本书适合对代数学及其历史感兴趣的读者阅读。
3. 图表会说话:Excel数据可视化之美
作者:Jorge Camões
译者:朱浩波
本书是写给办公白领的Excel数据可视化入门书,旨在帮助你理解数据可视化的一般规则。从办公室白领的实际需求出发,将可视化的基本原理和Excel的技巧和理念有机结合起来,教你如何在商业环境中,将有效的信息和复杂的思想通过简单的图表传递出去,用Excel制作出有影响力的数据可视化作品。本书在烦琐的理论和花哨的技巧之间寻求平衡,带你重新认识“图表”。打破以往按照图表形式划分图表的弊端,教你从任务划分图表,轻松解决顺序、组成、分布、趋势、关系、概况,异常等6类问题。摆脱美学天赋的束缚,从图表的功能性着手,让图表说话!
*请认真填写需求信息,我们会在24小时内与您取得联系。