如何构建“小数据”驱动的泛场景智能应用体系?

张真 百信银行首席技术架构师&AI Lab负责人

目前负责基于自然语言的动态银行研究与落地,关注AI技术与金融,办公,生活场景的深度融入;开源软件UAVStack创始人,面向智能运维提供解决方案,AIOps专家;曾任宜信高级架构师&研发总监,负责金融架构演进与优化,智能运维体系建设,DevOps工具链等。曾任IBM资深架构师,负责应用服务器,语音识别,语音合成,机器翻译,IVR等产品的设计与开发;多个国际技术专利贡献者。

摘要:互联网银行是智慧金融发展中的新物种,不同于传统银行业的网点触客,一方面它更聚焦互联网,通过各种线上/线下的场景融入触达客户;另一方面业务不但要适配“快”的响应,面对强监管,内控更要守住“稳”的基线,面临新的挑战。智能应用不但可以很好的融入场景,并通过各种终端触客,还能实现增效降本避险的效果,因此如何深度运用智能化技术是突破这些挑战的关键。但对于新兴企业,新兴业务形态数据往往是制约其智能化的主要制约,而且业务场景越多这种制约就越发明显。

本次议题分享了“一种小数据驱动泛场景智能应用”的思路,同时通过对其在架构,关键技术,实践案例的探索的深度解读,来阐述其如何构建与落地。

机遇与挑战

百信银行是由中信银行和百度联合打造的创新型互联网银行,它完全构建在云上,即基于分布式架构,是一家AI驱动的数字普惠银行。以领先的数字科技能力,构建起以普惠金融和金融科技为核心的全新产品体系。技术人员占比超过60%。

传统金融是相对比较独立、隔离的。金融未来的趋势会慢慢的无感化。随着智能化的发展,包括5G、AI等新兴技术,我们看到以语音为代表的多模态交互方式,会成为一个新的入口。语音可能会是金融服务非常重要的客户触点。

百信银行作为AI驱动的数字普惠银行,通过开放银行模式连接场景生态,通过金融产品创新及科技能力,与合作伙伴共建场景化金融服务,解决流量导入、运营及变现等问题。自2017年成立至今,百信银行用户规模超过两千万,保持着较高的增速。

银行业数字化发展面临着严峻挑战,金融业务纷繁复杂,制度流程需要合规。我们聚焦在互联网,当互联网的流量过来后,客户的增长速度和业务迭代是非常快的,这就需要我们在快和稳之间找到平衡点。

我们希望把银行的金融能力,包括账户、资金、风控能力等,以智能应用的方式,融入到很多的场景(金融、生活、办公)里。我们会通过各种终端(智能音箱、电话、小程序、移动APP)触达客户,使用户更好的享受简单,可信赖的金融服务。

当然,如果想要构建这样一个场景,我们还会遇到很多困难和挑战,第一点可能是团队能力的制约;第二点是面向场景本身的高试配成本;第三点,在开发模式上,目前还不够敏捷;第四点,技术工具方面的制约。

泛场景智能应用体系

  构建泛场景智能应用面临的问题有:

团队能力制约

AI是一个非常复杂的领域,包含自然语音处理、机器学习、语音识别、语音合成、无人车等,这些本身对于人才的能力要求非常高。在落地过程中,除了人工智能技术外,必须要结合应用场景,运用行业知识,完成IT工程的交付,这就要做到三元合一。

面向场景适配成本高

我们有很多场景,比如2B端、2C端场景。每个场景都不一样,里面涉及的定制工具包括算法,会有很多,最终都是通过各种终端触达到客户。而场景越多,终端越多,那么适配次数就在不断累积,因此适配成本会成随它们的数量而直线上升。

开发模式制约敏捷

我们的经验表明,一个可用的智能应用的交付需要经过16个步骤,这需要非常专业的算法+工程的投入,而且交付周期都是以月计。

技术工具制约交付

在人工智能领域,耳熟能详的工具是机器学习平台。但我们需要注意,机器学习平台主要提供算法、算力和服务,它并不是面向最终客户交付。同时,它的使用者是算法工程师,这也使得只有局部专业人员才能使用。

我们思考的破局之道,是要构建一个“AI应用加速落地”的能力,可把这种能力叫做“AI应用加速器”,包含三个特征:第一,要把AI门槛降下来,不能让它成为少部分人的奢侈品,理想是“人人都是智能应用设计师”;第二,希望它能够更加面向客户交付,而不仅仅是提供模型服务,毕竟后台服务到客户还有很远距离,必须把整个生产链条加速,才有可能真正实现敏捷。第三,一次开发多终端发布,目标就是要消除高额的场景+终端的适配成本。

在模型交付方面,机器学习平台可以做数据的导入、验证、训练,服务部署,但并没有解决算法模型选型的问题,尽管Auto Machine Learning有了一定的发展,但这部分工作主要还是由有经验算法工程师来完成。此外,往往模型训练也是面向每个需求的,很可能是从零开始,这样导致模型交付周期比较长。

敏捷模型交付强调模型的“泛化能力”,通过面向业务领域的基础模型来训练面向每个需求的业务模型。一方面对业务模型的训练是“小数据增量”的,使得交付周期大大缩短;另一方面这种训练只需掌握什么样的数据能够达到目标业务效果即可,而不需要了解模型的算法细节,这就降低了AI应用门槛。

真正面向用户端的交付,往往是多个模型组合的结果,需要覆盖从感知、认知到执行的端到端流程,这样的过程是期望构建“乐高式”的开发模式。我们考虑把各种模型组合封装成AI应用能力,它是最小可编排的AI模块。有了AI应用能力之后,再结合小数据增量训练,就能生成业务模型。业务模型加上对应的业务逻辑,就组成了AI应用技能。再由这些AI应用技能组合成面向场景的智能应用。由于有了清晰的构建体系,使得每个部分的调整成本都会最小化,效率最大化,而且可以根据业务快速改变。

解决适配成本,本质上要实现三化:终端对接平台化,形成统一的协议,安全,通信的适配层;交互适配模板化,针对不同交互形式提供模板化的交互支持;智能适配透明化,根据不同终端的特性,自动转换输出介质,例如无屏智能音箱,需将图表转换成自然语言,H5端需将文本数据转换成网页。

打造AI应用创作平台

AI应用创作平台的定位是“AI应用加速器”,设计理念是用户通过对话/视觉与类脑系统进行交互,类脑系统生成决策,并通过API或数据驱动金融系统向用户交付服务。同时,金融系统将各种结构化和非结构化的数据通过“微智能”(自动发现-自我维护-自动适应)的方式反馈到类脑系统,类脑系统通过不断学习,从而不断提升面向用户的个性化服务水平。我们把这样的架构称作Interactable Brain-Like Architecture,即“可交互类脑架构”,简称IBA。

AI应用创作平台就是基于IBA的AI应用加速器,是一个完整的一站式的智能应用制造与发布平台。目前AI应用创作平台沉淀了九大AI应用能力,包括与生物特征和银行综合性账户业务相关的能力,包括H5人脸+活体一体化解决方案,智能核身;语音交互相关的能力,包括对话式任务、智能问答、智能报表、智能辅助分析;机器阅读相关的能力,包括语义提取,语义分类,文本比对。目前已逐步覆盖十一类面向B端和C端的应用场景。

基于AI应用创作平台,智能应用的敏捷交付得以实施。平台自身解决了AI应用能力的构建和AI工程化的问题。而业务侧由2个新的角色构成:智能应用训练师,他无需懂算法,只需使用业务数据完成训练即获得业务模型;智能应用开发工程师,无需了解如何与算法模型对接,甚至无需使用例如Java之类的高级编程语言,通过脚本开发即可完成业务逻辑开发。最终通过“乐高式”的AI应用技能组装交付给最终用户。

与机器学习平台不同,AI应用创作平台面向每个开发者,而不仅是算法工程师,它的交付物是完整的,面向客户的智能应用,实现端到端的提效。

  AI应用创作平台基于“AI应用加速器”的核心理念,打造四个核心技术:

  ● 强泛化能力的内置领域模型

  ● 小数据增量训练能力

  ● 一站式在线开发与发布

  ● 场景和终端自动化适配。

AI应用创作平台只需要3步即可完成,基本不需要懂算法甚至开发。

以网上银行业务为例,假如我们要做一个智能面签的场景,第一步,创建一个“AI App”即AI应用。第二步,创建一个智能面签的技能,但不需要关心诸如人脸识别,语音识别,语音合成,意图理解,OCR等复杂的模型,它们会被组装;这个技能可以被语音唤醒,而对这个唤醒的训练数据仅需10条就可以达到90%以上的高识别率;通过函数式计算脚本就能完成业务逻辑开发。第三步,只需点击几个按钮,就能轻松地将智能应用发布到各种终端,例如H5,手机App,智能音箱等,这个过程对开发者是完全透明的。

除网上银行业务外,目前AI应用创作平台已在很多领域交付智能应用。例如,在反欺诈领域,可以对百万级规模的交易风险进行智能判别,将事后判断提升为事中可阻断;在客诉领域,对全渠道客户输入进行智能投诉判别,同时对客服人员进行协同提示和预警,并对客户问题进行根因定位;业务人员可以通过语音交互的方式查看各种报表,智能分析可以帮助他们快速进行业务决策;在审计合规方面,智能审计通过机器阅读替代专家大幅提效,原来2小时的人工风险点提取,智能应用仅需5秒。

总结与展望

真正把整个智能应用快速地迭代和推动起来,还有很多工作要做。展望未来,有四个技术值得关注。第一,现如今多模态融合技术非常火热,大家看到的不仅是一个单纯意义上AI表现,而是语音、人脸,未来可能是一个综合性交互智能水平的体现。第二,小数据大任务技术的持续探索。金融领域有很多数据,但真正有意义的数据却是不均衡的,小数据训练必须要进入,否则会导致模型失真。第三,AI技能的智能编排,目前人工的方式在更加复杂的智能应用场景下将有很多局限性,智能编排可能更高效的适配业务需求。第四,通过微服务API智能调度,逐步消除人工编写API调用的工作,使得智能应用的构建更加高效。

最后,期望我们的经验能够对大家形成有益的参考,欢迎大家多多交流!

Image placeholder
2015caoyang
未设置
  21人点赞

没有讨论,发表一下自己的看法吧

推荐文章
从0到1,马蜂窝大交通团队如何构建高效研发流程体系?

“旅游之前,先上马蜂窝”已经成为许多人习惯性的选择。2019年5月,马蜂窝完成了新一轮融资,金额达2.5亿美元。这也标志着通过集内容、社区、交易为一体的消费决策场景构建,从攻略社区起家的马蜂窝开始迈入

面向DevOps的企业自动化运维体系如何构建?

随着软件交付速度的加快,过去那种研发、测试、部署和运维各自为政的模式,已经无法满足用户需求。越来越多的企业希望通过更高效、更敏捷的方式,快速交付和部署相关应用。所以,DevOps顺势而生!那么,什么是

“小应用”背后的“大改变” 爱奇艺赋能流媒体播放服务

热门视频里,“弹幕盖脸”几乎是必然事件,然而有一个地方看视频,你会发现密密麻麻的弹幕都绕开主角飘过,这个地方就是爱奇艺。对于大家观看视频时喜闻乐见的弹幕,爱奇艺提供了蒙版弹幕服务,可以让用户实现“弹幕

如何构建批流一体数据融合平台的一致性语义保证?

一、批流一体架构 批和流是数据融合的两种应用形态 下图来自Flink官网。传统的数据融合通常基于批模式。在批的模式下,我们会通过一些周期性运行的ETLJOB,将数据从关系型数据库、文件存储向下游的目标

微服务架构中如何构建一个数据报告服务?

场景描述在微服务架构中,每个微服务负责自己的数据库,微服务A是不允许直接连接微服务B的数据库进行操作的。现在有2个微服务,一个是订单服务,一个是用户服务。有一个数据报告的需求:生成一份包含用户信息的订

等保2.0全面实施 新华三支招如何构建新形势下的态势感知

近年来态势感知的热度非常高,不少安全厂商也纷纷推出了态势感知(平台)。在今年五月份,我国正式推出了等保2.0,并已于12月1日正式实施。在等保2.0的安全框架中也明确提出了要具备态势感知的能力,要

百度智能监控场景下的HBase实践

作者简介   张洋洋  百度高级研发工程师负责百度智能运维产品(Noah)的分布式时序数据库和通用配额管理平台的设计研发工作,在分布式存储和配额管理方向有广泛的实践经验。干货概览通过百度大规模时序数据

微服务?数据库?它们之间到底是啥关系?

过去几年来,“微服务架构”这个术语持续火热,它描述了一种将软件应用程序设计为可独立部署的服务套件的特定方式。尽管这种架构风格没有确切的定义,但围绕业务能力,自动化部署,网点智能以及语言和数据的分散控制

云数据库反脆弱性运维体系

摘要:本文主要分享如何构建反脆弱性的云数据库服务体系与实践,实现分布式云数据库服务的高可用方案,同时采取措施保护分布式云数据库整体服务,实现跨机房分布式自动切换方案,并在实践过程中,实施分享SQL自动

如何通过测试驱动开发构建 Laravel REST API

这是TDD和敏捷开发方法学的先驱之一 JamesGrenning的名言 如果您不进行测试驱动的开发,那么您将进行后期调试-JamesGrenning 今天我们将进行测试驱动的Laravel之旅。我们

avue和vue是什么关系?

Avue.js是基于现有的element-ui库进行的二次封装,简化一些繁琐的操作,核心理念为数据驱动视图,主要的组件库针对table表格和form表单场景,同时衍生出更多企业常用的组件,达到高复用,

滴滴大数据在汽车金融风控场景中的应用

桔妹导读:滴滴独有的出行场景大数据在金融领域有着非常广泛的应用前景,未来可与银行,保险,支付和理财等机构深入合作,帮助传统金融机构提升资源配置效率,降低获客和风险管理成本。出行场景大数据在交易欺诈识别

人社部大数据应用场景思考

文/涵诚人社部尹蔚民部长在2017年5月全国“互联网+人社”座谈会指出,要充分运用大数据手段,通过“互联网+人社”,实现决策科学、管理精准化、服务人本化,人社的统计数据对于服务决策、研究政策、支撑事业

微博广告策略工程架构体系演进

概述 1.广告样式与场景 上图是微博广告目前商业场景流,“一屏四大流”。“一屏”指打开微博的Fashion,“四大流”指占据微博商业化的主体,包括关系信息流、热门流、评论流和热搜流。右图为广告投放的

美团大规模微服务通信框架及治理体系OCTO核心组件开源

微服务通信框架及治理平台OCTO作为美团基础架构设施的重要组成部分,目前已广泛应用于公司技术线,稳定承载上万应用、日均支撑千亿级的调用。业务基于OCTO提供的标准化技术方案,能够轻松实现服务注册/发现

吕理伟:研发质量效率体系建设助力企业发展

导语:本文根据吕理伟老师在2019年10月31日【第十一届中国系统架构师大会(SACC)】现场演讲内容整理而成。  海风教育工程卓越中心原高级总监吕理伟嘉宾介绍:13+年工作经验,2006年重点大学计

【CSS全解01】CSS基础-体系化学CSS

大纲 基础部分学习占比:HTML1%`CSS19%Javascript80%`(`基础部分?%框架?%`项目?%) CSS历史 AcidTestforbrowser CSS是艺术(非逻辑,用测试经验来

如何访问已启动的react项目

如何访问已启动的react项目1、运行react项目都会开启一个终端窗口,只需要打开窗口,查看项目的运行地址即可。上面这个项目的地址是http://localhost:3000/,打开浏览器输入这个地

html5不常用标签应用场景

divpspanuldlollidtddstrongb现在都已经是9102年了,html5已经相当成熟标准了,为什么在布局的时候不用写html5提供的具有语义化的标签进行布局呢?我个人觉得是因为我们刚

全面了解 Nginx 主要应用场景

前言本文只针对Nginx在不加载第三方模块的情况能处理哪些事情,由于第三方模块太多所以也介绍不完,当然本文本身也可能介绍的不完整,毕竟只是我个人使用过和了解到过得。所以还请见谅,同时欢迎留言交流Ngi

在网络安全中应用人工智能的五大障碍

国外网络安全公司Cylance发布报告称,人工智能(AI)应用落地的两个最主要障碍是人工智能本身发展不成熟以及应用企业对技术储备的缺乏。人工智能可以有效地帮助网络安全专业人员应对更复杂更危险的威胁,但

Laravel-Binlog 扩展(用于实时监听 MySQL 数据变更、数据同步等场景)

Laravel-Binlogv0.2.1 (该扩展当前用于我司测试环境实时同步Mysql数据变更到ElasticSearch,稳定性待测试!!哈哈哈)我司正式环境走的阿里云DTS数据订阅 基于Sw

前端微服务在字节跳动的落地之路

不少前端团队都面临着独石应用的工程巨大、理解困难和合作混乱的种种问题,微前端或许是一种比较好的解决方案,它允许我们为应用加入新功能而不影响整体结构。但同时,我们可能会付出一些代价,例如重复依赖、团

多场景数据库如何选型?五位大咖这样说!

2019年5月9日,第十届中国数据库技术大会(DTCC2019)作为国内顶级的数据领域技术盛会,在第二天主会场上迎来了五位大咖,他们分别从开源数据库、数据仓库架构、数据库一体机、电商数据库架构、Ora

“数据+智能” 华为重新定义数据基础设施

互联网的发展,促成了网络订餐平台的崛起,数据的力量正在给传统的餐饮行业带来新的增长。业务场景不断丰富、数据规模越来越大,这对数据采集提出了非常高的要求;出行软件最核心的业务是一个实时在线服务,因此具有