特别鸣谢(按拼音排序)
报告摘要
湖仓一体强化全域数据管理效能
为解决数据类型丰富、数据体量倍增带来的存储问题,同时满足人工智能、机器学习在趋势预测、探索分析等方面的应用需求,同时配置数据仓库、数据湖成为企业的普遍选择。然而企业逐渐发现多架构的配置并不完美,解决既有问题的同时带来新的架构问题,如数据流通低效、数据冗余以及存储成本高。
湖仓一体能有效解决复杂架构问题。湖仓一体通过元数据层在数据湖上实现全局数据统一管理,支持流批一体简化系统架构,以及云原生、存算分离的特征成为数据架构新一代进化方向。
从管理到运营,DataOps释放数据中台价值
当前,数据中台的功能主要体现在为企业打通数据孤岛、建立指标体系、实现数据质量管理、资产管理等方面,重点解决企业“有数据可用”的问题。随着数据应用场景的丰富,数据应用的多元化,数据开发运维的压力骤增,数据不可信、数据应用交付缓慢等问题频发。解决“数据好用”的问题成为数据中台实现数据能力复用和共享的关键。
DataOps是一套以数据为中心的数据管理及运维开发方法论。融合DataOps方法论,数据中台将显著提升数据质量、实现数据应用持续敏捷交付、降低数据管理成本。DataOps实践尚不成熟,但已经成为数据中台进一步释放数据价值的关键路径。
高时效场景爆发,实时数据平台支撑热数据价值释放
物联网使得海量实时数据触手可及,进而推动以金融、工业行业为代表的实时数据应用的创新,如精准营销、风控管理、故障预警等。企业需要对数据架构进行升级,实现实时数据和离线数据融合,充分利用实时数据价值。
实时数据平台支持多源数据采集、提供高可用、低成本的数据同步方案,并通过流批一体的方式实现离线数据和实时数据统一存储和查询,提升企业实时场景开发和上线效率。
政策合规要求推动隐私计算平台快速渗透
以金融、政务、医疗为代表的行业需要通过数据跨机构协作及共享提升服务价值、控制风险、提升效益。然而数据跨机构的流通阻力极大,一方面,随着《数据安全法》及《个人信息保护法》的颁布,国家对数据流通监管加强;另一方面,数据资产等同于企业的命脉,使得企业对数据流通持十二分谨慎态度。
隐私计算能为企业实现数据跨机构的流通共享。隐私计算通过联邦学习、多方安全计算、可信执行环境以及同态加密等一种或多种技术组合,实现数据流通过程中的“可用不可见”,已经为越来越多的行业采用。
属于业务人员的数据分析时代来临
随着数据应用的深化,企业数据分析场景正在发生三个“转变”:1、平民化:数据分析平台的服务对象从传统财务人员及管理人员向一线业务人员转变;2、场景化:数据分析平台的应用场景也从财务及业绩呈现向具体业务分析转变;3、智能化:企业对数据分析平台的功能需求从传固定式的呈现形式向智能、个性、灵活自助的形式转变。这对数据分析平台的定位和功能提出了挑战。
数据分析平台也在与时俱进,可以看到,市场中已经快速出现多种应对方案。如部分技术厂商通过融合NLP、机器学习、低代码等技术使数据分析平台具备满足智能化、自助化的特点,使产品具备通用性;部分厂商在原本针对垂直业务场景的体系化产品中增加数据分析功能,为企业实现业务小闭环。企业可灵活根据自身业务需求选择相应数据分析平台产品及服务。
数据智能行业应用从监测、诊断性分析走向智能决策
传统的大数据和人工智能技术建模和分析只能识别现状和问题,企业若想进行业务决策仍需大量人工介入,严重依赖专家经验,影响决策速度,不能适应快速变化的市场环境。企业希望通过人工智能技术实现根因分析、数据关系挖掘和决策支持,从而提高决策速度。
智能决策技术持续迭代更新,融合大数据以及机器学习、深度学习、强化学习、运筹优化、知识图谱等人工智能技术,能够深度挖掘数据价值,构建数据知识网络,持续优化模型精准度,快速输出优质的决策方案,支持企业各部门实现高效决策。
目录
- 综述:多种因素推动,数据智能全链路升级
- 湖仓一体强化全域数据管理效能
- 从管理到运营,DataOps释放数据中台价值
- 实时数据平台支撑爆发中的高时效场景
- 政策合规要求推动隐私计算平台快速渗透
- 属于业务端的数据分析时代来临
- 数据智能行业应用从监测、诊断性分析走向智能决策
- 展望
- 综述:多种因素推动,数据智能全链路升级
数据智能是指以数据为生产要素,通过融合大规模数据处理、数据分析与挖掘、机器学习、可视化等多种大数据和人工智能技术,从数据中提炼、发掘具有揭示性和可操作性的信息,从而为企业提供数据驱动的分析与决策。
当前,数据智能已经成为企业实现数字化转型的核心方式。一方面,在实现初步数字化的基础上,企业希望把数据分析扩展到更多的应用场景,以在业务发展与运营中实现降本增效,或构建创新性的业务模式;另一方面,数据规模的持续膨胀,与分析场景的更加多样化,也对数据存储、处理和分析等方面的能力提出了更高的要求,因此企业需要对数据基础设施进行持续的升级与优化。
本次报告将数据智能市场划分为应用解决方案和数据基础设施两大部分,其中应用解决方案是指通过数据智能解决方案在垂直行业或通用职能领域直接赋能业务价值提升的最佳实践;数据基础设施指利用云计算、人工智能、隐私计算等新兴信息技术构建的为企业赋能的平台类解决方案,主要包括数据的采集、存储、计算、管理等内容,进而为上层应用提供数据服务。
图 1: 数据智能市场全景地图
随着数字化转型进入深水区,各行各业中的数据形态和应用端需求正在发生变化,传统的以结构化数据为主的管理和分析已经远远不能满足当前市场中企业对于数据的需求,对于多源异构数据的管理和更加智能化的数据应用是每一个企业在数字化时代必须构建的能力。
与此同时,政策对于数据安全和隐私安全的合规要求也越来越严,未来更加业务友好、更加智能化、更具性价比且满足合规要求的数据智能解决方案将成为数据智能市场发展的主流趋势。
图 2: 数据智能应用趋势
2. 湖仓一体强化全域数据管理效能
2.1 数据存储异构阻碍数据高效流通
随着数据类型的丰富、数据体量的快速扩张,以及企业希望利用人工智能、机器学习解决趋势预测、探索分析的需求增长,数据湖与数据仓库同时部署成为企业的普遍选择,同时也带来数据架构复杂、数据流通效率低的问题。
图 3: 数据仓库、数据湖共存带来的挑战
数据架构复杂:企业普遍有数据仓库、数据湖以及其他多种类型的专业数据仓库如时间序列、图形和图像数据库等,导致企业数据架构复杂,为技术人员运维带来巨大困难。
数据流通低效:数据仓库、数据湖两种数据架构在集群层面割裂导致数据不能自由流通。如机器学习中数据来源于数据仓库或数据湖,难以跨架构进行数据融合分析,增加了数据流通和计算开发成本。
数据冗余,存储成本高:数据仓库、数据湖的同时存在也会造成数据冗余,且随着数据量增长,存储成本将持续攀升,超大规模体量数据的计算性能也将持续下降。
企业寻求一种数据架构,可以兼具数据仓库成长性和数据湖灵活性的同时,提供一套共同的数据标准,提高数据流动灵活性,提升数据效能。针对此需求,湖仓一体应运而生,是继数据仓库、数据湖之后数据架构的最新解决方案。
2.2 湖仓一体引领数据架构迭代更新
图 4: 湖仓一体架构示意图
湖仓一体在技术架构、功能和性能层面主要具备以下主要特征:
通过元数据层在数据湖上实现数据管理功能。智能湖仓使用标准文件格式(如Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如ACID事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。同时,通过对缓存、辅助数据结构(如索引、统计信息)和数据布局进行优化,智能湖仓也具备了良好的SQL性能。
流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过CDC(Change Data Capture)将业务系统数据实时抽取到数据湖,实时加工后传输至OLAP系统中对外服务,实现端到端过程的分钟级时延。与此同时,系统架构得到简化,大幅降低了系统维护以及数据开发工作的难度。
云原生、存算分离。基于云原生架构,智能湖仓存储和计算资源得到有效分离,企业可以基于需求灵活地对存储和计算资源进行分别扩展,且扩展需求几乎没有限制,从而实现对大规模数据查询与分析的高性能,并显著降低TCO(Total Cost of Ownership)。
案例1:某跨国零售集团建设统一数据底座,全面提升数据管理运营效率
某海外跨国综合零售及服务集团为世界500强企业,主营商业零售、地产、金融、健康、游戏娱乐5大主要业态,旗下包含数百家成员公司,在日本、中国、东南亚等地区具有广泛影响力。
旧架构难服务新零售,数据开发管理应用全流程能力需提升
近年来,“新零售”的崛起为零售行业持续带来巨大变革,该零售集团也希望借助其商超和供应链优势开辟线上——线下到家业务,并通过逐步构建完善的线上零售体系,实现传统零售业务的全面转型。
经过多年数字化建设,该集团陆续在本地和云上建成多个数据仓库,并面向整个集团建立了统一的CDP平台,沉淀了丰富的数据资源。然而线上业务的开展引发了数据量激增,底层数据架构混乱、端到端数据运营分析能力落后的问题暴露无疑。具体而言:
- 烟囱式建设,数据资产不统一。该集团数据存、算基础设施均是以需求为导向进行阶段性单点建设而成,建立在离线、微软云、亚马逊云之上的结构化、非结构化数据存储及数据调度、实时计算工具等纵横交织,底层技术栈混乱,这直接导致了集团数据标准、数据口径不统一,数据开发格式和数据开发工具相互独立,难以形成统一数据资产。
- 业务稳定性、即时性不达标。该集团数据仓库层次结构不清晰,数据域、主题设计不合理,导致数据重复开发和计算问题严重,数据分析低效且耗费大量资源。在数据分析需求激增的情况下,原有云资源算力和存储都达到瓶颈,一项数据分析需求的响应往往需要2-3天,大大影响了任务稳定性和即时性,无法满足业务需求。
- 数据全流程运营管理方法不健全,服务能力差。该集团分别采购海外供应商抽取、集成、调度、监控、服务等数据开发管理工具,但这些工具之间彼此割裂,不仅导致数据全流程运营效率低,通过代码开发出的数据能力无法复用,影响对外开放赋能,同时导致数据分析师、数据科学家、业务人员、管理人员等不同角色之间无法有效协作。
该集团经内部评估规划,决定面向整个集团当下及未来5-10年数字化转型需要,统一数据存、算基础设施,并通过全方位数据治理统一全域数据资产,健全数据开发、管理、运营全流程体系,从而支持智能化应用,统一开放赋能,并最终将整套成功经验推广复制到该集团的全球市场。
通过长时间细致地对众多国内外优秀厂商及其客户进行实地调研和技术验证,以及对各厂商产品的开放式体验,该集团发现,国外厂商工具能力较强,但不同数据开发管理工具彼此独立,无法形成有机串联,导致数据工具和数据治理体系“两张皮”,无法实现该集团构建统一数据资产管理运营体系的需求。而科杰科技在工具能力与国外厂商旗鼓相当的基础上,将数据资产管理运营全流程的方法论和最佳实践融入数据工具设计中,使客户能够使用科杰科技全套产品构建统一、可持续的企业级数据资产运营管理体系。因此该集团最终选择科杰科技作为合作伙伴。
北京科杰科技有限公司(简称“科杰科技”)是领先的数据能力构建商,核心技术团队拥有丰富的头部互联网企业大数据平台建设和运营经验,针对多业态、多场景的大型复杂组织的数据底座建设运营,沉淀出了一套成熟的实施方法论。现已服务能源、汽车、零售、制造等多个行业头部企业。
建设湖仓一体数据底座,统一数据存储和管理,支持对上开放赋能
该集团在科杰科技的帮助下,梳理现有数据能力,规划设计了满足未来5-10年的数据能力建设蓝图,以科杰云原生数据底座,统一纳管底层数据基础设施,建立数据标准规范和管理体系统一全域数据资产,并最终实现对组织统一开放赋能。
- 搭建湖仓一体数据底座,实现资源统一纳管。
该集团利用云原生湖仓一体数据底座良好的兼容适配性,实现跨云数据集成,统一集团主数据、元数据,同时支持多租户。云原生架构带来的资源弹性扩缩容能力使该集团能够便捷、灵活为二级单位进行资源调配,满足其个性化的资源使用需求,同时其良好的扩展性也能够支持集团未来数年的数字化发展。
- 统一全域数据资产,构建数据资产管理体系。
首先,该集团在科杰科技帮助下进行了数据治理工作,完整重构数据仓库体系,设计核心数据指标模型,制定数据标准,规范数据质量,构建起全域统一的数据资产。
其次,通过一系列工具平台落实数据资产管理框架、标准、制度和流程,形成数据资产管理体系。建立统一的数据开发管理平台,与统一系统认证系统集成,集离线、实时开发能力于一体,实现全域数据的接入、加工及任务维护和管理;创建数据资产目录,对数据指标、标签进行分类管理,形成数据地图和血缘关系图谱,面向业务构建商品、店铺、交易、利润、会员、营销等主题,方便数据查询调用。
- 开展数据资产服务化运营,实现统一开放赋能。
搭建数据服务平台,提供数据API、标签服务、实时服务、报表服务和大屏服务。如对于面向用户画像、个性化推荐等智能应用的特征指标,能够通过指标平台,以及API发布数据服务方式,直接提供给业务人员使用。同时,平台将数据管理体系进一步贯穿组织架构和业务主题,面向不同角色和不同业务场景,进行数据能力的整合,支撑团队协同开发,实现数据资产的共享交换。
融入DataOps理念,通过平台多个数据开发管理工具的有机串联,实现数据开发运维一体化。数据科学平台支持托拉拽的方式编排算法组件,辅以对数据应用模型算法构建方式和流程的指导,大大缩短数据分析模型开发上线的速度,同时支持复用,算法和业务过程快速交互形成闭环,优化结果能快速传递到业务端,实现数据反哺业务。
图 5: 湖仓一体数据智能平台
打造统一开放的数据协作体系,持续稳定赋能业务发展和创新
通过集团统一大数据底座建设,该零售集团全方位完善了从底层基础设施到上层数据应用能力,具体而言:
- 资源统一纳管,高效稳定支撑上层业务开展。通过基础设施统一纳管和灵活的资源调度,减少系统风险,提升上层业务稳定性,同时降低了总体拥有成本。
- 统一数据资产体系,为企业数据资产持续开放共享打好基础:打通消费者在WEB、APP、小程序、门店系统的数据,以及各业务系统会员、门店、电商、供应链、财务等全域数据,进行全链路数据血缘关系数据资产沉淀,并形成公司内统一的数据门户,提升企业数据资产的使用效率。
- 数据资产服务化运营,实现组织规模化数据协作。数据研发人员通过数据中台实现大规模项目跨团队协同开发的能力,极大地提高了研发人员工作效率;业务和运营人员在平台内实现数据需求在线提报并自动流转,并通过高度可视化的功能实现业务数据自助分析和分发,极大地提升了数据在企业内流转和使用的效率,完成由传统的被动数据研发模式到基于统一数据资产之上进行高度复用的开发模式升级转变。
3. 从管理到运营,DataOps释放数据中台价值
数据中台的意义在于连接数据底层与数据应用,提供一个企业级的数据能力共享和复用的平台。近来大火的DataOps方法论,其目标是提高数据分析质量、实现数据应用敏捷开发,DataOps将成为提升数据中台能力的重要途径。
3.1 数据应用多元化导致数据应用开发效率低
随着企业风险控制、精准营销等数据应用场景越来越丰富,背后需要关联分析、归因分析、预测分析多元化数据分析能力支撑。这意味着企业从依靠BI报表,被动式分析、集中式展现为主的传统数据分析阶段,正在进入去中心化、主动分析、智能分析为特征的数据分析新阶段。数据应用的多元化同样带来数据质量、数据应用交付以及数据用户协同等方面的挑战和困难。
数据质量难保证
业务影响:数据来源的业务系统不规范更新表结构;数据口径不一致;数据填报不规范等
技术影响:ETL过程中字段变更导致数据加工出错;系统服务异常导致调度任务执行失败;数据存储架构调整如上云引发数据源的超预期改变;
数据用户类型复杂,数据应用交付缓慢
企业中的数据用户类型复杂,如IT部门的系统工程师和数据库管理员,BI团队中的数据工程师、数据管理员和报表开发人员,以及数据分析师、数据科学家以及业务部门的数据消费者等,协调所有数据用户及各自的工具耗费大量人力物力。这也导致原本从业务提出数据需求,实现数据建模、数据开发到数据应用的线性流程协作变得更加困难,交付周期长,效率低下。
数据应用问题可能出现在数据采集、存储、计算、融合、建模、开发、运维等多个环节。为满足多元化的数据应用需求,企业需要以数据为主角,统筹数据全链路,协调数据相关多角色,以持续快速交付为目标打通数据流。
3.2 DataOps方法论实现数据应用高质量、持续交付
DataOps是人、流程和技术的高效组合,用来管理代码,工具,基础架构和数据本身,从而实现数据领域应用的敏捷开发和持续集成应用,优化和改进数据管理者(生产者)和数据消费者的协作,持续交付数据流生产线。DataOps能力构建包含数据工程、数据融合、数据安全和隐私、数据质量四个方面。而一个成熟的DataOps体系应具有持续性、敏捷性、全面性、可信性、自动性等五个特征。
图 6: DataOps能力构建
图 7: 成熟的DataOps特征
目前,DataOps实践尚不成熟,如何将DataOps方法论融入数据中台、充分发挥效能,仍待持续探索。
案例2:九州通建设数据中台打通数据壁垒、挖潜数据价值
九州通医药集团股份有限公司(以下简称“九州通”)为科技驱动型的全链医药产业综合服务商,立足于医药流通、物流服务及医疗健康等大健康行业,主营业务包括数字化医药分销与供应链服务、总代品牌推广服务、医药工业及贴牌业务、数字零售、智慧物流与供应链解决方案、医疗健康与技术增值服务六大方面。九州通连续多年位列中国医药商业企业第四位,领跑中国民营医药商业企业。
IT架构复杂、数据分散阻碍数据跨平台共享协作,数据价值难展现
早在2015年,九州通集团就开启了数字化转型之路。随着集团规模持续扩大,市场竞争愈加激烈,九州通迫切需要发挥数据价值支持经营分析、经营决策以及服务上下游客户。但在数据应用过程中,九州面临IT架构和数据层面的痛点。
数据孤岛严重。一方面,九州通集团业务线复杂,包含中西成药、中药、医疗器械、零售等多业态,各业态又分为集团、地市、区域三级结构。九州通以业务为主导,各业态、各层级分别依据各自需求建设数据平台,造成数据平台架构各异,数据共享协作效率慢。另一方面,同一公司内不同业务单元也会引入不同业务系统,系统之间难打通,造成数据分散。因此,九州通虽储存有海量数据,但数据难流动难使用,数据价值难实现。
数据标准体系不完善,数据质量差。目前九州通未对数据进行分层管理、未建立完善的指标体系且缺乏药品标签;同时数据存在不及时、不准确、不完整、关联性差等质量问题,造成数据难使用,不能有效支持经营分析应用。
数据模型复用度低,不足以支持业务应用需求。目前九州通单个数据平台内的数据模型仅支持对应系统应用,复用度低,导致应用重复开发,浪费资源。同时数据应用在下钻深度、关联广度、数据呈现丰富度等方面都不足以支持经营分析需要,数据模型有待完善。
建设数据中台,盘活数据资产,数字化提质增效
数字化转型大背景下,九州通迫切需要盘活数据资产、发掘数据价值,推动降本增效、营销创新。九州通曾先后尝试自建Oracle数仓以及Hadoop数仓来统一储存集团数据,虽然投入大量资源,但效果有限。为打通集团各业态各层级数据平台,为业务赋能,九州通决定通过招标建设集团数据中台。通过综合考虑技术集成能力、数据开发工具便捷性以及厂商最佳实践经验等因素,最终九州通决定与网易数帆合作。
网易数帆是网易集团旗下To B数字化转型技术与服务提供商,为客户提供国产软件基础平台产品及相应技术服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能算法应用、低代码应用开发平台四大领域,致力于帮助客户搭建无绑定、高兼容、自主可控的创新基础平台架构,快速应对新一代信息技术下实现数字化转型的需求。目前已服务金融、零售、制造、能源、通信等各领域头部客户三百余家。
在网易数帆协助下,九州通历时8个月完成了数据中台规划以及数据中台初始化部署,包含建设数据仓库、实现数据开发及运维以及数据治理。
图 8: 九州通数据中台架构示意图
1)建设统一的数据仓库平台,打通集团跨平台数据,提升数据利用率
建立数据仓库及分层模型:数据仓库分为数据运营层(ODS)、明细数据层(DWD)、汇总数据层(DWS)、应用层(ADS)共四层。将不同类型数据根据数据模型需要进行分层存放,避免不同业务部门因对数据利用方式不同,而需要对模型进行重复开发,提升数据利用率。
数据汇集:借助网易数帆丰富的Hadoop大数据平台组件,九州通将多种架构数据平台的数据集成到数仓平台的数据运营层(ODS),并对数据进行清洗、汇聚、加工和计算。
数据建模:在网易数帆的咨询规划协助下,九州通在不同数仓层建模,其中在明细数据层(DWD)拉通商品、客户、人员、供应商、岗位及组织架构维度数据,搭建主数据公共域模型;在汇总数据层(DWS)建立采购、销售、供应链、营销、财务等主题模型;在应用层(ADS)建立各业务报表需要的业务数据模型。
2)实现数据便捷开发和运维,提升工作效率
利用网易数帆提供的一套便捷可视化数据开发工具,九州通数据研发团队可快速实现离线开发、实时开发、权限管理、资源管理等功能。通过数据运维平台实现任务的监控和报警推送,预估任务实例的产出时间、展示实例对下游报表影响范围,实现任务高效运维。
3)对多源数据进行统一治理,降低工作量和资源成本
九州通建设数仓平台汇聚各业态各层级的多源数据,包括不限于各中西成药、中药、医疗器械、零售等业态版块中,集团、区域以及子公司各级的采购、库存、人力、营销等系统数据。之后通过数据治理平台对多源数据进行统一治理,包括建设数据地图使业务人员能在海量数据中快速找到所需数据,通过数据血缘关系展示表的上下游表动态追溯、表的下游任务等;搭建数据指标体系实现跨部门指标定义统一和指标定义管理;建立数据质量管理体系,业务人员可预设多场景下的质量监控规则,并设置邮箱、电话等多种告知形式;建立数据资产管理体系,评估数据资产的成本、价值、质量,优化存储成本,节约计算资源,实现精细化的数据生命周期管理等。
数据中台赋能业务应用,经营效率再提升
通过数据中台,九州通实现集团复杂组织架构下跨业态、跨层级、跨系统的数据打通,成功消除数据孤岛;并通过统一的数据架构、模型开发、数据治理等功能盘活数据资产,建立通畅、标准化的数据链路,持续为前台业务应用和分析提供数据服务,推动营销创新、提升经营效率。
消除数据孤岛,实现数据共享共通。九州通通过数据中台对旗下各业态各层级数据进行汇聚,由数据中台提供统一数据出口,实现全集团跨平台数据分享调用。
搭建统一的数据指标体系,实现数据科学管理和快速响应。本次项目共建设8个主题域,落地213个业务指标,全部指标统一口径、统一管理,能有效避免因指标定义模糊和逻辑混乱而导致的数据质量问题,大大减少无效、重复工作,同时能快速提高数据响应速度,如采购分析体系中,所有采购分析数据需求,均实现秒级响应,平均5秒出结果。
健全客户标签体系,支撑精准客户洞察。本次项目开发客户标签共计6大分类,共100+个标签,覆盖基本信息、行为属性、交易属性、企业信用及风险信息等,组成标签工厂,对数据进行更精细的分类管理,支撑精准营销决策和风险控制。
利用数据中台灵活快速开发业务应用,实现降本增效。如通过数据中台开发供应商画像,综合资金周转、供货预期、付款周期、销售情况等信息,为供应商付款审批提供数据支撑;针对业务员开发业务员画像,跟进业务员成单率、拜访计划、拜访效果等实现精准考核等;针对药店拜访开发药店画像,提高业务员拜访成功率等。
深挖数据价值,从数据支撑到数据赋能。相较于传统数仓,大数据平台提供了更强的算力支撑,在通过中台整合了各系统数据资源,利用项目完成数据的集中化标准治理的基础上,九州通深挖数据价值,尝试通过AI算法模型在业务前侧,包括采购体系、销售体系、获客体系等方面实现数智化。例如:零售门店的销售预测、活动商品的精准营销、采购智能AI补货、中药生产供应链优化等。
厂商数据集成和咨询能力是传统企业搭建数据中台关键
回顾本项目实施全过程,厂商的选型对九州通数据中台建设以及成功应用具有关键影响。对于有同类数据中台建设的企业,在选择数据中台厂商时可借鉴以下两点经验。
针对具有复杂组织架构的传统企业,应选择具有深厚底层数仓开发以及数据集成能力的厂商。对于复杂架构的集团型企业,在数字化进程中,各子公司及各业务常根据业务需要分别建设数仓,造成数仓架构不统一。因此厂商需要具备扎实的组件开发以及数据集成能力,以灵活适配多种数据库环境,实现多源数据高效、稳定集成。
针对技术团队开发能力较弱的传统企业,应选择具有咨询能力的厂商。尤其对于虽有技术团队,但尚未成功建立数仓平台,且数据应用意识较弱的企业,应选择具有咨询能力的厂商,在厂商协助下开展梳理业务、制定指标体系、搭建数据模型、管理数据权限、开发数据应用等活动,快速建立起数据中台,并最终通过厂商知识转移,快速提升企业数据中台使用能力和数据建模能力,挖潜数据价值。
案例3:某高速行业信息化公司建设数据中台,打造高效智慧高速系统
十四五以来,随着我国开启全面建设社会主义现代化新征程、转向高质量发展阶段,公路交通也进入高质量发展新阶段,发展重心由原来的交通运输网络建设转向交通运输供给有效性和适配性、以及出行服务品质等。发展数字交通,尤其以5G、物联网、大数据、云计算、人工智能技术为代表的新基建与交通运输深度融合,成为深化交通供给侧改革、提升运输服务效能、促进综合交通高质量发展的重要推动力。
高速行业数据缺乏融通和应用,相关高速单位提升运营效率存在困难
近年来,随着信息化的发展,高速领域的相关单位已具备多个信息化系统,如视频监控系统、交通流管控系统、收费站管控系统、应急指挥系统等,但由于信息系统相互独立,在高速运营中仍会面临以下数据问题:
数据孤岛:高速数据来源于导航系统、ETC、龙门架、路网卡口、摄像头、毫米波雷达、车载终端等形色各样的系统和终端设备,数据类型复杂,且分属于高速公路建设、管理、养护以及运营等四个阶段,导致不同系统的数据无法互通互联形成数据孤岛。
数据质量不稳定:由于高速数据的采集来源于不同的感知设备,存在数据不稳定、数据空包、丢漏数据的现状。原有系统缺乏数据质量管理体系,导致采集的数据中存在大量缺失信息或无效数据。
缺乏数据标准:当前高速公路业务数据尚未形成国家或是行业标准规范,尤其不同地域、不同供应商产品的数据格式、模型、表结构千差万别,导致上级单位在进行数据收集汇总时需花费大量人力物力。
难以有效支持多元应用:高速领域包含多元的服务应用及对象,诸如视频监控、交通流管控、收费站管控、应急指挥、绿通查验等服务,现有数据系统存在数据难调用、难使用的问题,不能支持业务应用体验升级需求。
为了更好地赋能各地域的高速公司,提升各地高速交通的运营效率,某高速行业信息化公司基于高速行业的发展现状和系统基础,提出建设数据中台解决上述问题。通过多方考察,该公司综合考虑行业经验、产品功能、产品体验以及公司规模等因素,最终决定与国内专业的数据智能服务商每日互动股份有限公司(以下简称“每日互动”)合作建设数据中台。
每日互动成立于2010年,是专业的数据智能服务商,为企业客户及政府单位提供丰富的数据智能产品,便捷、稳定的技术服务与智能运营解决方案,服务行业涉及互联网运营、用户增长、品牌营销、金融风控等领域客户以及政府部门。同时,基于强大的数据积累能力和丰富的数据治理经验,每日互动构建了数据中台——“每日治数平台”,将数据挖掘、萃取和治理能力向各行各业输出,用数据智能帮助客户解决其实际业务中所遇到的痛点难题。
建设数据中台,实现智慧高速
每日互动在城市大脑、智慧交通、应急管理等公共服务领域具有丰富实践,积累了对人、车、道路、时间、空间等多要素数据进行关联计算和分析洞察的能力。依托于“每日治数平台”一站式数仓搭建、可视化数据资产管理、零代码模型构建、低代码机器学习等特色功能,每日互动和该高速行业信息化公司共同建设数据中台,包括构建数据标准、管理数据资产以及制定数据质量管理体系等,实现了数据资源的统一整合和数据治理,主要运用于支持高速公路的高效运营和高质服务。
图 9: 相关高速单位数据中台架构图
数据接入和集成:依托于每日互动的技术支持,某高速行业信息化公司可将相关高速单位的多个自有信息平台如高速管控平台、设备维修管理平台、隧道管控平台的异构数据,以及可靠第三方数据统一接入数据中台。
构建数据标准,建立统一的数据仓库模型:每日互动与该公司组织的多个业务专家一起深入高速业务一线,理清当前数据现状以及数据使用过程中的痛点,根据数据源不同,建立相应的业务主题库,构建起一套完整的数据标准体系,形成统一、整合的数据仓库模型。
数据资产管理和可视化:基于每日互动提供的数据勘探、数据血缘、元数据采集、建表/分区管理等工具,该公司可进一步帮助相关高速单位完善数据资产;并且对数据资产进行可视化呈现,如数据资产目录层级结构展示,相关单位可便捷地从不同视角检索和管理数据资产。
制定数据质量管理体系:基于数据标准,制定数据质量校验规则,实时对数据质量进行智能监测和预警;结合AI算法,定期对数据质量进行稽核,如系统根据数据缺失情形,参考历史数据进行补充或是对严重缺损数据进行剔除,保证高速数据可用、可信。此外,通过数据血缘功能可定期对数据流转过程进行追溯和梳理,实现数据全生命周期的智能管理。
数据应用:多源异构数据经数据中台清洗、融合治理后形成共享数据,通过API以服务目录的形式供各部门调用,消除应用部门对数据质量、数据来源的担忧,专注提升应用体验。
数据中台有效提升高速运行效率和服务品质
在本项目数据中台建设过程中,每日互动梳理建立起一套完善的高速数据标准体系,运用于高速行业多个场景的效率提升,相关单位的高速交通应急处置效率、运行效率和服务品质等多个方面均有显著提升,具体表现如下。
打通数据孤岛,实现数据高效高质共享:通过数据中台,某高速行业信息化公司将相关高速单位系统内多个渠道数据进行集成、清洗、融合治理,形成高质量数据,赋能各业务部门。
实时可视化,提升应急处置效率:依据每日互动数据中台的图像智能和可视化等功能,该公司实现了对高速交通全局态势的实时感知以及对局部路段路况的实时查询、分析,并通过大屏监控车祸、拥堵、抛锚等突发状况,能对突发状况实现快速定位和救援。该公司将此可视化功能应用到道路救援时,救援时间缩短了60%至80%,救援效率得到大幅提升。
数据融合,促进路网通畅:通过对ETC、服务区卡口、高速路网等数据融合,业务人员对停靠超时的车辆进行精准引导,缓解夜间服务区的大流量痛点,提高服务区的服务质量。
AI算法预判,提升通行效率:针对高速匝道等事故多发以及易拥堵路段,业务人员可基于每日互动数据中台AI算法进行提前预判和事前预警,为相关高速单位进行道路拥堵疏导提供科学依据和有效支撑,也为民众合理规划错峰出行路径提供引导,促进路网流量合理分布,提升高速通行效率。
数据中台厂商综合数据能力为数据中台建设、数据中台应用良好体验提供坚实保障
回顾数据中台建设前期、建设中期以及建设后期应用的全过程,数据中台能成功发挥效用、提升高速交通运营能力有两点关键因素。
1)选择优质厂商事半功倍:某高速行业信息化公司在进行数据中台厂商选型时,应考虑厂商在特定行业已积累丰富案例,形成完善数据治理方法论,其中行业不限于高速行业。该厂商应具备数据资产管理、数据分析、数据可视化、数据标签等数据治理专业能力以及丰富的数据治理输出经验,具备成熟的久经市场验证的数据产品引擎与提效工具,能将以往行业经验迁移到高速行业中,服务高速行业。在本项目中基于“每日治数平台”丰富的行业客户和相关政府单位解决数字化转型难题经验,每日互动已经沉淀出可复用的数据能力、业务能力、效率工具等,因此能快速为该公司建设数据中台,服务于高速公路建设、管理、养护、运营四个阶段。此外,厂商还应具有算法建模、机器学习、图像智能等综合数据能力,在实现数据整合、数据治理等基本功能基础上,能为数据在多元场景应用提供支持。在本项目中,每日互动的数据中台产品“每日治数平台”具备多元完善的AI算法、图像智能等技术,操作便捷、轻量、易上手,可实现路况实时查询分析并可视化呈现、对路况预判提升通行效率等功能,为客户的数智化创新赋能提效。
2)建设执行团队落地生花:除厂商选型外,为使数据中台真正落地、发挥最大效用,某高速行业信息化公司在明确数据中台规划、践行数据中台建设的过程中,还需搭建岗位配置齐全的团队,包括但不限于中台建设、中台运维、数据产品经理、数据资产管理、数据运营等岗位来支持中台建设及运维,实现跨组织协同,实现数据驱动。
4. 实时数据平台支撑爆发中的高时效场景
4.1 实时数据应用场景爆发
随着物联网和大数据技术的深入发展,企业通过物联网设备或线上系统可以收集到大量的实时数据。与此同时,实时数据的应用场景也被迅速挖掘,如精准营销、风控管理、工业制造等场景中,对实时数据的分析处理、应用将有效为企业避免损失、提升效益,企业对于实时数据从产生、收集、处理、存储到产出分析结果的全链路时延需求已经从过去的T+1天发展到到小时级、分钟级甚至秒级,实时数据平台也因此获得极大关注。
但是传统的数仓或数据平台难以支持海量实时数据处理和分析的需求,企业急需针对实时数据的收集、管理和分析技术以及基础设施进行优化升级,可以将实时数据端到端地管理起来,并将实时数据转化为能够帮助业务提升的工具,利用实时数据提升业务价值。
4.2 构建端到端的实时数据解决方案
要支撑实时数据应用的需求,需要一套从导入(采集和同步)、存储、处理到查询实时数据的端到端解决方案。
图 10: 端到端的实时数据解决方案
可以采集多种类型数据:实时数据来源众多,包括线上数据(订单、交易等)、IoT设备数据和日志数据等,实际业务场景中的实时数据类型也包括结构化数据、视频、音频、文本等,因此实时数据采集需要支持多源异构数据的处理需求,同时由于不同的业务场景中的数据协议不一致,实时数据平台还需要包含丰富的通信协议接口。
高可用、低成本的数据同步方案:实时数据同步过程主要是针对流式数据的处理,在可用性方面,数据同步解决方案需要保证企业级应用的场景下海量实时数据同步的完整性和高可用;在运维方面,数据同步解决方案要具备监控预警和自动运维等配置化的运维方案,降低开发和管理成本。
统一的数据存储和查询:由于一般实时数据平台多采用离线数仓和实时数仓同步运行的方式会导致开发成本翻倍、数据管理体系复杂等问题,使用以数据湖为基础的流批一体的方式来替代原有的离线数仓和实时数仓,可以解决传统架构中的存在的问题。通过流批一体的方式可以将流计算和批计算的存储都统一到数据湖中,使得数据血缘关系、数据质量管理、元数据都可以统一在相同的数据管理体系下,系统代码也可以统一进行开发和维护。在数据查询方面,因为同样采取分层架构和数据湖可以支持OLAP查询引擎,依然可以在不同的中间层支持OLAP的实时查询。
金融作为数字化程度最高的行业之一,其在实时数据平台方面的探索和需求相较于其他行业更为领先,金融机构由于传统的批处理数据量大,基础实施架构复杂且业务场景众多,在实时数据平台的建设方面最好基于原有的批处理基础上进行批处理的升级和流处理的新建,优先选取重点业务场景进行实时数据处理和分析的试点,获得成功经验再逐步推广到全机构中运行。
案例4: 某股份制银行搭建实时应用支撑平台,通过实时数据赋能业务价值提升
随着金融数字化时代的来临,金融业务正在发生深刻的变化。国内某股份制银行结合市场趋势变化和自身情况,将大数据技术作为企业数字化战略目标的基础。该银行目前处于业务发展的新阶段,资产规模持续扩大,经营实力不断增强,同时积极推进金融创新,而新业务模式的创新离不开数据的支持,也对核心数据能力提出了新要求。
传统的数据处理时效性和灵活性无法满足业务发展需求
在传统的批处理方式下,通过T+1的全量或增量数据更新和处理可以满足银行内各部门对于经营情况和内部管理等数据分析的需求,但是随着精准营销、风险监控和内控管理等场景对于数据时效性的要求越来越高,银行内现有的批量式、准实时式数据处理效率无法满足所有的业务场景,未来需要实现对交易、日志等流式数据的毫秒级实时采集、处理和计算能力。
数字经济时代下,银行需要收集和管理的数据量也将持续高速增长,现有的数据基础设施从性能和处理方式层面都难以满足PB级海量、混合数据的存储、整合、加工以及完成实时流式新增场景接入的要求,需针对现有的数据基础设施进行维护和升级。
在业务支撑方面,当前的数据交付方式复杂且低效,无法满足快速变化的业务需求,需要提升快速、自主、迭代式平台的交付能力。
该股份制银行综合考虑自身业务情况和当前技术能力,提出了搭建实时应用支撑平台来满足海量数据的实时处理和分析,对于实时应用支撑平台具体的需求如下:
1.流处理接入和批处理升级
实时应用支撑平台需完成实时流式新增场景接入,需要以现有的flink方式,进行实时数据感知和获取以及相关任务的下发;针对批处理任务场景,为配合完成实时需求,需针对配套的批量任务完成开发和改造,对于现有的批量任务要进行维护和升级。
2.系统组件优化升级
完成传统大数据服务平台应用支撑集群流式平台的系统升级和版本升级。应用支撑集群很多是自研和开源组件,新的实时应用支撑平台需要在现有基础上进行资源整合和优化升级,包括集成自动化测试功能、集成门户查询功能、优化ES存储索引等。
监控方案制定和实施。统筹建立实时应用支撑平台整体监控方案,并完成相关指标的制定以及开发优化,在现有的监控指标基础上完成系统、组件、应用、批、流全方位的监控系统升级,保障系统稳定运行和对外提供服务。
3.集群扩容升级
数据完整性保证。为保障数据完整性,配合实时应用支撑平台扩容计划,在承接更多实时场景的情况下,继续保障集群可以在实时数据消费的同时进行数据备份,并且在集群出现重大问题或流消费有问题时,可以保障数据不丢失。
数据安全保证。为配合平台中实时数仓的建立,丰富目前的实时、准实时数据接出模式,需要建立配套的安全权限管理模式,进行数据安全管控。
为满足上述需求,该股份制银行在实时应用支撑平台搭建中,综合技术能力、产品成熟度和过往经验等多种考虑因素,最终选择与九章云极DataCanvas展开合作。
九章云极DataCanvas成立于2013年,是一家数据智能基础软件供应商,专注于自动化数据科学平台的持续开发与建设,提供自动化机器学习分析和实时计算能力,为政府及企业智能化升级和转型提供全面配套服务。
通过开源产品搭建实时应用支撑平台,利用低代码环境提升数据开发效率
在项目中,该银行的IT团队与九章云极DataCanvas共同合作,对全行的实时业务场景做了全面梳理,作为构建实时应用支撑平台的基础。在落地层面,借助九章云极DataCanvas成熟的企业分布式流数据实时处理,分析和决策产品(以下简称“DataCanvas RT实时决策中心“),依托主流互联网大数据生态圈,引入开源社区软件框架,采取自主和合作研发相结合,完成某银行实时应用支撑平台的搭建和基础数据的准备,以此开展各业务应用工作。
图 11: 某股份制银行全行级实时应用支撑平台架构图
实时应用支撑平台通过对批量数据和实时数据的处理、计算、分析,尤其是通过机器学习模型对实时数据进行分析获取业务洞察,进而为下游的业务系统提供多样化的数据服务。在实时数据应用支撑集群中,九章云极运用DataCanvas RT实时决策中心为该银行提供实时指标引擎、模型引擎、数据资产管理、数据作业管理(算子作业、SQL作业、JAR作业)、数据服务、日志管理、多租户及租户资源、UDF管理功能等众多模块和功能。
图 12: 算子作业开发示意图
其中UDF的全称为User Definition Function,是DataCanvas RT实时决策中心作为一个平台级的产品基于Flink的框架下开发的低代码数据开发功能,结合预置的算子,让用户可以用可视化拖拽的方式把算子在画布中连接,组成数据开发任务。在实时应用支撑平台项目中,该银行IT人员利用UDF可以极大减少流式数据开发任务的难度,提升开发任务效率,使得实时场景的数据开发上线周期大大缩短。
本次实时应用支撑平台项目历经初建、扩容和推广三个阶段:
初建阶段:初建阶段主要是在该银行原有的批处理架构基础上,搭建以Hadoop为基础的系统架构,结合多种开源大数据组件搭建具备实时数据处理和实时交易感知的系统,并在部分试点场景中上线运行。
扩容阶段:扩容阶段在初建阶段的系统基础上融入DataCanvas RT实时决策中心,并扩容集群规模,在上线时即形成50台节点的系统集群,线上运行20多类业务场景,并在后续逐步扩容至100台节点的系统集群和80多个实时业务场景。
推广阶段:推广阶段基于前期的系统建设基础,遵照规范管理流程,接入更多业务场景,提供及时的数据服务,提升业务洞察能力。
实时应用支撑平台除了一般的技术和功能需求外,九章云极DataCanvas还针对该银行的特殊需求对于DataCanvas RT实时决策中心进行定制化开发,包括:
高可用流作业:在DataCanvas RT实时决策中心中添加高可用流作业功能,有效解决流作业重启情况下导致的数据延迟问题,以及双作业流场景中的基于第三方缓存Redis做的状态一致性保障UDF,本次项目中研发的高可用流作业功能也已经和九章云极一起申请专利。
多租户需求:通过逻辑隔离和在预置算子外开发UDF算子如Redis状态计算、去重算子、Hbase维表关联等算子的方式满足该银行实时风险管理系统租户、报表与信息服务平台系统租户、营销管理系统租户和标签管理系统租户的多租户需求。
实时应用支撑平台优化数据服务,提升业务洞察
该股份制银行通过九章云极DataCanvasRT实时决策中心搭建的实时应用支撑平台,在投产后已实现无间断运行近四年,并且可以有效应对海量数据处理和实时业务场景应用需求:
1.实现了海量实时数据的处理和分发。该银行在上线实时应用支撑平台后,每日实时报文采集量和准实时数据日采集量有了显著提升。类似于大额资金变动预警的实时场景中,实时数据经平台规则处理后可以在0.2秒内输出预警,目前日预警量达到千万条,实时动帐交易日预警量约百万条。
2.极大提高了实时场景开发和上线的效率。随着实时应用支撑平台项目的实施,平台上支撑的总体业务场景不断增加,平均每2周就能上线一个实时业务场景,截止2022年3月已经上线了80多个实时业务场景,总体的需求提出部门达到了15个,包括运营管理部、信用卡中心、信息科技部、网络金融部等,共涉及3种业务类型,包括营销类、监控类、监管类,平台在对用户需求的支持上得到了显著提升。
3.适用业务发展需要的流数据计算架构。实时应用支撑平台上线后,实现了十万级以上的TPS峰值报文配对处理量,每日全行总线报文采集量加足迹数据采集量达到20亿以上。并且随着业务不断发展,九章云极DataCanvas RT实时决策中心也对平台架构进行持续优化,例如最新版本的RT产品支持Flink SQL,可以有效提升实时数据的开发效率。
流批一体的数据处理能力和低代码环境可显著提升实时数据处理平台的落地效果
实时数据平台的数据处理能力和开发效率是决定其是否能够满足企业需求的核心要素,总结该股份制银行的实时应用支撑平台建设经验,其他银行在选择实时数据平台产品时应注意关注以下两点:
流批一体的数据处理能力。在选择实时数据平台产品时,能够承载企业的流批一体数据处理工作,具备方便的横向扩展能力,并且可以对产品架构持续优化改进,不断引入新的技术和功能,才可以保证该产品可以长期稳定的满足业务发展需求。
低代码开发环境提升开发效率。基于DataCanvas RT实时决策中心的低代码开发环境,由成熟的测试团队完成工作流的配置和测试。对于复杂业务场景则通过大数据开发工程师通过UDF算子开发的形式,完成部分数据处理难点的实现,后续将UDF算子交由测试团队,通过可拖拽的方式构建数据开发工作流。
5. 政策合规要求推动隐私计算平台快速渗透
5.1 政策合规驱动隐私计算长足发展
随着数字化进程的深化、数据应用场景的拓展,越来越多的企业及机构发现仅挖掘内部数据价值不足以应对快速变化的市场环境及用户需求,如金融机构需要借助其他机构数据完善风控模型、实现精准营销;政府单位需要打通多部门数据提高政府治理水平、提升公共服务效能;医院需联合多家医疗机构共同完成罕见病全基因组关联分析等。企业或机构需要通过数据共享协作提升运营效率、提升服务价值。
与此同时,对数据流通安全的担忧成为数据共享协作的阻碍。一方面,国家加强对数据分享及利用的监管,相继颁布《数据安全法》及《个人信息保护法》,严格限制数据的不安全流通;另一方面,数据已经成为企业立身之本,企业需要保护自身数据资产,保护数据隐私。
图 13: 隐私计算发展驱动因素
隐私计算能实现数据共享协作过程中的“可用不可见”,保护数据隐私安全、满足合规要求,被企业广泛采用。企业对隐私计算技术的需求主要体现在以下几方面。
功能完善,提供全面数据安全解决方案。不同业务场景下企业能接受的安全假设前提不同,如风控、营销场景下,企业能接受可信第三方,采用联邦学习实现隐私计算;而在医疗多中心合作模式下,医院会面临串谋攻击、环境攻击、模型攻击等内部攻击,需要融合多方安全计算、同态加密以及可信执行环境共同满足数据安全要求。厂商应具备完善的隐私计算保护功能,不限于联邦学习、多方安全计算、可信执行环境以及同态加密,满足不同场景下的安全要求。
满足业务高精度、高性能的计算需求。特殊场景如工业决策、人脸识别以及多中心全基因组分析等,对精度、性能的要求极高。企业应具有底层隐私计算底座开发优化能力,通过提高模型计算效率优化、通信效率优化、网络带宽优化等多种方式满足业务场景高精度、高性能要求。
提供丰富数据源。数据源也是企业实现数据协作过程中的一个主要痛点。数据质量将影响数据协作共享的价值产出,因此企业需要筛选、链接合适的数据源。企业希望厂商具有丰富的 数据源网络,了解各行业数据特点,能为企业提供数据链接建议并推动实现合作。
具备场景专业知识,提供建模及算法支持。金融、医疗等理论门槛较高,企业需要隐私计算厂商具备专业业务知识,能提供恰当的数据分析算法和模型,帮助企业实现产出。
5.2 隐私计算保护数据隐私,实现数据可用不可见
不同场景对隐私计算技术能力要求不同。如政务联合计算场景下,同态加密即可满足需求;金融风控场景下,需要具备联邦学习、同态加密以及多方安全计算;而特殊医疗场景如全基因组分析场景下,要求更严格,解决方案需同时具备联邦学习、多方安全计算、同态加密甚至可信执行环境等多种隐私计算技术。一个普适的隐私计算平台解决方案如下图所示。
图 14: 隐私计算平台架构图
案例5:某三甲医院借力隐私计算开展多中心基因组学分析,取得突破研究成果
某三甲医院是一所集医疗、教学、科研为一体的综合性三级甲等医院,脊柱脊髓伤病诊治、关节外伤修复重建、颅脑创伤救治、颅内肿瘤诊疗、器官移植、多发伤、多脏器功能衰竭救治等处于国内领先水平。其中脊柱外科是上海市医学领先专业重点学科,该三甲医院持续推进并引领脊髓型颈椎病研究。
多中心医疗合作面临数据安全、合规风险
全基因组关联分析(Genome-Wide Association Study, GWAS)指在全基因组水平上,以单核甘酸多态性(Single Nucleotide Polytide, SNP)作为分子遗传标记,进行对照或关联性分析,可筛选出与复杂性状相关的突变基因位点,对于疾病预防、诊疗和新药研发意义重大。该三甲医院持续关注强直性脊柱炎(简称“AS”)疾病的预防及治疗研究。由于该三甲医院的样本量不足以支撑一项全基因组关联分析研究,因此需要联合多家医院及院校共享AS患者基因信息进行研究,以开展更好的疾病防治工作。但在跨机构AS基因数据协作和共享过程中存在数据隐私安全隐患、数据合规以及计算难度大等问题:
数据合规趋严,医疗数据难流通
随着我国《数据安全法》及《个人信息保护法》的颁布,对数据安全监管进一步加强,医疗健康信息被列为敏感个人信息,医疗数据的不安全流动被严格限制,只有在采取严格保护措施下方可处理敏感个人信息。目前医院普遍通过数据脱敏隐去患者隐私,但在实际应用中,数据脱敏无明确规定,主观性高,且已被证明存在保护漏洞,被隐去的信息可能被重新推断出来导致患者身份或隐私泄露,无法达成现行法律所要求的“数据匿名化”。对医疗数据隐私泄露的担忧及数据共享合规性上的不足成为生物医疗数据跨机构分享的阻碍。
传统多中心合作仍存在患者隐私泄露或数据篡改风险
传统的多中心合作通常将多家机构数据汇集到第三方平台,由第三方平台集中进行数据处理或计算以实现跨中心协作。但随着参与方增多,数据泄露和被篡改的风险也随之升高,如医疗数据安全保护的责任归属难界定、各个参与方的医疗权限划分不明确,都有可能造成医疗数据共享过程中的泄露、侵犯患者个人隐私或是导致重大医疗事故。
数据体量庞大,数据传输、计算及分析难度大
基因数据具有高通量、高敏感度的特点,例如本案例中,单个个体的全基因组测序数据量接近300G,而全基因组分析需要几百甚至几千个样本量,庞大的数据体量为数据存储、传输、计算及分析带来挑战。
隐私计算方案推动多中心AS全基因组研究顺利开展
为规避隐私泄露风险,实现基因数据分享和联合分析,推动本次AS全基因组关联分析项目顺利开展,该三甲医院决定采购隐私计算解决方案。经过综合考虑产品功能、性能、安全以及团队医疗专业素质等因素,最终选择与锘崴科技进行合作。
锘崴科技成立于2019年, 是一家专业的隐私保护计算技术服务提供商,由“海外高层次青年人才”、隐私计算专家王爽教授,前硅谷知名科学家郑灏博士共同创立,具备深厚的隐私计算、生物医疗信息等领域的学术和实践经验,团队成员多来自IBM、Google、Thermo Fisher等世界五百强企业,业务场景覆盖医疗、金融、保险、政务、安防等。
该三甲医院隐私计算方案从确定需求、实现跨医院平台部署到完成全基因组关联分析获取研究成果,历时近3个月。
图 15: 某三甲医院及合作机构隐私计算部署示意图
明确AS全基因组关联分析多中心合作需求
为实现AS全基因组关联分析,该三甲医院及合作机构对锘崴科技主要提出三点需求:1)隐私计算解决方案能提供AS疾病全基因组关联分析管道所需的模型和工具,并支持灵活组合;2)针对跨机构提供的3000个样本、单个样本300G的数据体量,解决方案应实现计算性能等价于明文计算性能;3)该方案保证数据安全合规。
部署隐私计算一体机平台
锘崴科技的锘崴信®隐私保护计算一体机(以下简称:锘崴信®一体机)包含接口层、计算节点、加密层、协同层等,可实现接入医院数据、完成本地计算、对计算结果加密、将加密后的信息通信至全局模型进行迭代,重复计算流程使模型反复迭代至收敛。基于锘崴信®一体机,该三甲医院及合作机构只需完成安装、接通网络、接通数据、配置规则等步骤即可“开箱即用”,简化搭建应用隐私计算平台的难度。
其中针对数据接通环境,锘崴科技锘崴信®一体机提供丰富的数据接口,该三甲医院及合作机构可以以文件、数据库或者数据接口等形式将数据接入一体机,即可实现在安全可控的前提下与外部合作方进行数据价值交互。
各数据使用方设计并构建全基因组分析管道
为满足AS全基因组关联分析研究需求,锘崴科技开发出GWAS分布式计算技术框架iPRIVATES。该框架融合多种算法,包含可定制的基因组数据预处理模块,基于主成分分析的联邦人口分层模型、基于逻辑回归和对数似然比检验的关联分析模型等。该三甲医院及合作方可灵活地集成和配置不同的全基因组关联分析管道,方便识别SNPs与AS疾病特征之间的关联,获得统计学意义上显著相关的基因位点信息,为后期的实验室验证、确定AS早筛生物标志物提供支持。
实现隐私计算安全
依托iPRIVATES框架,该三甲医院实现与多个跨省合作机构的AS基因组数据链接和共享协作,并在多中心协作过程中,保障基因数据共享全链路隐私安全。一方面基于iPRIVATES框架中的安全联邦学习技术,该三甲医院和合作机构在本地终端节点对基因数据进行计算,仅共享交换经过加密后的中间统计值,不分享明文个体数据,保护数据隐私;另一方面,依托于iPRIVATES框架中可信执行环境技术,该三甲医院和合作机构能防御内部攻击、避免因计算过程被篡改,实现对模型本身的保护。
隐私计算推动多中心合作高效开展,并取得卓越研究成果
依托锘崴科技隐私保护计算技术,该三甲医院及合作机构在满足数据安全合规要求的前提下完成多中心AS疾病全基因组关联分析,取得重大研究成果,获得业内高度认可;并在缩短评审周期、提高统计意义、降低资源消耗等方面有良好表现。
研究成果获广泛认可:基于锘崴科技提供的iPRIVATES隐私计算框架,该三甲医院关于强直性脊柱炎的研究成果发表在生物信息学顶级期刊Briefing in Bioinformatics上,同时获得2019年度上海市科技进步奖一等奖,收到广泛赞誉。
计算结果的可靠性、准确度大幅提升:基于隐私计算解决方案,该三甲医院最终与多家机构达成多中心合作,样本量相较单中心模式提高3-5倍,统计意义也提高1个数量级,研究结果的准确性、普适性大幅提升,有利于AS疾病的预防和诊治工作。
计算效率显著提升,计算结果等价:iPRIVATES框架在算法时间上等价于数据物理集中的方式,且研究成果的特征靶点也与集中式计算结果一致,验证了隐私计算方法在解决生物医疗多中心数据协作方面的可行性和巨大潜力。
大幅缩短数据风险评审周期,降低多中心合作时间成本:传统模式下开展多中心研究前,需要各医院机构评审数据共享风险,评审周期可能长达一至两个季度。而隐私计算方案能实现在数据不出域的情况下完成多中心的合作,规避数据泄露风险,因此能大幅缩短医院多中心合作的评审周期,减少管理流程成本,加速联合研究。
降低资源消耗:传统多中心模式下,所有样本数据需汇总到该三甲医院再进行计算,对存储、算力条件要求极高,而基于联邦学习的多中心模式应用分布式计算框架,物理分散,逻辑集中,对参与方的计算资源损耗和计算条件要求下降。
隐私计算厂商选型决定多中心医疗合作成败
隐私计算方案在该三甲医院AS疾病研究中起到重要作用。回顾该三甲医院实施隐私计算解决方案全流程,隐私计算厂商选型对隐私计算解决方案的成功具有决定性作用,因此对于同样有多中心医疗研究需求的医院,在选择隐私计算厂商时,应注意以下三点厂商能力。
选择有完全自主知识产权,能兼顾性能、精度、安全等多方面实力的隐私计算厂商。由于医疗行业数据体量庞大、精度要求苛刻、数据安全风险高,要求隐私计算厂商除建模能力外,更要具备优化调整隐私计算底座并发性、准确性、算法复杂性等方面的自主开发能力。
选择有丰富医疗经验、具备专业医疗知识的厂商。医疗研究理论门槛高,因此要求隐私计算厂商具有医疗从业经验或是具备专业医疗知识,准确理解不同医疗业务中的数据分析理论,进而提供对应的医疗算法和模型,如在全基因组关联分析中能提供人口分层模型、关联分析模型。甚至更进一步,允许不同医疗机构根据业务能、精度和安全等多方面平衡的解决方案。
选择具有丰富医疗数据源的厂商。生物医疗数据的各项科学研究通常都需要大量样本,单一数据源的数据量很难满足一项研究所需的样本量,因此,能链接多方数据源,诸如医院、第三方检测公司、影像中心等,打通各医院、药企上下游数据网络,为医院聚合大量样本,将能为医院节省大量的资源和时间。
6. 属于业务端的数据分析时代来临
图 16: 数据分析平台趋势及解决方案演进示意图
6.1 数据分析需求向业务端演进
数据分析平台作为企业数据价值提炼和挖掘的最后一站,长期以来都是企业数字化建设的重中之重。然而,由于数据分析工作的专业性和复杂性,以及数据逻辑与业务逻辑之间的高度差异性,导致数据分析和业务之间存在较高的壁垒,这对企业的数据运营体系和数据文化提出了很高的要求。近年来,随着外部市场环境不确定性的增强,以及企业数据应用的不断深化,数据和业务之间的壁垒在很大程度上影响了企业数据价值的传递,具体而言:
业务人员渐成数据分析工具终端用户。外部环境不确定性增加,市场需求瞬息万变,业务侧对数据分析的需求也随之调整,逐渐脱离固定的分析逻辑和报表,向个性化、多样化转变,而传统数据分析产品在搭建之初就已形成固定的数据分析模型,数据人员需要通过复杂的定制化工作才能解决这些个性化分析需求,导致沟通成本高,等待周期长,数据分析结果滞后于业务动向,业务人员直接参与数据分析的需求不能及时满足。
从集团统一赋能走向场景化建设。数据分析平台往往是企业从全局出发进行建设,由企业数据中心满足所有部门的数据分析需要。随着企业数字化水平提高,各部门逐渐无法满足于来自集团数据中心的固定报表式数据应用,而是希望能够将其特有的业务逻辑与数据分析能力深度结合,形成丰富细致的数据分析场景,满足业务精细化运营的需要。
6.2 低门槛、场景化解决方案推动数据与业务深度融合
面对个性化、场景化的分析需求,企业需要通过更加智能化、敏捷化的数据分析解决方案,提升分析的灵活性,填补业务和数据间的壁垒,真正让数据分析能力下沉到一线业务人员和具体业务场景。
1)为业务人员和管理人员搭建新型智能化、自助化分析平台。以智能化、自助化为特点,面向业务人员的新型分析引擎搭载NLP to SQL、机器学习、低代码等技术,提供自然语言等新型交互方式,便捷地低代码、零代码数据分析模板搭建方式,从而简化数据准备、数据挖掘和建模以及数据结果分发全流程操作,为业务人员提供强大的数据分析能力。具体而言,系统能帮助用户轻松访问数据,并实现实时分析,满足业务实时分析需求;系统能帮助用户通过托拉拽操作,生成丰富的可视化图形,并支持指标和维度的切换,以及指标和数据的关联分析,让业务人员通过极为简单的操作实现灵活的数据分析,大大降低数据使用门槛。
案例6:精准高效数据分析实现业务与数据深度融合
某知名互联网教育公司是我国最具影响力的综合性教育集团,拥有素质教育、国际教育、成人及职业教育、教育服务与支持、在线电商等多个业务板块。
多重挑战,数据分析体系面临瓶颈
作为行业领先的教育集团,该公司较早开启了数字化探索,但由于缺少专门的数据管理及分析工具与科学的数据管理体系,在实际运行过程中存在诸多问题:
- 取数繁琐,数据管理难统一。由于企业内部多系统间未在数据层面打通,数据权限管理不清晰,各分公司频繁需要总部协助从多个系统导出数据并进行初步加工,集团侧数据响应工作量大,反馈慢,效率低。
- 分析效率受限,个性需求难满足。数据展示工具局限于Excel数据透视表,呈现形式单一,缺乏灵活性。因此,各地分公司在数据标准存在较大差异的情况下,很难满足各分公司对数据分析的个性化需求。
- 分发不及时,推送慢成本高。在分析结果推送方面,原先数据人员需将分析结果手动发送至指定的群聊或邮箱,耗费大量人工成本,无法在数据分析结果产出第一时间推送到相关负责人。
三措并举,建设高效、精准的数据分析体系
为解决上述问题,该公司决定面向整个集团搭建大数据分析与可视化平台,以实现精准、高效的数据分析。在充分考虑自身管理模式与产品适配性、产品易用性等维度后,最终选择观远数据作为合作伙伴,共建大数据分析与可视化平台。
观远数据作为一站式智能分析与服务提供商,依托在数据分析和商业智能领域多年实战经验,致力于为互联网、金融、零售、消费、高科技、制造等行业的领先企业提供一站式数据分析与智能决策产品及解决方案。截至目前,观远数据已深入服务联合利华、3M中国、招商银行、安踏、华润集团、扬子江药业、元气森林、小红书、蜜雪冰城等400+行业领先客户。
基于BI平台,双方携手搭建了集团——分公司数据分级管控体系,搭起数据分析管理和协作的完整“骨架”,并通过平台强大功能,实现全面自助式分析、自动化推送预警,充盈了数据分析的内容。
图 17: 观远数据分析应用界面
来源:观远数据
- 数据管理模式改革——中央厨房集中供给,分公司按需取用。首先将多系统数据统一录入集团数据仓库,再推送到观远BI平台数据中心,形成集团统一的基础数据层。随后,集团作为“中央厨房”,统一管理各学校数据访问权限,并依据权限管控机制将数据开放给各学校,无需人工干预;最后,集团将权限下放,由各个学校自主管理内部用户,学校通过观远ETL将数据进行规则梳理和加工后形成各自独有数据集,并基于自身数据集自助生成个性化看板。这种方式不仅保障了数据安全,提升取数效率,更提升了分公司和学校数据管理分析的灵活性。
- 数据分析能力提升——灵活开放的自助式分析。双方以业务价值链和场景为基础细化数据指标,搭建数据分析模型,并提供丰富的报表类型。
首先将客户全生命周期数据上线观远BI平台,对多个内部细化节点形成对应数据和指标支撑;其次面向自身业务场景与角色划分多个数据分析模块,在对应模块中进行该业务板块的专题分析;同时模块之间可以进行穿透和级联分析,实现对某一数据的精准追溯归因;最后,观远BI平台提供丰富报表图形,一目了然,便捷和精准定位问题环节。
此外,观远BI平台能够面向不同角色提供自助式分析体验。
面向数据分析人员,观远BI平台数据报表能够自动更新,数据人员可根据自身需要灵活搭建数据看板,同时便捷的数据关联和图表穿透功能大大提升了数据人员进行数据指标关联探索的主动性积极性。
面向管理者,观远BI平台为不同管理层级用户提供多维度数据同环比分析,直观的图表贴合管理者信息提取习惯;同时,针对该公司学校管理者较少在PC端办公的情况,观远数据提供移动端入口,使用者能够通过简单上下左右滑动方式查看数据及变化趋势,进行数据穿透,具备极高的灵活性。
- 分析报表秒级推送——智能化订阅和推送预警。首先,观远BI平台和该公司内部统一认证的系统打通,实现统一登录,精简前端操作链路。其次,针对业务数据每日高频刷新,而管理人员忙于日常办公不能及时查看数据的问题,平台支持自主订阅式推送,降低人力成本;最后,针对重要业务指标,观远BI平台提供预警功能,当某一指标突破阈值,消息能够分秒级自动推送到对应负责人的钉钉,从而能够对问题进行快速感知和响应。
图 18: 观远数据互联网行业数字化运营解决方案
双管齐下,数据分析平台落地推广
在与观远数据合作后,该公司为激活集团内部活用数据的习惯,成立BI推广小组,创造性地推出了集团与学校的三类合作模式,并面向整个集团举办BI挑战赛。
在BI平台建设初期,公司总部为进行针对性赋能,更好地协助各地分公司实现其个性化数据分析需求,成立BI推广小组,通过与各学校的深入交流了解其业务现状和数据分析能力,最终形成集团与学校数据合作从重到轻的三类模式:
图 19: 集团总部与学校数据合作三类模式示意图
BI推广小组成功将观远BI平台推广至公司各个城市,初步在集团内部形成以BI平台为依托的数据文化。
2.全面上线观远BI平台后,为进一步提升覆盖率,该公司举办了BI挑战赛,各校区根据自身数据需求指定参赛命题,以物质奖励吸引参赛,并各自选择本校区优秀选手在集团层进行比拼,通过评委的细致点评增强选手数据分析能力,同时沉淀优秀作品进行复用。
在集团总部的大力推广下,全集团人员在观远BI平台之上逐步挖掘出集团数据分析潜能,在内部形成了浓厚的数据文化。
一以贯之,BI平台赋能业务与数据深度融合
通过BI平台的全面铺开,该公司原有经营分析逻辑在观远BI平台完美兑现,业务与数据的融合程度逐渐加深,从而提升了整个集团开源节流、敏捷响应的能力。具体而言:
- 精准数据分析赋能精细化业务运营管控,实现开源节流。针对招生和成本两大重要问题,观远BI平台能够让该公司管理层对于企业关键数据指标进行精准分析和洞察,生源线索回访支持从原来的一月后回访精细到一周、两周、三周后,从而实现精细化业务管控,更有针对性进行扩新,降低运营成本。
- 高效数据分析与推送赋能业务敏态调整,快速实现业务转型。首先,观远BI平台提升了取数、分析、可视化和结果推送全流程效率,使业务侧从原来的事后响应转变为事中有效干预,大大提升了业务的敏捷性。其次,受“双减”影响,业务变革导致数据分析逻辑也要随之进行重大调整,观远BI的轻量化数据分析能力支持数据分析需求灵活变更,有效节约变革的时间、人力、资金成本,帮助上下快速适应并投入新业务的运转。
2)在不同业务场景选用嵌入数据分析能力的SaaS产品。
出于投入产出比的考虑,大量企业在财务、营销、HR、供应链等各个业务场景中使用垂直领域厂商的SaaS产品进行协作与管理,而这些产品往往在自身领域已经形成高度成熟和体系化的业务逻辑沉淀,而在产品中嵌入数据分析能力则能够帮助企业快速且具有针对性地实现垂直业务场景中的各类分析需求,在各个业务场景实现业务和数据的小闭环,提升精细化运营水平。
案例7:分贝通借助衡石科技数据分析 PaaS平台快速落地数据分析能力,实现产品价值进阶
北京分贝通科技有限公司(以下简称“分贝通”)成立于2016年,致力于为企业提供整合费控、场景、支付、报销于一体的新一代支出管理平台,通过企业支付+员工垫付报销,实现无死角覆盖全部企业费用支出,帮助企业费用管理更高效,更优化。目前已累计服务元气森林、海底捞、汤臣倍健等数千家高成长企业。
数据分析能力渐成客户刚需,自研、外采均难以满足
在业财融合的大趋势下,财务的工作重心正逐渐从基础财会过渡为数据统计、经营分析,企业财务人员及管理层对数据分析和报表的需求强烈。因此,对于分贝通而言,SaaS产品数据分析功能的完备性直接影响到新客拓展与老客续约。
在数据分析功能上线之前,为了解决客户对数据分析报表的需求,分贝通只能通过系统+人工处理的方式,由分贝通的专业顾问帮助客户做数据梳理,再以 PPT形式提供给客户。每份报表需要数个人天的工作量,每月数十份定制报表的需求不仅为分贝通带来了很大的负担,同时也只能服务部分KA客户,难以满足所有客户财务部门定期定量的数据分析、报表需求。
基于上述痛点,分贝通迫切需要在产品中增加数据分析能力,满足各类客户的业务人员和管理层对于数据分析的共性和个性化需求,同时提升公司内部对大客户定制化报表的服务效率。然而分贝通发现,无论是自研还是采购市场上主流BI产品,均不能完全满足当下需求。具体而言:
- 自研投入成本过高:分贝通产品需聚合20多个场景、API 直连 200家以上供应商,自研数据分析和报表功能需要投入数十位专业数据工程师持续研发6-12个月,且面临较高的研发失败风险;外采+自研的方案下,由于大多数BI厂商缺少产品功能模块化输出的能力,导致采购和维护费用高昂,且需要设置专门的报表团队,成本总计过百万元/年。
- 外采产品,个性化分析需求难满足:分贝通客户群体行业属性和体量差异大,对于个性化分析需求,市面主流BI产品普遍需要由专业数据分析师根据需求重新搭建分析模型才能实现,无法由业务人员进行自助分析,使用这类产品无法改变分贝通需花费大量人工成本为客户代劳的情况。
嵌入衡石科技数据分析 PaaS 平台,满足场景化数据分析和多租户管理需求
经过多方探寻,分贝通接触到衡石科技,经评估后认为,HENGSHI SENSE 数据分析 PaaS 平台在技术先进性和产品成熟度方面具有明显优势,能够与 SaaS 软件快速实现无缝对接,模板化沉淀分析场景,并一键发布给SaaS多租户,完美贴合分贝通的需求,随即与衡石科技展开合作。
衡石科技是一家数据分析和 BI 领域的标准化软件厂商,核心团队来自Amazon、BAT、秒针等顶级高科技公司大数据部门,以 Analytics as a Service 形态,灵活高效地生成高价值的数据应用场景,赋能各行业客户持续构建数据生产力。
衡石科技为分贝通提供HENGSHI SENSE 数据分析 PaaS 平台,以强大的数据全生命周期管理、分析和可视化能力,以及成熟的多租户功能,帮助分贝通轻松搭建起既能满足客户多样化大数据分析需求,又能实现平台多租户数据自动隔离的在线数据分析体系,全面提升客户企业财务数据分析的便捷性、有效性,同时确保数据安全性。
- 覆盖数据全生命周期,高效便捷满足客户多样化个性化数据分析需求
高效低门槛HQL语义建模:HENGSHI SENSE 按照 ELT + Embed 的新型分析范式,结合衡石科技独创的 HQL 语义层彻底实现存算分离,数据分析无需依赖数据仓库的数据处理性能,更加高效;统一数据定义及指标定义,大大降低数据分析门槛,真正实现将数据分析能力开放给业务人员使用。
零代码快速搭建业务分析场景:嵌入HENGSHI SENSE分析系统,具备低门槛,易上手的特点,能够5 分钟内拖拉拽完成自助式分析,帮助分贝通实现整个数据链路端到端的处理及搭建分析场景。
丰富场景化模板和自定义分析功能一站式满足分析需求:衡石科技将数据分析能力提供给分贝通,分贝通以多年积累的业财行业 know-how与服务标杆客户的需求洞察为基础,对客户所需分析维度进行整合,再配置到在线数据分析的产品模块中,从而沉淀出丰富实用的数据分析场景。对于分贝通客户可直接应用分贝通已搭建好的费用趋势预测、多维消费对比、行为数据分析等多种多样的分析场景模板,对于大型客户则提供自定义 Dashboard 满足更高阶的财务分析需求。
此外,衡石科技提供的数据分析功能支持多屏自适应,可以在手机端和 PC 端的快速上线分析场景。
图 20: 分贝通嵌入HENGSHI SENCE后的在线数据分析功能示意图
- 强大的多租户服务支持,适配SaaS产品数据安全与租户数据管控需求
在认证方式集成上,HENGSHI SENSE 内置了Oauth2、企业微信、钉钉、CAS、JWT 等多种认证方式,可实现快速对接,且对于不同的租户可支持不同的认证方式。
在租户数据管控上,HENGSHI SENSE 首先建立了灵活的数据权限管控能力,基于复杂组织架构,给不同的租户配置不同的用户属性值,并按账户进行最小粒度权限控制,实现千人千面的效果;其次,HENGSHI SENSE拥有完整的权限控制体系,可以采用租户管理员自由管控、租户属性控制租户数据库连接等多种管控方式,快速帮助分贝通实现租户数据的完全隔离,保障租户数据安全、准确。
图 21: 衡石科技HENGSHI SENSE产品架构示意图
分贝通依托HENGSHI SENSE强大的开箱即用能力,短时间内完成产品部署和交付,无需专门的实施团队。后续依靠分贝通的客户成功团队,在两周内完成了与分贝通20个2C大平台、150多个2B2代理、70多个终端供应商、自营直采 5000 多个 SKU的对接工作,相比传统BI,部署时间提升10倍以上,有力推动了产品功能快速上线使用。
低成本快速满足客户数据分析需求,带来新客转化与续约持续提升
分贝通上线HENGSHI SENSE,不仅大大节约了分贝通的自研成本和人工制表成本,同时大幅提升了分贝通的市场竞争力,用高效便捷的数据分析能力吸引大批客户,推动公司长远发展。
- 节约人工成本与研发成本
分贝通产品自此实现报表分钟级创建,实时更新,并通过配置按权限直接批量发布,使分贝通数据分析效率提升十倍以上,无需数据工程师帮助,节省初期研发费用数百万元。
- 快速迭代升级,提升产品竞争力
分贝通能够借助HENGSHI SENSE 架构的灵活性快速按照新的业务需求和想法迭代数据分析功能,2022年初上线在线数据分析功能后,分贝通在几乎无需依赖衡石科技的情况下,1个月建成费控行业专业分析场景,3个月实现专业的数据分析功能反超业内其他费控SaaS厂商,产品竞争力大大提升。
- 真实降本,大幅提升客户满意度
分贝通借助HENGSHI SENSE 满足财务在进行费用管理时90%以上的数据分析需求,通过数据分析辅助规则设定后,为分贝通每家客户平均节省20% 以上开支,直接优化了终端企业的费用支出。同时,分贝通数据分析模块可以直接生成业务回顾报告供财务人员高效汇报工作,将产品价值直接传递到客户企业核心管理层,大大加深客户对分贝通产品价值认同。
7. 数据智能行业应用从监测、诊断性分析走向智能决策
7.1 企业需求由识别现状和问题向实现智能决策转变
在数字化浪潮下,人们日常生产生活而成的数据与日俱增,数据逐步成为企业、政府部门开展业务的重要依据。企业纷纷进行数字化转型,在采集数据、存储数据、管理数据、计算数据层面已经建立了认知。
当下,企业面临精细化运营需求,多变的用户需求对企业决策效率提出更高的要求,复杂的应用场景增加了决策考虑难度。然而传统的大数据和人工智能技术建模和分析只能识别现状和问题,在根因分析、数据关系挖掘和决策支持方面作用有限,仍然需要大量人工介入才能给予业务反馈,不能满足企业决策速度要求。企业对于数据智能应用需求正在从数据采集监测、诊断性分析向决策支持转变。
企业、政府部门需要运用更先进的人工智能技术高效精准地搭建算法模型进行业务判断、识别以及预测,从广度和深度上充分挖掘数据价值,为企业和政府部门业务开展高效赋能。企业和政府部门对数据智能解决方案有以下几个层面的需求:
一是深度挖掘数据价值,提高数据利用率。广泛收集、存储、管理海量数据以后,在应用层面更需要对数据进行计算和分析,判断数据性质,分析数据特征,结合各行业领域知识积累深度挖掘数据价值,为企业和政府部门提供决策参考。
二是精准快速出具最优解决方案。决策场景遍布企业和政府部门业务环节,选择哪个排产方案最优?哪个出行方案最合理?哪个营销方案效果最好?面对每个具体场景,能够广泛采集相关领域的信息,快速组合形成多项解决路径,在场景的约束条件下出具优决策方案。
三是深入应用场景,形成行业领域知识沉淀和工作方法论。数据基础设施构建已经成为企业和政府部门数字化转型过程中的必经之路,但行业应用解决方案还要与行业知识深度融合,充分运用专家经验,形成行业领域知识沉淀和工作方法论,才能够在具体业务场景中充分地、长久地发挥数据价值。
7.2 灵活应用智能决策技术高效解决企业业务决策难题
现阶段,基于上述需求及痛点,运用机器学习、深度学习、强化学习、运筹优化、知识图谱等人工智能技术和大数据技术深度挖掘数据价值,识别判断数据性质,构建数据知识网络,综合多项信息建立训练模型,不断优化模型精准度,快速输出优质的决策方案,凭借更多样的呈现形式以支持各领域企业或部门实现高效决策。
图 22: 数据驱动的企业业务决策流程
7.2.1 运用安全大数据解决方案监测潜在威胁,保障数据安全
在数据安全方面,可将数据存储和分析模型不断扩展形成存储分析集群,对海量数据进行全量数据存储和实时查询、多维分析。通过训练AI分析模型对安全数据进行判断和分析,从海量数据中提取特征,完成风险判定,实时对已知和未知的安全威胁进行监控预警。
案例8:某大型金融组织运用多级联安全计算分析系统高效处理全流量安全数据
某国内大型金融组织处于我国银行产业的核心和枢纽地位,对我国银行产业发展发挥着基础性作用。截至2021年底,除总公司外,在全国范围内设有30+家地方分支机构,创投分支机构,以及境外国际分公司等。对于这样的金融枢纽企业而言,其管理与技术体系规模复杂且庞大。为应对场景日益复杂的银行清算业务以及不法分子层出不穷的钓鱼邮件、web攻击等风险,该金融组织组织在网络中构建了应对日益复杂多样的风险与威胁的安全防护措施,在提升安全性的同时,也使得安全数据处理难度大幅提升。
因此,在复杂网络环境和海量日志中,如何对千亿级数据进行全量数据存储和实时查询、多维分析,如何对已知和未知的安全威胁进行监控预警,能否匹配IT集中化、数据集中化、基础设施云化的发展趋势,以及能否支持多级级联部署、多分支机构安全管理等,是该大型金融对安全大数据解决方案的考察重点。
基于以上考虑,该大型金融组织需要能够采集、整合、治理、分析、监测大规模安全数据的多级级联部署的安全计算分析平台,通过可行性研究和对众多技术方案的遴选,最终选择了斗象科技作为合作伙伴。斗象科技成立于2014年,是中国领先的网络安全数据智能与安全运营提供商,为政府及企业提供安全数据智能与安全运营产品的解决方案。
该大型金融组织与斗象科技合作搭建的安全大数据项目需要实现以下目标:
图 23: 某大型金融组织安全大数据项目目标
1)大规模的网络流量采集:解决方案能够支持该金融组织大规模网络流量采集、检测与分析,适应未来5-10年集团网络发展规划;
2)高可用、可水平扩展的系统:在业务活动流量激增、异常等情况下,系统还具有高可用性、支持水平灵活扩展,能够满足处理性能提升和存储扩容的需求;
3)大数据溯源、取证:系统以大数据技术为基础,对网络报文进行高速捕获、深度解析与存储,支持异常事件的回溯分析以及调查取证;
4)支持多级级联部署、多分支机构安全管理:系统以数据分析为核心,驱动常态化攻防体系不断建设和完善,实现不同层级防御系统之间的协作与联防联控。
根据现有架构和外部经验,建设多级联安全计算分析平台
在安全大数据项目中,该大型金融组织的IT团队与斗象科技团队共同合作,对集团总部、分支机构安全业务进行了整体梳理,构建了以数据分析为核心的PRS“中心计算+区域节点”级联解决方案架构。
PRS“中心计算+区域节点”级联架构是由上海、北京的全网络流量安全分析系统控制台和部署在全国32个全网络流量安全分析系统引擎组成。
图 24: PRS“中心计算+区域节点”级联架构
斗象科技提供的解决方案中,上海、北京总部的PRS-NTA系统控制台可以实现整体级联方案的数据汇总、分析与管理,省级分公司可以向总部控制台同步各分区的威胁告警信息、配置信息等。两台高可用的管理控制台可以保证若其中一台出现故障,另一台也能正常管理流量安全分析引擎,并保持所有功能正常使用。
32个省级分公司的PRS-NTA安全分析引擎可以进行区域流量的协议解析、威胁检测及数据加工存储,包括引擎管理模块、流量侦测模块、数据存储模块、模型检测模块等。安全分析引擎将流量日志保存在本地,最终将风险信息通过互联专线上送到上海、北京的全网络流量安全分析系统控制台中,控制台可对所有引擎的所有风险信息统一管控。
斗象科技的PRS-NTA安全分析存储集群可以实现海量数据处理能力。在数据采集层利用DPDK进行数据包捕获,利用最小的资源捕获最全的数据包,进而通过消息传输层的Kafka集群将数据包传递给安全智能分析引擎的业务应用中,满足对网络流量数据的全面管理。再通过数据解析层将原始流量数据进行深度报文解析和基础安全识别,可进行特征分析、统计分析、智能安全分析、攻击画像分析、调查画布分析和异常行为分析,将分析数据用归一化格式存储在安全数据湖中。除了实时分析数据外,安全数据湖还可存储原始数据和系统数据,能够为所有级别的计算与决策制定提供所有类型数据集合的支撑。
该级联方案设计对控制台、引擎之间互联专线的带宽负载并不会造成压力,当控制台需要查询对应的风险数据详情时,可直接免密访问各区域引擎的流量日志,最大化保证安全风险集中管控的时效性。同时,控制台、引擎之间的数据都会以加密的方式传输,保证数据的安全性、可靠性、完整性。
安全计算分析平台满足稳定采集、全量存储、精准回溯、集中管控安全数据的多层次需求
该大型金融组织通过分支试点建设、全面落地安全计算分析平台,在安全数据检测与分析上实现了以下价值和效果:
第一,稳定的数据采集性能,具备全量数据存储、高速检索以及灵活的扩容能力。分析平台能够采集并实时处置60-80Gbps的数据,日均流量日志数达百亿条。分析平台可对数据进行冷、热分离处理,满足了集团PB级数据存储与秒级检索的需求。安全分析引擎系统可以支持横向无缝扩展,能够满足未来5-10年的安全建设扩容需求。
第二,能够进行安全事件回溯与调查取证。全流量安全计算分析平台可对协议上下文与协议内容进行调查取证,可以快速定位风险事件与协议事件的关系。同时,还可以触发告警事件,通过查看告警事件分析,可以追溯攻击事件发生的时间、IT资产、攻击类型等。
第三,能够实现级联部署和集中管控。落地的安全计算分析平台支持级联部署和集中管控,分公司可以通过互联专线将告警事件上送,在总控平台上查看告警信息。不仅如此,在总控平台上可以对原始数据选定区域后进行查询,能够连接到下层分析平台进行查询,实现安全数据的集中管控。
全流量安全计算分析平台有效降低人力参与成本、提高安全运营效能
1、借助AI赋能安全应用,降低人力参与成本。人工智能可以直接利用原始数据进行训练,从大量的数据中提取特征,自动完成分类判定的工作。在保障监测效果的同时,还能够对人工、非智能技术手段起部分替代作用,从而降低成本。
2、通过人机结合的方式,建立多维度的网络安全防御体系。该大型金融安全计算分析平台PRS能够在第一时间发现和识别威胁,其智能检测机制有助于简化流程、降低成本。同时,能够全面提高网络空间各类威胁的响应和应对速度,全面提高风险防范的预见性和准确性。
3、改善安全防御体系和提高安全运营效能。全流量安全计算分析平台PRS能够全面提高威胁攻击的识别、响应和应对速度,提升风险防范的预见性和准确性,极大地改善了企业安全防御体系,提高了安全运营效能。
7.2.2 融媒体技术为媒体领域高效采集、生产、分发和接收内容提供更优方案
融媒体平台是数据中台与媒体业务结合的产物,帮助企业融合多源异构数据,汇聚媒体企业历史数据资产、接受外部共享的数据信息、实现内部资源开放互通,构建媒体领域知识体系,为内容创新持续赋能。
案例9:新华社建立智慧中台,实现融媒体数据、业务、渠道高效统筹
新华社媒体融合生产技术与系统国家重点实验室(以下简称“新华社国家重点实验室”)是在中宣部指导下、科技部批准建设的媒体融合生产领域首个国家重点实验室。新华社国家重点实验室顺应了全程媒体、全息媒体、全员媒体、全效媒体发展趋势,重点围绕人工智能在新闻生产流程中的应用,面向跨媒体信息分析与推理、人机协同复杂问题分析、响应及评估等方向,开展媒体融合生产技术与系统应用基础理论研究。
在“加快推进媒体融合发展,建设国际一流新型全媒体机构”的背景下,新华社国家重点实验室的建设围绕以下三个问题展开:国际一流的新型群体机构需要怎样的技术体系?如何建设新一代技术体系?如何运用先进技术推动国际一流新型全媒体机构建设?根据上述明确要求,新华社从技术底层、技术应用、技术输出三个层面发力,进一步探索融媒体技术研发以及创新性融媒体技术应用,赋能自身媒体业务智能化转型的同时,助力全行业媒体融合的一体化发展。
传统媒体管理平台无法适应当下日益多元的媒资管理需求
传统媒体管理平台普遍存在数据孤岛、编目传统、生产效率低、审核困难、利用率低等痛点:
1)数据孤岛:传统媒体资产管理平台与平台间互相独立且封闭,无法满足媒体融合发展互融互通的需要;
2)编目传统:传统的编目方式成本高、体系复杂,时效性低,无法适应当下媒体的发展变化;
3)生产效率低:现有的内容生产工具效率低下、无法适应日益新增的海量素材和二次制作内容制作情况;
4)审核困难:新媒体多模态数据量快速提升,在引入和输出方面都对审核工作造成巨大压力,传统的审核手段效果差;
5)利用率低:传统媒体资产内容库含有大量数据,标签体系不一,检索维度少、准确度较低。
相对于传统媒体管理平台面对的诸多难题,新一轮科技革命兴起,5G、大数据、人工智能等应用到新闻领域,让传媒业实现了深度变革。作为国家通讯社,新华社亟需将5G、大数据、人工智能等先进科技,运用在新闻采集、生产、分发、接收、反馈全流程,解决融媒体信息资源管理难题,通过知识图谱、自然语言理解、多模态语义知识搜索与推荐等核心技术能力,搭建整合新华社内外数据资源、实现融媒体业务数据化的智慧中台,将数据资产、知识资产融合共享,通过中台实现对各类应用的数据赋能、AI赋能、运营赋能、决策赋能,由此推进媒体移动化、数字化、智能化进程,为提升传播力、引导力、影响力、公信力提供技术支撑。
“2服务6中台”助力新华社构建新型融媒体机构
为加快推进融合发展转型升级,新华社国家重点实验室青睐的合作厂商需要具备以下能力要素:
1)能够在媒体领域长期深耕,对融媒体机构如何建设新一代技术体系拥有独到见解;
2)能够充分理解新华社媒体业务,以国际一流新型全媒体机构建设提供个性化整套解决方案为出发点;
3)自主掌控核心技术,其技术研发能力行业领先。
通过对众多厂商方案的可行性研究和对比,新华社国家重点实验室最终选择了中科闻歌作为此次智慧中台项目的合作伙伴。
中科闻歌是中国科学院旗下企业,成立于2017年,是一家数据与决策智能服务商。中科闻歌团队深耕数据智能+人工智能+运筹科学领域十余年,研发团队吸纳了各领域高水平技术人才,经过了中科院“弘光专项”、 国家科技创新2030 “新一代人工智能”、北京冬奥会等数十个国家级重大项目的检验,融媒体领域丰富的研究实践经验和高层次的技术水平为中科闻歌的智慧中台解决方案提供了有力保障。
此次智慧中台项目由新华社和中科闻歌联合孵化,组建了研发团队、算法团队、CV团队、研究团队、用户团队以及产品团队,共同研究各类中台和扩展性应用的定位和目标市场,面向媒体行业输出一套智能全媒体信息创新思路,提供基于主流媒体算法相关的包含政策、资讯、运营等在内的定制化服务。
项目双方在方法论、标准体系、组织机制、运营体系、评价体系、技术平台和产品工具几方面持续研究,推动新型全媒体机构数字化转型能力提升的中台战略性工程,形成了“2服务6中台”建设模式:
图 25: “2服务6中台”整体建设内容
智慧中台解决方案统筹新华社全量媒体资源
此次新华社和中科闻歌搭建的智慧中台,基于中科闻歌自研”天湖“数据智算平台的数据处理能力,可以统筹超3亿条文字、图片、视频形式的内容以及100余种算法资源,中台存储超过2.5PB媒体数据,涵盖了60余个媒体场景,支撑了媒体融合生产、传播、运营、数字化报道工作室、算法大赛、多模态知识搜索、领域知识体系建设等创新应用,进一步实现了以下价值成果:
1)实现了新华社内资源开放互通:通过智慧中台充分调动了新华社各部门专业人才、内容生产、行业研究、领域调研、行业合作资源间的协同配合与高效复用;
2)搭建了各领域完善的知识体系:通过智慧中台研究推进了知识融合方法、标准、工具和机制,不断吸纳融合构建通用知识和领域知识,通过媒体大数据与多源异构数据的萃取、分析与知识处理算法与技术,沉淀了如人物知识、事件知识、核心报道知识、政策法规知识、内容安全知识等,作为数字化转型和数据业务化、业务数据化的基础,充分发挥数据要素化、数据资产化对创新生产方式、传播形式、产品形态、服务样态的作用;
3)构建了新华社内外多方创新协同机制:围绕用户和场景衍生服务,通过智慧中台构建产品服务创新的孵化机制,创新构建全媒体产业链价值评估、流通和分配机制,促进全员媒体、全程媒体、全息媒体、全效媒体有效协同,围绕用户和场景推进“新闻+政务服务商务”创新产品和服务模式试点。
在媒体领域、大数据领域、人工智能领域的技术和人才积累是智慧中台建设的有力支撑,是建成、建好此次融媒体智慧中台的核心要素。基于中科闻歌融媒体领域的成熟产品体系,“天湖”数据智算平台支撑了整个智慧中台各类数据的汇聚、处理,知识图谱、数据标注等成熟的AI产品为知识加工提供了智能、快速的技术平台;媒体、国际关系、人工智能等领域专家对智慧中台的领域知识数据进行收集、梳理、归类,形成领域知识体系,为中台的业务化、智能化运行提供了知识体系保障。
7.2.3 营销领域可应用大数据技术覆盖消费者市场动态,为产品营销决策高效赋能
在产品营销业务过程中,可运用大数据技术和科学算法,广发收集和分析线上社交媒体平台和电商平台的用户数据,迅速捕捉市场趋势和消费者需求,挖掘潜力趋势,辅助产品营销决策。
案例10:安利(中国)研发中心打造智能营销产品创新平台,实现产品创新亮点挖掘
安利(中国)研发中心成立于2004年12月,是安利全球研发部门的重要组成部分。安利全球研发团队在全球健康领域拥有超过50年的领导者地位,中国研发基地主要负责新概念研究、毒理研究、配方设计、产品功效验证、临床试验、消费者洞察等。多学科多交叉点的结构以及与全球产品团队合作的氛围,让安利(中国)研发中心的研发力量在业内名列前茅。
消费者反馈评价和市场热点趋势都是各类型消费品研发过程中的重要参考因素。安利(中国)研发中心以往通过消费者调研、桌面分析以及专家意见等调研方式了解用户评价和市场关注点,这样的传统调研方式存在调研结果纷繁复杂、调研周期长、投入资金成本和人力成本高等诸多痛点。
基于内部分析讨论和综合判断,安利(中国)研发中心期望通过运用更高效更系统的大数据手段了解消费者市场,协助安利深入了解当下消费者使用保健食品时关注的具体功效和原料成分等概念元素,降低创新战略阶段的调研成本,为产品研发创新高效赋能。安利(中国)研发中心认为,基于大数据的产品创新解决方案需要具备以下条件:
1)解决方案可以借助大数据能力,运用科学算法,全面迅速捕捉市场趋势和消费者需求,自动发掘新兴潜力趋势,为研发人员提供更多创新灵感。
2)其次,解决方案可以通过对社媒、电商等数据的广泛收集和分析,深度挖掘具备潜力的产品创新机会在市场中的综合情况,辅助决策下一步行动。
3)最后,通过此次项目可以总结出科学可行的产品创新研究方法论和研究体系,以支持后续产品创新研发过程。
基于以上考虑因素,安利(中国)研发中心最终选择与数说故事共同搭建智能营销产品创新平台。
数说故事成立于2015年,员工800+人,60%+为大数据和AI研发团队,在“认知AI”领域占据领先地位。公司构建了从数据收集、处理、分析、建模到商业应用的全价值链解决方案,完整覆盖产品创新、品牌营销、内容营销、渠道销售、用户运营、风险预警、投资顾问等丰富的商业场景,帮助10+行业的500+头部企业完成营销数字化转型。
安利智能营销产品创新平台,精准匹配产品创新趋势洞察需求
数说故事凭借对安利(中国)研发中心工作内容的深入了解和诉求解读,设计了在产品研发阶段可以高效洞察市场趋势和创新点的解决方案,该解决方案主要运用了自有产品数说雷达进行智能营销产品创新系统的构建,主要包括创新趋势发现和创新趋势研究两个业务方向:
图 26: 安利智能营销产品创新平台架构
创新趋势发现主要由趋势榜单来体现,通过对品类、趋势类型和推荐指数的判断和筛选进一步形成趋势榜单,趋势榜单由上升指数、热度指数、萌芽榜单等模块组成。
创新趋势研究方向下主要实现趋势洞察功能,通过对榜单维度的进一步筛选,形成了趋势概览(社交媒体声量趋势、店铺SKU分布、情感分布、产品趋势、同类品牌对比等)、人群和场景洞察(性别、年龄、地域、时间等)以及使用反馈(满意度表现、情感表现、正负向词云)发现产品创新趋势及热点。
安利智能营销产品创新系统的工作路径具体分为6个步骤:
第一步,数据构建。通过社媒(微博、微信、新闻、论坛、小红书、抖音等)和电商(天猫、京东)等公开渠道和合作渠道,大范围持续收集产品原料、功效、销量、用户反馈等维度的实时合规数据,为概念识别、分类、挖掘、分析打造良好的数据基础。
第二步,概念识别。安利智能营销产品创新系统在落地前凭借过往数据构建了行业库,行业库内实现各层级模块细分,例如蛋白类下有植物蛋白模块和动物蛋白模块,运用概念识别模型根据安利(中国)研发中心需要的植物蛋白成分类别剔除非核心的动物蛋白概念数据。接着运用关系识别算法,对数据进行二次采集和筛选,尽可能的保留植物蛋白相关实时数据。然后通过训练趋势识别算法判断产品成分、功效的热门程度,在原料、成分、功效、科技、工艺等偏产品研发创新的维度进行概念升级和处理。
第三步,概念分类。通过算法模型对已经识别出的维度进行分类,帮助产品研发中心快速识别当下植物类产品的热门话题维度和创新维度。
第四步,概念挖掘。通过算法模型实现概念挖掘,参考权威机构和企业发布的产品榜单或正在讨论的创新产品原料、成分、功效概念。
第五步,概念分析。深度分析社媒、电商平台里消费者反馈的当前趋势,包括各类型植物类产品的销量和使用效果评价,综合消费者偏好及关注点,运用口碑评估体系评估产品成分及功效,从而给予安利(中国)研发中心产品原料、成分、功效的前期评估参考。
第六步,知识积累。智能营销产品创新系统识别出当下产品的市场趋势后,运用知识图谱技术持续形成行业底层知识积累,知识图谱会随着产品热点和创新点的出现持续更新,以便研发人员或审查人研究人员在浏览产品知识或信息时能够快速扩展其他知识类别,为产品创新提供更多灵感来源。
以上6个步骤实现智能营销产品创新系统的协助工作,为安利(中国)研发中心产品研发创新高效赋能。
安利智能营销产品创新系统让产品研发前期调研覆盖更广、效率更高
安利(中国)研发中心与数说故事共建的智能营销产品创新解决方案覆盖数据范围广泛、维度多样,有效降低调研阶段人工投入成本,并为创意战略阶段持续赋能。
1)智能营销产品创新解决方案采集到的数据覆盖范围广泛、维度多样,在遍及用户生活的社交媒体和众多电商平台上实时采集产品原料、成分、功效、销量等维度评价,前期调研的广度和速度得到优化。
2)智能营销产品创新系统可释放大量人力价值,免除低效人工识别工作。产品研发支持系统实现了超过85%的实体识别准确率,免除了大量人工挑选的低效工作,实体识别算法还可随市场发展实时优化,持续发现和挖掘产品热点。通过算法自动识别新词,从而发现产品研发创新方面的未来趋势。
3)智能营销产品创新解决方案可为产品创新提供衍生知识参考,产品研发支持系统可为核心概念持续链接衍生知识,进而形成网状结构的知识图谱,提高了知识的关联探索能力,在前期创意战略阶段,为实现要素重组提供丰富的灵感。
强有力的大数据技术+科学可行的研究方法论+精准的项目诉求解读=成功的智能营销产品创新解决方案
此次安利智能营销产品创新项目的成功是建立在扎实的数据能力、科学可行的研究方法论和精准的项目诉求解读基础上的。
在大数据技术层面,数说故事提供的产品基础数据能力扎实,数据采集能力和算法能力优势明显,能够为产品创新研发系统提供持续稳定的信息采集技术。
在产品创新研究方法论层面,此前合作的植物原料研究思路和此次产品创新解决方案思路一致,安利(中国)研发中心和数说故事探讨出研究方法论科学可行,只需将一次性的研究报告进一步升级成实时可用的智能营销产品创新系统,可为安利(中国)研发中心全线产品提供更全面更广泛的研究支持。
在项目诉求解读方面,安利(中国)研发中心在过往研究项目中与数说故事建立了良好合作关系,熟悉了彼此的工作风格及具体诉求,让安利对数说故事建立了较高的认可度,有效降低了此次项目的前期沟通成本。
7.2.4 医疗大数据技术有效支持医学研究、健康决策
在医疗领域,可运用人工智能影像技术和医疗大数据管理技术辅助癌症筛查工作,覆盖更多筛查人群,提高癌症筛查效率,降低人工筛查成本。医疗大数据管理技术有效帮助相关部门实现数据管理,数据互通共享,辅助实现健康决策,同时为后续的医学大数据研究打下坚实的基础。
案例11:“AI健康地图”助力构建浙江省癌症筛查信息平台
浙江省肿瘤防治办公室从属浙江省肿瘤医院,浙江省肿瘤医院始建于1963年,是新中国成立最早的四所肿瘤医院之一, 是中国科学院首个以肿瘤医学为主要研究方向的专业研究机构,集肿瘤预防、医疗、科研、教学、康复于一体,承担着国家肿瘤防治重任,在全国的肿瘤防治工作中发挥着龙头作用。
2016年中共中央及国务院印发了《“健康中国2030”规划纲要》,明确指出对慢性病实施综合防控战略:“强化慢性病筛查和早期发现,针对高发地区重点癌症开展早诊早治工作,推动癌症、脑卒中等慢性病的机会性筛查。基本实现高血压、糖尿病患者管理干预全覆盖,逐步将符合条件的癌症、脑卒中等重大慢性病早诊早治适宜技术纳入诊疗常规。到2030年,实现全人群、全生命周期的慢性病健康管理,总体癌症5年生存率提高15%。”
浙江省肿瘤防治办公室和疾控中心为响应《“健康中国2030”规划纲要》 “全民健康 共建共享”的战略目标,计划通过早筛查、早诊断、早治疗恶性疾病的方式来降低人群疾病负担。然而传统人工筛查癌症方式存在众多痛点:传统筛查方式依赖人工填写各类文书,筛查效率低,工作人员筛查成本较高;癌症筛查涉及的人群数量庞大,数据管理难度较大;从事肿瘤防治的一线工作人员缺乏专业的筛查系统等。
基于以上考虑,浙江省肿瘤防治办公室寻求人工智能影像和医疗大数据管理技术辅助进行早期癌症筛查工作,通过可行性研究和对技术方案的评选,最终选择了深睿医疗作为合作伙伴。
深睿医疗深耕智慧医疗领域,致力于通过人工智能“深度学习”技术及自主研发的核心算法为国内外医疗机构提供人工智能和互联网医疗解决方案。其研究院国内外学术领域成果突出,累计影响因子超1200,获得了700多个专利及软著,颅内动脉瘤自动化分割与检测方向的科研成果被Nature Communications (IF 17.694)收录。深睿医疗牵头参与了7项科技部重点研发计划,9项国家自然科学基金, 30多个省市级科研项目,2021年深睿医疗与国内多家知名医疗机构联合申报成功4个国家自然项目。今年,深睿医疗牵头或参与的6个项目上榜工业和信息化部和国家药品监督管理局公示的人工智能医疗器械创新任务揭榜单位名单
“AI健康地图”推动肿瘤筛查工作流程完善、筛查信息统一管理
“AI健康地图”推动肿瘤筛查工作流程重塑。为响应浙江省数字化改革的号召,浙江省肿瘤防治办公室在2020年开始着手肿瘤筛查平台的打造,并对肿瘤筛查业务流程进行重塑,包括风险人群入组、评估/初筛、精准筛查、随访等完整的筛查流程,并超前考虑到所有与肿瘤防治相关的所有参与单位,包括政府主管部门、各地肿瘤防办、定点医院、社区医院。
“AI健康地图”实现全省肿瘤筛查一盘棋。目前浙江省肿瘤筛查平台已接入了130个管理机构、292个筛查机构、1423个招募机构(超90%的浙江省社区医院),形成了一套组织严密的肿瘤筛查网络,可以持续开展不同肿瘤的大规模筛查。
浙江省肿瘤筛查平台包括3类终端(医生电脑端/医生移动端/居民移动端)、30个高频应用(包括受试者招募、筛查项目预约、肿瘤筛查、随访等筛查全链路环节的一体化服务功能)、N个肿瘤筛查模块(结直肠癌筛查/肺癌筛查/上消化道癌筛查)
浙江省肿瘤筛查平台的功能模块有系统管理(机构管理/用户和权限管理/登录管理/行政区划管理/系统帮助)、任务管理(公告管理/待办事项管理/任务管理)、受试者管理(受试者信息总览/受试者查询/受试者信息导出)、目标人群管理(新增目标人员/修改目标人员/导入目标人群)、评估管理(评估资格审核/知情同意书管理/问卷管理/评估结果展示)、检验管理(检验耗材管理/检验结果录入/检验状态追踪)、预约管理(检查预约/签到管理/动员管理/放号管理)、筛查管理(筛查结果录入/筛查结果查询/筛查状态追踪/AI影像辅助诊断)、随访管理(随访录入/随访提醒/随访结果管理/随访查询)、数据管理(数据驾驶舱/业务指标统计/数据使用管理/数据导出)等30个应用模块。
凭借“AI健康地图”,浙江省肿瘤筛查工作实现效率跃升
AI健康地图”可筛查不同病变阶段的患者,有效节约医药费用。截止到浙江重点人群结直肠癌筛查项目累计完成风险评估和便潜血检查(FIT) 4,58余万人,结肠镜检查近30万例,筛查出结直肠癌3,110人,进展期腺瘤31,947人,非进展期腺瘤57,306人。通过信息平台及早救治了1000多名患者,节省群众的医药费用、减轻群众的负担,为医保节约费用28亿多元。
“AI健康地图”可对潜在癌症人群进行提示和预警。筛查项目在实现了结直肠癌的早期诊断,还对处于“早早期”的结直肠癌进行了提示和预警,临床的提前干预直接将癌症扼杀在萌芽之中。截止目前浙江省重点人群结直肠癌筛查项目累计完成风险评估和便潜血检查(FIT)近460万人,筛查出结直肠癌3,110人及近9万处于早期病变不同阶段的患者。
“AI健康地图”可促进癌症筛查和早诊早治一体化及标准化。癌症筛查信息平台通过实现省域内信息统一接入与管理,使筛查数据实现高效质控、互联互通及便捷共享,为浙江省后续癌种、区域的拓展及医学大数据研究打下坚实的基础。
“AI健康地图”可赋能疾病预防控制和健康决策。癌症筛查信息平台内沉淀了大量的区域癌症筛查数据,可通过人工智能技术对医疗大数据进行治理及智能分析,最终赋能疾控和健康决策。
通过“AI健康地图”肿瘤防治工作实现了模式创新、技术创新和场景创新
此次癌症筛查平台搭建过程中实现了产学研用相结合,创新性地应用了人工智能技术,提高了居民癌症筛查参与率,实现了疾病诊断关口前移,在肿瘤防治工作层面实现了模式创新、技术创新和场景创新。
1)模式创新:实现筛查业务数字化流转,减少工作人员从的重复工作,加速项目推进,提升筛查信息管理效率;肿瘤筛查遵循浙江省统一的筛查技术方案,实现从省级到地市到区县的统一,拥有一致的工作流程和标准规则;针对不同肿瘤筛查设计专门的统计指标,通过对比分析各类指标在全省各筛查单位的差异程度,可帮助管理机构及时指导筛查机构进行整改,有效保证各癌种的筛查质量。
2)技术创新:充分运用5G、云计算、AI等先进的新兴技术,构建全省乃至全国独树一帜的智能肿瘤筛查云,可以支撑全省不断开展各种不同肿瘤的大规模人群筛查;采用AI与云计算结合的技术,居民做完检查后影像可自动转发至云端,并通过影像AI技术自动计算筛查结果,筛查准确性相当于中高年资医生水平。AI分析结果按筛查要求自动回填医生诊断所需填写的字段内容,极大节省筛查诊断医生的阅片录入数据的工作量。
3)场景创新:创新应用医生移动端筛查,方便医务工作者在人民群众家门口开展肿瘤筛查工作。灵活支持高风险人群在日常就医过程中随时参与肿瘤机会性筛查,进一步拓宽肿瘤筛查渠道,增强肿瘤筛查的人群覆盖面。对于重点风险人群及家属,支持线上参与肿瘤筛查,广泛提升居民对肿瘤防治的知晓率和参与度。
8.展望
当前,出于政策合规、采购习惯和认知等方面的原因,中国企业尤其是中大型企业对于公有云的采纳进展仍处于早期,但基础设施上云的趋势仍在稳步推进。未来,随着基础设施上云,基于云上的数据分析和应用,以及跨组织、跨区域的数据共享和消费是值得关注的趋势。
同时,随着区块链、隐私计算等技术的渗透,政策对于数据要素流通的倡导,以及数据资产定价机制的探索,相关基础设施将逐步走向成熟,为数据要素的高效流通和应用、释放更大的价值带来可能
报告编委
主创团队
黄勇
爱分析合伙人&首席分析师
武宇
爱分析高级分析师
孟晨静
爱分析分析师
李冬露
爱分析分析师
兰壹凡
爱分析分析师
外部专家(按姓氏拼音排序)
陈玉奇
斗象科技首席安全架构师
方正
数说故事产品总监
郭振强
科杰科技副总裁
孔德明
网易数帆流通行业大数据实施交付总监
刘诚忠
衡石科技CEO
乔昕
深睿医疗联合创始人/CEO
孙妍
观远数据副总裁
王申
九章云极银行BU总经理
王爽
锘崴科技创始人、董事长
王一刚
中科闻歌数智媒宣事业部总经理