本月,阿里云在北京举办了 “2022 年阿里云数据存储生态发布会”,偶数科技作为目前国内云原生数据仓库技术领域的开拓者受邀参加了本次大会。偶数科技首席架构师陶征霖作为演讲嘉宾,在会上与行技术仁共同回顾了分析型数据库的演进历程,以及目前偶数科技在湖仓一体方面的前沿理念和实践。
随着企业数字化转型进入深水区,越来越多的企业视“湖仓一体”为数字变革的重要契机,如今湖仓一体受到前所未有的关注。在Gartner 2021年度数据管理领域的成熟度模型报告"Hype Cycle"中,"湖仓一体"(Lakehouse)与Edge Data Management、Intercloud Data Management、Active Metadata等新兴技术一起,成为了首次进入成熟度模型的五个新军之一。然而,关注度越高意味着嘈杂声也会越多。对“湖仓一体”的错误理解,也会将转型中的企业引入更加复杂的数据孤岛局面,尽管这些错误理解最终会得被市场淘汰,但从现实而言可能会造成企业成本上升,甚至会错过数字化转型的战略时机。对此,陶征霖在会上重点介绍了湖仓一体 ANCHOR 六大特性:实时 T+0、一份数据、超高并发、数据一致性、云原生、多类型数据支持。通过 OushuDB 最新版本和架构的加持,偶数湖仓一体方案将在云设施上帮助客户发挥数据价值。
为什么“湖”+“仓”的分体模式
不是最佳选择随着近年来Hadoop 大数据平台建设逐步推广,企业开始尝试将 Hadoop 用于一些非核心场景,但 Hadoop 性能和并发支持有限,而且事务支持弱,交付、运维成本高,无法替代核心数仓,基本只能作为“数据湖”。为了满足用户在性能、事务等方面的要求,很多企业开始考虑数据湖和数据仓库互补的方式。在构建数据湖的同时,也使用MPP,湖仓各自独立部署,数据通过ETL的方式打通。
这就是业内常说的 Hadoop+MPP 的"湖仓分体"模式。尽管这种模式能够让湖和仓有很好的技术特性互补,但同时它也会产生经常让企业感到困惑的严重问题,包括:分体模式下的湖和仓各自形成数据孤岛;Hadoop 和 MPP 集群规模扩展能力受限;Hadoop 和 MPP 需要拆成多个集群,同一份数据在多个集群冗余存储;多份数据增加维护成本,数据一致性难保障;在面对高并发数据查询时,易造成业务应用崩溃;T+1甚至更长的处理周期,不能满足业务的实时决策;建模路径冗长、非结构化数据无法整合;湖+仓异构分体带来复杂的实施和运维问题。这些常见的状况更让从业者头疼不已。要解决这些问题,必须实现数据和查询层面形成一体化架构,彻底摆脱大数据平台遇到的这些瓶颈,这样可以大大降低 IT 运维成本和数据管理的技术门槛。
OushuDB存算分离的湖仓一体模式有何不同
那么,基于OushuDB存算分离的湖仓一体模式与Hadoop+MPP 的"湖仓分体"模式有何不同呢?偶数科技研发的全球最快的新一代分析型数据库引擎OushuDB创新性的采用了存算分离的云原生架构。作为一个崭新的数据平台架构,存算分离架构可以保证存储和计算可以独立的弹性扩展和伸缩。而传统 MPP 和 Hadoop 都不适应这样的要求:MPP 数据库存算耦合;Hadoop 必须通过计算和存储部署在同一物理集群拉近计算与数据的距离,仅在同一集群下构成逻辑存算分离。另外,为了同时满足实时流处理、实时按需分析和离线分析需求,偶数科技独创性的探索出了Omega全实时数据处理架构,相比于传统的Kappa架构、Lambda架构优势明显。可以说,OushuDB基本解决了"湖仓分体"的技术瓶颈,技术优势相当显眼:OushuDB突破了传统MPP和Hadoop的局限,将计算和存储部署在不同的物理集群中,使得计算和存储资源可以独立的弹性伸缩;通过构建虚拟计算集群,OushuDB可以在数十万节点的超大规模集群上满足高并发需求,形成了统一的数据体系,不仅使得湖仓更适应云环境,还降低了用户的成本;通过支持分布式表存储Magma,OushuDB的计算引擎便于实现快照视图,能够高效实现实时查询需求,从而在性能和事务方面的支持更加完善。Omega架构通过流处理系统WASP实现实时连续的流处理或批流一提处理,并通过存储于实时数仓的快照视图完成实时查询,从而解决了传统Kappa架构落地困难、Lambda架构难以保证数据一致性的问题,并极大简化了数据架构。
湖仓选型,ANCHOR先行
偶数科技认为,要真正的解决业务的痛点,选择企业适合的湖仓产品,我们可以按照前面提到的ANCHOR 标准来选型。ANCHOR 的6个首字母分别代表六大特性:实时 T+0(Real-Time):通过全量数据 T+0 的流处理和实时按需查询,满足基于数据的事前预测、事中判断和事后分析。一份数据(One Copy of Data):所有用户(BI 用户、数据科学家等)可以共享同一份数据,避免数据孤岛。超高并发(High Concurrency):支持数十万用户使用复杂分析查询并发访问同一份数据。数据一致性(Consistency):通过完善的事务机制,保障不同用户同时查询和更新同一份数据时的一致性。云原生(Native on Cloud):适合云环境,自由增减计算和存储资源,按用量计费,节约成本。支持多类型数据(All Data Types, Structured & Unstructured):支持关系表、文本、图像、视频等结构化数据和非结构化数据存储。
行业的认可与偶数的持续突破创新
自偶数科技诞生以来,偶数科技的产品和解决方案也已在非银金融、电信、政府、能源、制造和互联网等行业中被广泛的部署和应用,帮助多个行业中的企业小步快跑,进行数智化转型。同时,作为在数据库领域的领先创业,其商业模式的可行性与成长性也得到了资本的认可,连续获得了国内顶级投资机构红杉中国、腾讯、红点中国与金山云的四轮投资。在大数据的常见客户行业中,银行业是对应用的自主可控、高可用、高可靠性的要求最高的领域之一,偶数科技解决方案在银行业的落地正是其技术实力和对用户痛点理解力的明证。早在2020年,偶数科技就与建设银行成立了高性能大数据联合实验室,共同探索湖仓一体化的实施路径。经过持续的技术探讨与应用验证,二者合作开发的基于云原生数据库技术的全实时湖仓一体方案,采用了一套技术栈、统一存储进行湖仓双重能力建设,已具备极速性能、弹性伸缩、计算资源按需分配、全量数据单一存储、无须频繁导数、混合负载等相关能力,能够充分建设银行及其客户的实时应用场景,帮助建行提升了实时需求响应性能、增强了系统弹性,同时节约运维成本。近期,偶数科技正式入选国家级专精特新(专业化、精细化、特色化、新颖化)“小巨人”企业名单。作为助力国家突破关键技术领域“卡脖子”难题的初创企业,偶数科技在数据库国产化、技术自主安全上的努力正在被逐步验证、得到国家层面的肯定。随着未来物联网、工业互联网的逐步建立,大数据领域将面临越来越广的数据来源、越来越大的数据量、越来越多的非结构化数据、越来越丰富的应用场景和越来越复杂的技术栈,大数据处理和分析的难度将进一步提升。从上世纪60年代的数据库,到数据仓库、数据湖,到现在的湖仓一体,新产品总是在性能、功能上去解决以前从业者在业务上的痛点,我们可以说湖仓一体是数据库发展到云原生时代的必然产物。通过虚拟计算集群技术在数十万节点的超大规模集群上实现高并发,保障事务支持,提供实时能力,一份数据再无数据孤岛,新一代湖仓一体架构将是未来的发展趋势。偶数科技作为湖仓一体化领域的领导者,也将持续优化技术,为用户带来更高性能、更稳健的解决方案,支撑更多行业用户将数据转化为生产力。