【麦肯锡观点译文】:立足当下,构建面向未来的、可驱动创新的数据体系架构!

发布日期:2021-08-04 11:23:54   浏览量 :526
发布日期:2021-08-04 11:23:54  
526



了解麦肯锡对数字化的认识

过去几年,各类组织都在采取快速行动,夯实传统基础架构同时部署新型数据技术,推动市场驱动创新,如个性化服务、实时报警和预测性维护。


然而,随着从数据湖到客户分析平台、到流处理的这些技术复杂性增加的推波助澜,数据架构本身的复杂性与日俱增,随之即来的是,组织在以下方面遇到了极大阻碍:1、为适应市场波动必须构建又稳又快的新型业务能力;

2、业务快速变化的前提下,稳定运营现有基础设施;

3、聚合完整的人工智能建模。


目前的市场形态众所周知最无法容忍的就是慢!


亚马逊和谷歌等领导层一直在利用人工智能技术创新来颠覆传统商业模式,这就逼迫着同业组织不得不多维反思自己业务,迎难而上。


云提供商推出了前沿产品,例如可以即时部署的云数据平台,帮助客户争取更快的上市时间和更大的业务灵活性。


分析类用户则要求更无缝的工具,例如自动化部署平台,他们需要更快地将脑海中的模型落地为实际运转的业务。


许多组织都采用了应用程序编程接口(API),将不同系统的数据公开到数据湖中,并将由完整的底层数据带来的服务洞察力快速集成到前端应用程序中。


现在,几乎所有公司都掣肘于新冠状病毒所带来的前所未有的人道主义危机与业务影响,同时也须为下一轮的业务周期做好绸缪,毕竟,对服务的灵活性和速度的要求只会不断提高、不会降低。


对于企业来说,要想建立竞争优势,甚至维护市场公正地位,他们需要一种新的方法来重新定义、实现和集成数据栈,调用新概念服务组件以及相关的云服务(基础架构之外的服务)。



六维变革创建一个改变游戏规则的数据架构






我们已经看到很多公司在尝试从六个维度对其数据架构蓝图进行基础性变革,这些蓝图能够更快地交付新功能,并大大简化现有的架构方法。它们几乎触及所有数据活动,包括采集、处理、存储、分析和展现。尽管组织可以实现一些转变,同时保持核心技术堆栈的完整性,但许多组织仍需要对现有数据平台和基础设施进行谨慎的重新架构,包括遗留技术和以前栓接的技术。



这些努力并非微不足道。投资通常可以从数千万美元用于构建基本用例(如自动报告)的功能,到数亿美元用于构建前端功能(如即时服务)的体系结构组件,以便与最具创新性的颠覆者竞争。


因此,对于组织来说,制定一个清晰的战略计划是至关重要的,数据和技术领导者需要做出大胆的选择,优先考虑那些最直接影响业务目标的转变,并在适当的架构成熟度水平上进行投资。因此,数据架构蓝图在不同的公司之间看起来往往非常不同,不能仓促复制。


如果数据架构做得好,投资回报可能非常可观(一家美国银行的年回报率超过 5 亿美元,一家石油和天然气公司的利润率增长 12%至 15%)。我们发现,这些类型的好处主要在于以下几个领域节省 IT 成本、提高生产力、降低监管和运营风险,以及提供全新的功能、服务,甚至整个业务。


那么,组织需要考虑哪些关键变化呢?


1 从内部部署到基于云的数据平台

云可能是全新数据架构方法中最具破坏性的驱动因素,因为它为企业提供了一种快速扩展人工智能工具和随之而来的能力以获得竞争优势的方法。主要的全球云提供商,如 Amazon(使用 Amazon Web 服务)、Google(使用 Google 云平台)和 Microsoft(使用Microsoft Azure),已经彻底改变了各种规模的组织大范围内获取、部署和运行数据基础设施、平台和应用程序的方式。


例如,一家公用事业服务公司整合了云的数据平台与容器技术,其中,容器技术通过建立搜索账单数据以及向账户添加新属性等微服务,模块化的形式解构了应用程序的整体功能。这使公司有能力在几天而不是几个月内为大约十万个业务客户部署新的自助服务功能,向最终用户提供大量即时库存和交易数据以进行分析,并帮助客户在云中完成交易动作而不是在更昂贵的本地遗留系统上降低成本。


支持概念和组件

无服务器数据平台(如 amazons3 和 google bigquery)允许企业以无限规模构建和运营以数据为中心的应用程序,而无需安装和配置解决方案或管理工作负载。这样的产品可以降低所需的人工专业技能与操作难度,将部署速度从几周缩短到几分钟,而且几乎不需要任何额外操作开销。


使用Kubernetes 的容器化数据解决方案(通过云提供商和开放源代码的方式提供,并且可以快速集成和部署)使公司能够解耦并自动部署额外的计算能力和数据存储系统。这一功能在确保具有更复杂设置的数据平台(如,保留计算数据、系统间传输数据以及数据的备份和恢复需求)可扩展以满足需求方面特别有价值。


2 从批处理到实时数据处理


实时数据消息和流媒体功能的成本大幅降低,为主流使用铺平了道路。这些技术使许多新的业务应用程序得以应用:例如,运输公司可以在出租车接近时通知客户,并精确地预测到达时间;保险公司可以通过智能设备分析个性化费率的实时行为数据;制造商可以根据实时传感器数据预测基础设施问题。


实时流媒体功能,例如订阅机制,允许数据消费者(包括数据集市和以数据为驱动的员工)订阅“主题”,以便他们能够获得所需事务的持续服务。数据湖通常充当此类服务的“大脑”,保留所有细粒度事务。


启用概念和组件


诸如 ApacheKafka 这样的消息传递平台提供了完全可扩展、持久和容错的发布/订阅服务,可每秒处理和存储数百万条消息,以提供即时服务甚至更高要求的服务。这种平台允许支持实时用例,绕过现有基于批处理的解决方案,而且所占用空间以及基本成本要比传统的企业消息队列所消耗的小得多。


流处理和分析解决方案,如 ApacheKafka、ApacheFlume、ApacheStorm 和ApacheSark,允许实时直接分析消息。这种分析可以是基于规则的,也可以涉及高级分析,以从数据中提取事件或信号。通常,将集成历史数据与原有基线作比较分析,对推荐和预测引擎能力的有效发挥特别重要。


Graphite 或 Spluk 等警报平台可能会对用户的非标业务操作进行报警触发,例如,如果销售代表未达到其日常销售目标,则通知销售代表,或将这些操作集成到企业资源规划(ERP)或客户关系管理(CRM)系统中可能运行的现有流程中。


3 从预集成的商业解决方案到模块化的平台


为了扩展应用程序,公司通常需要溢出大型解决方案供应商所构建的一次性的数据生态系统边界。许多公司现在正朝着高度模块化的数据体系结构发展,该体系结构使用同类最佳的、经常使用的开源组件,这些组件可以根据需要替换为新技术,从而不会影响数据体系结构的其他部分。


前面提到的公用事业服务公司正在向这种方向过渡,以快速向数百万客户提供新的、数据密集的数字服务,并大规模连接基于云的应用程序。例如,它提供了客户能源消耗的准确每日视图,以及将个人消费与同龄人群体进行比较的实时分析观点。该公司建立了一个独立的数据层,包括商业数据库和开源组件。数据通过专有的企业服务总线与后端系统同步,容器中托管的微服务承接着一致性的数据运行业务逻辑。


支持概念和组件


数据通道和基于 API 的接口简化了不同工具和平台之间的集成,使数据团队免受不同层的复杂性的影响,加快了上市时间,并降低了在现有应用程序中引发新问题的概率。这些接口还允许随着需求的变化、更边界地更换单个组件。


Amazon Sagemaker 和 Kubeflow 等分析工作台使得在高度模块化的体系结构中可更方便的形成端到端的解决方案。这些工具可以连接大量的底层数据库和服务,并允许高度模块化的设计。


4 从点对点到解耦数据访问


通过API与公开数据服务的隔离,可以确保对查看和修改数据的直接访问是有限和安全的,同时提供对公共数据集的更快、最新的访问。这使得数据可以在团队之间很容易地重用,加速了访问,并实现了分析团队之间的无缝协作,从而可以更有效地开发 AI 用例。


例如,一家制药公司正在通过 API 为所有员工建立一个内部“数据市场”,以简化和标准化对核心数据资产的访问,而不是依赖于特定接口。在 18 个月的时间里,该公司正逐步将最有价值的现有数据源迁移到基于 API 结构的服务体系中,并部署 API 管理平台,向用户提供公开的 API 服务。


支持概念和组件


API 管理平台(通常称为 API 网关)对于创建和发布以数据为中心的 API服务、落实服务策略与访问控制、以及服务使用状态和性能评价是非常必要的。这个平台还允许开发人员和用户搜索现有的数据接口并重用它们,而不是再去构建新的接口。API 网关通常作为单独的区域嵌入到数据集线器中,但也可以作为集线器之外的独立功能进行开发。


通常需要一个数据平台来“缓冲”核心系统之外的事务。这种缓冲区可以由中央数据平台(如数据湖)提供,也可以在分布式数据网中提供,分布式数据网是一个生态系统,由各类平台(包括数据湖、数据仓库等)组成,这些平台要为每个业务领域当下和未来所需要的数据使用负责,并匹配以适当的工作负载能力。例如,一家银行建立了一个专栏数据库,直接向网上银行和移动银行应用程序提供客户信息(例如他们最近的金融交易)从而避免了在大型机上完成这复杂而高消耗的工作。


5 从企业仓库到基于域的体系结构


许多数据体系结构的领导者已经从中央企业数据湖转向“域驱动”设计,这些设计可以定制并“适合目的”,以缩短新数据产品和服务的上市时间。通过这种方法,尽管数据集可能仍然驻留在同一物理平台上,但每个业务领域(例如,营销、销售、制造等)中的“产品所有者”的任务是以一种易于使用的方式组织其数据集,这对于域内的用户和其他业务中的下游数据消费者在消费该领域数据时都可消费到相同标准的数据。


这种方法需要谨慎的平衡,以避免变得支离破碎和低效,但作为回报,它可以减少前期在湖中构建新数据模型所花费的时间,通常从几个月减少到几天,在数字化快速契合业务结构或遵守数据移动方面的法规限制时,它可以是一种更简单、更有效的选择。


一家欧洲电信供应商使用了一种基于域的分布式体系结构,因此销售和运营人员可以将客户、订单和计费数据输出给数据科学家,以便在人工智能模型中使用,或通过数字渠道直接向客户提供。该组织没有构建一个中央数据平台,而是部署了由公司销售和运营团队中的产品所有者管理的逻辑平台。产品拥有者被激励去促进数据分析的使用,并通过数字使用渠道、行业论坛经验、甚至黑客论坛来综合考量数据如何被更恰当的使用。


支持概念和组件


数据基础设施作为一个平台,为存储和管理提供了通用工具和功能,以加快实施速度,并从数据生产者身上消除构建自己的数据资产平台的负担。


数据虚拟化技术起源于客户数据等领域,现在正被企业广泛用于组织对分布式数据资产的访问和集成。


数据编目工具提供企业对特定数据的搜索和探索,而无需完全整体访问或准备。目录还通常提供元数据定义和端到端接口,以简化对数据资产的访问。


6 从僵硬的数据模型到灵活、可扩展的数据模式


来自软件供应商的预定义通用数据模型、和服务于特定商业智能需求的专有数据模型,通常要构建在高度规范化的模式中,须具备严格而准确的数据库表和数据元素,从而实现最小程度的冗余以及最高适当的使用。


虽然这种方法往往是用来应付监管要求的,它必须基于行业标准,但这种数据模式确实需要经历足够的考验,经历漫长的开发周期、合并新的数据元素或数据源、积累强大的系统知识从而高度契合自身业务。任何变更须被控制、避免影响数据完整性。


为了在探索数据或支持高级分析时获得更大的灵活性和强大的竞争优势,很多公司正在向“轻型模式”方法发展,使用物理表较少的非规范化数据模型来组织数据以获得最佳性能。这种方法提供了许多好处:灵活的数据探索、存储结构化和非结构化数据的更大灵活性以及降低的复杂性,因为数据领导者不再需要引入额外的抽象层(例如高度规范化的表之间的多个“连接”)来查询关系数据。


支持概念和组件


datavault2.0 技术(如数据点建模)可以确保数据模型是可扩展的,因此将来可以在有限的中断下添加或删除数据元素。


图形数据库作为一种 NoSQL 数据库,近年来受到了广泛的关注。NoSQL 数据库通常非常适合于需要大规模可伸缩性和实时功能的数字应用程序,也非常适合于服务于 AI应用程序的数据层,因为它们能够利用非结构化数据。尤其是图形数据库,它提供了以一种强大而灵活的方式对数据中的关系进行建模的能力,许多公司正在使用图形数据库来构建主数据存储库,以适应不断变化的信息模型。


Azure Synapse Analytics 等技术服务允许通过在文件上动态应用表结构来查询类似于关系数据库的基于文件的数据。这为用户提供了在访问存储在文件中的数据时继续使用公共接口(如 SQL)的灵活性。


使用 JavaScript 对象表示法(JSON)存储信息使组织能够更改数据库结构,而不必更改业务信息模型。


如何开始


数据技术正在快速发展,使得传统上定义和构建三到五年数据体系架构规划的传统做法既有风险又低效。为数据和技术领导者提供最佳服务的方法是梳理如何更好实践,使他们能够快速评估和部署新技术,以便快速适应。这里有四种做法至关重要:


1、将测试和学习的心态应用到架构构建中,并尝试不同的组件和概念。这种敏捷实践在应用程序开发中已经应用了相当长的一段时间,并且最近已经进入了数据空间。


例如,领导者不必就最佳设计、完整产品和供应商进行冗长的讨论,以确定“完美”的选择,然后再进行冗长的预算审批,而可以从较小的预算开始,创建最低可行的产品,或者将现有的开放源代码工具串联起来,创建一个临时产品,将它们发布到生产中(使用云加速),以便在进一步扩展和发展之前展示它们的价值。


2、建立数据“部落”,由数据管理员、数据工程师和数据建模人员组成的团队在这里协同工作,负责构建数据体系结构。这些部落还致力于建立标准的、可重复的数据和特征工程过程,以支持为建模准备的高度精确的数据集的开发。这些敏捷的数据实践有助于加快新数据服务的上市时间。


3、投资 DataOps(enhanced DevOps for data),这有助于加速设计、开发和将新组件部署到数据体系结构中,这样团队就可以根据反馈快速实施和频繁更新解决方案。


4、创建一种数据文化,使员工渴望在其角色中使用和应用新的数据服务。实现这一点的一个基本工具是确保数据策略与业务目标相关联,并反映在最高管理层给组织的信号传递中,这有助于增强这项工作对业务团队的重要性。


随着数据、分析和人工智能越来越多地嵌入到大多数组织的日常运营中,很明显,创建和发展以数据为中心的企业需要一种完全不同的数据体系结构方法。那些接受这种新方法的数据和技术领导者将更好地定位他们的公司,使其在未来的任何事情上都具有敏捷性、弹性和竞争力,游刃有余!


文献来源:https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/how-to-build-a-data-architecture-to-drive-innovation-today-and-tomorrow

以下视频为麦肯锡对于未来世界数据分析的竞争认识

-->