大数据变革需要考虑的关键性问题

发布时间：2021-05-17 10:52:28 所属栏目：大数据来源：互联网

导读：1. 从本地数据平台到基于云的数据平台云可能是一种全新的数据架构方法的很具颠覆性的推动力，因为它为公司提供了一种快速扩展人工智能工具和功能以获取竞争优势的方法。亚马逊(Amazon Web Services)、谷歌(Google Cloud Platform)和微软(Microsoft Azure)等

1. 从本地数据平台到基于云的数据平台

云可能是一种全新的数据架构方法的很具颠覆性的推动力，因为它为公司提供了一种快速扩展人工智能工具和功能以获取竞争优势的方法。亚马逊(Amazon Web Services)、谷歌(Google Cloud Platform)和微软(Microsoft Azure)等主要云提供商已经彻底改变了各大组织大规模采购，部署和运行数据基础设施、平台和应用程序的方式。

例如，有一家公用事业服务公司将基于云的数据平台与容器技术相结合，该技术用微服务(例如搜索账单数据或向帐户添加各种新属性)将应用程序功能模块化。这使公司能够在几天(而不是几个月)的时间内向大约100000个业务客户部署新的自助式服务功能，为最终用户提供大量的实时库存和交易数据以进行分析并通过在云中(而不是在更昂贵的本地旧系统上)“缓冲”交易来降低成本。

管用的概念和组件

无服务器数据平台(如Amazon S3和Google BigQuery)使组织可以无限地创建和运行以数据为主的各种应用程序，而无需安装和配置解决方案或管理工作负载。此类产品可以降低专业门槛，将部署时间从数周缩短至几分钟，而且几乎没有产生任何运营开销。
由于使用了Kubernetes的容器化数据解决方案(可通过云提供商以及开放源代码获得，并且可以快速集成和部署)，公司能够脱离其他计算能力和数据存储系统的部署并将这项工作自动化。此功能可以确保设置高度复杂的数据平台(例如，将数据从一个应用程序会话保留到另一个应用程序会话所需的数据平台，以及具有复杂备份和恢复要求的数据平台)可以扩展以满足需求，因此它特别有用。

2. 从批处理到实时数据处理

实时数据通信和流媒体功能的成本已大大降低，这为其主流使用铺平了道路。这些技术实现了一系列新的业务应用：例如，运输公司可以在出租车到达时向客户提供精确到秒的抵达时间预测;保险公司可以分析来自智能设备的实时行为数据，从而将费率客制化;而且制造商可以根据实时的传感器数据来预测基础设施方面的各种问题。

订阅机制等实时流媒体功能使数据消费者(包括数据集市和数据驱动的员工)可以订阅各种“主题”，以便他们可以获取所需交易的持续更新。通用数据湖通常充当此类服务的“大脑”，它保留了所有细粒度的事务。

管用的概念和组件

Apache Kafka之类的消息通信平台提供了完全可扩展，持久且具备容错能力的发布/订阅服务，该服务每秒可以处理和存储数百万条消息，以供立即使用或以后使用。与传统的企业通信队列相比，这可以支持实时用例，绕过现有的基于批处理的解决方案并且占用的空间更少(占用的成本基础也更少)。
流处理和分析解决方案(例如Apache Kafka流、Apache Flume、Apache Storm和Apache Spark流)实现了实时对消息进行直接的分析。该分析可以基于规则，也可以包括高级分析，从而在数据中提取事件或信号。分析往往会整合众多历史数据以比较各种模式，这在推荐和预测引擎中尤其重要。
Graphite或Splunk之类的警报平台可以向用户触发各种业务操作，例如，如果销售代表没有达到每天的销售目标，那么他们就会得到通知，或者将这些操作集成到可能运行于ERP或CRM的现有流程中。

3. 从预集成的商业解决方案到模块化的同类最佳平台

为了扩展应用程序的规模，公司往往需要冲破大型解决方案供应商所提供的遗留数据生态系统的限制。现在，许多公司正朝着高度模块化的数据架构发展，这种架构使用了最佳的，经常使用的开源组件，这些组件可以根据需要被新技术替换而不会影响数据架构的其他部分。

前面提到的那家公用事业服务公司正在向这种方法过渡，从而快速向数百万客户提供新的，以数据为主的各种数字化服务并大规模地接入基于云的各种应用程序。例如，该公司每天都会准确地显示客户的能源消耗和比较了同侪消费的实时的分析洞察。该公司建立了一个独立的数据层，该数据层包含各种商业数据库和开源组件。数据通过专有的企业服务总线与后端系统同步，而托管在容器中的各个微服务在数据中运行业务逻辑。

管用的概念和组件

数据管道和基于API的接口简化了不同工具和平台之间的集成，其方法是使数据团队免受不同层的复杂性的困扰，缩短产品上市时间并减少在现有应用程序中引起新问题的机会。当需求发生变化是，这些接口还使单个组件更容易更换。
Amazon Sagemaker和Kubeflow等分析工作台可简化高度模块化架构中的端到端解决方案的创建。这样的工具可以与各种各样的基础数据库和服务连接并使高度模块化的设计成为现实。

4. 从点对点到脱离数据访问

人们可以通过API来揭露数据，这样可以确保直接查看和修改数据的做法是受限且安全的，同时还可以让人们更快地访问常见的数据集。这使得数据可以在团队之间轻松得到重用(reused)，从而加速访问并实现分析团队之间的无缝协作，从而可以更高效地开发各种人工智能用例。

例如，有一家制药公司正在通过API为所有员工创建内部“数据市场”，以简化和标准化对核心数据资产的使用，而不是依赖各种专有接口。该公司将在18个月内逐步将其最有价值的现有数据馈送(data feed)迁移到基于API的结构中，同时部署API管理平台以向用户展示各种API。

管用的概念和组件

企业必须创建一个API管理平台(通常称为API网关)以创建和发布以数据为主的API，实施使用策略，控制访问并衡量使用情况和性能。该平台还可以让开发人员和用户搜索现有数据接口并重用这些接口，而不是创建新的数据接口。API网关通常作为数据中心内的单独区域而被嵌入，但它也可以作为中心外的独立功能开发。
企业往往需要一个数据平台来“缓冲”核心系统之外的各种事务。这样的缓冲区可以由数据湖之类的中央数据平台或在分布式数据网格中提供，这个分布式数据网格是一个生态系统，它由为每个业务域的预期数据的使用情况和负载创建的最佳平台(包括数据湖、数据仓库等)组成。例如，有一家银行创建了一个纵列数据库(columnar database)，以便直接向线上银行和移动银行应用程序提供客户信息(例如最近的金融交易)并减少大型机上昂贵的工作量。

5. 从企业仓库到基于域的架构

许多负责数据架构的领导者已经从中央企业数据湖转向“域驱动”的设计，这些设计可以定制并“合乎某个目的”，从而缩短新的数据产品和服务的上市时间。由于用了这种方法，虽然数据集可能仍驻留在相同的物理平台上，但每个业务领域(例如，市场营销，销售，制造等)中的“产品负责人”的任务就是以易于使用的方式来组织数据集，使其既适用于域内的用户，也适用于其他业务域中的下游数据使用者。这种方法需要谨慎地权衡，以免变得支离破碎和效率低下，但是它可以减少在数据湖中创建新数据模型所需的时间(通常从数月缩短至数天)，在反映联合业务结构或遵守数据移动性的法规限制时，它可以是一种更简单有效的选择。

有一家欧洲电信提供商使用了分布式的基于域的架构，因此销售和运营人员可以将客户、订单和账单等数据提供给数据科学家用于人工智能模型或直接通过数字渠道提供给客户。该公司部署了由公司销售和运营团队中的产品负责人管理的各种逻辑平台，而不是创建一个中心化的数据平台。该公司还激励产品负责人使用数据进行分析并使用数字渠道、论坛和黑客马拉松来推动采用。

管用的概念和组件

作为平台的数据基础设施提供了用于存储和管理的一系列通用工具和功能，以加快实施速度并使数据生产者不必创建自己的数据资产平台。
数据虚拟化技术始于客户数据之类的小众领域，这些技术如今已为各大企业所采用，以此来管理人们对分布式数据资产的使用并将分布式数据资产整合进来。
即便企业没有获得完全访问权或没有做好充分准备，数据编目工具也能让企业搜索和研究数据。该目录通常还提供元数据定义和端到端接口，以简化对数据资产的访问。

6. 从严格的数据模型到灵活的，可扩展的数据模式

来自软件供应商的预定义数据模型和满足特定业务智能需求的专有数据模型往往都创建于高度标准化的架构(schema)中，这些架构具有固定的数据库表和数据元素，从而很大程度地减少冗余。尽管此方法仍然是数据报送和以法规为中心的用例的标准，但它也要求组织在合并新的数据元素或数据源时经历漫长的开发周期并具备丰富的系统知识，因为任何更改都可能影响数据的完整性。

为了在研究数据或支持高级分析时获得更大的灵活性和强大的竞争优势，公司正朝着“架构简化(schema-light)”的方法发展，它们使用物理表较少的非规范化数据模型来组织数据以实现优质性能。这种方法好处颇多——灵活的数据探索，更灵活地存储结构化和非结构化数据以及降低复杂性，因为数据领导者不再需要引入其它抽象层(例如高度规范化的表之间的多个“联接”)来查询关系数据。

（编辑：开发网_郴州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

成功实行数据迁移的策	如何使用Google Cloud
实施合理的数据收集战	2022年优质预测分析工