大数据变革需要考虑的关键性问题
|
1. 从本地数据平台到基于云的数据平台 云可能是一种全新的数据架构方法的很具颠覆性的推动力,因为它为公司提供了一种快速扩展人工智能工具和功能以获取竞争优势的方法。亚马逊(Amazon Web Services)、谷歌(Google Cloud Platform)和微软(Microsoft Azure)等主要云提供商已经彻底改变了各大组织大规模采购,部署和运行数据基础设施、平台和应用程序的方式。 例如,有一家公用事业服务公司将基于云的数据平台与容器技术相结合,该技术用微服务(例如搜索账单数据或向帐户添加各种新属性)将应用程序功能模块化。这使公司能够在几天(而不是几个月)的时间内向大约100000个业务客户部署新的自助式服务功能,为最终用户提供大量的实时库存和交易数据以进行分析并通过在云中(而不是在更昂贵的本地旧系统上)“缓冲”交易来降低成本。 管用的概念和组件
2. 从批处理到实时数据处理 实时数据通信和流媒体功能的成本已大大降低,这为其主流使用铺平了道路。这些技术实现了一系列新的业务应用:例如,运输公司可以在出租车到达时向客户提供精确到秒的抵达时间预测;保险公司可以分析来自智能设备的实时行为数据,从而将费率客制化;而且制造商可以根据实时的传感器数据来预测基础设施方面的各种问题。 订阅机制等实时流媒体功能使数据消费者(包括数据集市和数据驱动的员工)可以订阅各种“主题”,以便他们可以获取所需交易的持续更新。通用数据湖通常充当此类服务的“大脑”,它保留了所有细粒度的事务。 管用的概念和组件
3. 从预集成的商业解决方案到模块化的同类最佳平台 为了扩展应用程序的规模,公司往往需要冲破大型解决方案供应商所提供的遗留数据生态系统的限制。现在,许多公司正朝着高度模块化的数据架构发展,这种架构使用了最佳的,经常使用的开源组件,这些组件可以根据需要被新技术替换而不会影响数据架构的其他部分。 前面提到的那家公用事业服务公司正在向这种方法过渡,从而快速向数百万客户提供新的,以数据为主的各种数字化服务并大规模地接入基于云的各种应用程序。例如,该公司每天都会准确地显示客户的能源消耗和比较了同侪消费的实时的分析洞察。该公司建立了一个独立的数据层,该数据层包含各种商业数据库和开源组件。数据通过专有的企业服务总线与后端系统同步,而托管在容器中的各个微服务在数据中运行业务逻辑。 管用的概念和组件
4. 从点对点到脱离数据访问 人们可以通过API来揭露数据,这样可以确保直接查看和修改数据的做法是受限且安全的,同时还可以让人们更快地访问常见的数据集。这使得数据可以在团队之间轻松得到重用(reused),从而加速访问并实现分析团队之间的无缝协作,从而可以更高效地开发各种人工智能用例。 例如,有一家制药公司正在通过API为所有员工创建内部“数据市场”,以简化和标准化对核心数据资产的使用,而不是依赖各种专有接口。该公司将在18个月内逐步将其最有价值的现有数据馈送(data feed)迁移到基于API的结构中,同时部署API管理平台以向用户展示各种API。 管用的概念和组件
5. 从企业仓库到基于域的架构 许多负责数据架构的领导者已经从中央企业数据湖转向“域驱动”的设计,这些设计可以定制并“合乎某个目的”,从而缩短新的数据产品和服务的上市时间。由于用了这种方法,虽然数据集可能仍驻留在相同的物理平台上,但每个业务领域(例如,市场营销,销售,制造等)中的“产品负责人”的任务就是以易于使用的方式来组织数据集,使其既适用于域内的用户,也适用于其他业务域中的下游数据使用者。这种方法需要谨慎地权衡,以免变得支离破碎和效率低下,但是它可以减少在数据湖中创建新数据模型所需的时间(通常从数月缩短至数天),在反映联合业务结构或遵守数据移动性的法规限制时,它可以是一种更简单有效的选择。 有一家欧洲电信提供商使用了分布式的基于域的架构,因此销售和运营人员可以将客户、订单和账单等数据提供给数据科学家用于人工智能模型或直接通过数字渠道提供给客户。该公司部署了由公司销售和运营团队中的产品负责人管理的各种逻辑平台,而不是创建一个中心化的数据平台。该公司还激励产品负责人使用数据进行分析并使用数字渠道、论坛和黑客马拉松来推动采用。 管用的概念和组件
6. 从严格的数据模型到灵活的,可扩展的数据模式 来自软件供应商的预定义数据模型和满足特定业务智能需求的专有数据模型往往都创建于高度标准化的架构(schema)中,这些架构具有固定的数据库表和数据元素,从而很大程度地减少冗余。尽管此方法仍然是数据报送和以法规为中心的用例的标准,但它也要求组织在合并新的数据元素或数据源时经历漫长的开发周期并具备丰富的系统知识,因为任何更改都可能影响数据的完整性。
为了在研究数据或支持高级分析时获得更大的灵活性和强大的竞争优势,公司正朝着“架构简化(schema-light)”的方法发展,它们使用物理表较少的非规范化数据模型来组织数据以实现优质性能。这种方法好处颇多——灵活的数据探索,更灵活地存储结构化和非结构化数据以及降低复杂性,因为数据领导者不再需要引入其它抽象层(例如高度规范化的表之间的多个“联接”)来查询关系数据。 (编辑:开发网_郴州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |



浙公网安备 33038102330466号