加入收藏 | 设为首页 | 会员中心 | 我要投稿 开发网_郴州站长网 (http://www.0735zz.com/)- 云通信、区块链、物联设备、云计算、站长网!
当前位置: 首页 > 大数据 > 正文

机器学习可以大规模分析数据

发布时间:2021-05-13 17:54:09 所属栏目:大数据 来源:互联网
导读:如今,并不缺乏针对数据沼泽问题的建议解决方案。许多科技公司正在推出或更新其原始产品。然而,Stonebraker指出,这些系统中通常使用的主要技术存在关键缺陷。这些传统技术包括ETL(提

如今,并不缺乏针对数据沼泽问题的建议解决方案。许多科技公司正在推出或更新其原始产品。然而,Stonebraker指出,这些系统中通常使用的主要技术存在关键缺陷。这些传统技术包括ETL(提取、转换、加载)系统和主数据管理系统。但其缺点是不能扩展。
 
ETL基于这样一个前提:明智的企业会为用户想要的所有数据源提供全局数据模型。然后让每个业务部门查看他们获得了哪些数据,如何在全局数据模型中获取数据,将其加载到数据仓库中等等。Stonebraker表示,人工密集型流程往往无法扩展。他们通常会在数据仓库中集成10或20个数据源。
 
那么这些数据足够吗?以现实世界中的一家公司为例。TAMR公司的客户丰田汽车欧洲(TME)公司在各国都有经销商。如果有人在西班牙买了一辆丰田汽车,然后将其开到法国,那么其在法国的经销商对此一无所知。
 
总的来说,丰田汽车欧洲(TME)公司拥有250个独立的客户数据库,拥有使用50种语言的4000万条记录。该公司正在将它们集成到单个客户数据库中,以解决此客户的服务问题。机器学习提供了一种合理的方法来实现这一目标。Stonebraker说,“我从未见过能够处理这种规模的ETL系统。”
 
Stonebraker解释说,主数据管理(MDM)无法扩展的原因主要是因为它是基于规则的。通用电气公司是Tamr公司的另一家客户,希望对其交易支出进行分析,该公司在去年有2000万笔交易支出,希望将所有这些分类为基于规则的层次结构。
 
“所以通用电气公司制定了500条规则,只采用了18条规则就将2000万笔交易中的200万笔进行了分类,但其余的400多条规则并不会像那18条规则那样更快地进行分类。”
 
他指出,这是收益递减规律。他说,“企业将不得不写出大量无法理解的规则,如果不使用机器学习技术,那么将会不堪重负。”
 
Stonebraker承认,机器学习技术不是万能的。真正的数据驱动需要技术和文化的调整。事实上,据NewVantage Partners 公司的一项研究,77%的受访企业高管表示,尽管有大量新软件涌入市场,他们的组织很难采用大数据/人工智能计划。但这比去年的调查有所增加。这些高管列举了采用机器学习的一些障碍,其中95%是文化或组织方面的障碍,而不是技术方面的障碍。Gartner公司分析师NickHeudecker说:“企业需要为此制定一个计划,但大多数公司不会把大数据技术进行计划和处理。”
 

(编辑:开发网_郴州站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读