你的位置:主页 > 皇冠体育手机版 >

数据虚拟化:为人工智能和机器学习解锁数据

2020-06-09 | 人围观

  在可靠性、准确性和性能方面,人工智能和机器学习都严重依赖于大型设备。因为数据池越大,你就越能对模型进行训练。这就是为什么重要的数据平台能够高效地处理不同的数据流和系统,而不管数据的结构(或缺乏)、数据速度或容量。

  然而,说比做容易。如今,每一个大数据平台都面临着这些系统性挑战:

  1.计算/存储重叠:传统来说,计算和存储从来没有被描绘过。随着数据量的增长,你必须在计算和存储方面进行投资。

  2.数据的不均匀访问:多年来,对业务操作和应用程序的过度依赖导致公司在不同的物理系统中获取、摄取和存储数据,比如文件系统、数据库(例如SQL Server或Oracle)、大数据系统(例如Hadoop)。这将导致不同的系统都有自己的访问数据的方法。

  3. 硬件绑定计算:你的数据在良好的存储模式下(例如SQL Server),但是需要几个小时才能执行查询,所以你的硬件会受到限制。

  4. 远程数据:数据要么分散在地理位置,要么使用不同的底层技术堆栈(如SQL Server、Oracle、Hadoop等),并存储在云中。这就要求原始数据在物理地移动以得到处理,从而增加网络的输入/输出成本。

  随着人工智能和机器学习的出现,战胜这些挑战已经成为一项商业任务。数据虚拟化是基于这个前提的。

  数据虚拟化提供了一些技术来使我们处理和访问数据的方式抽象化。它允许你管理和处理跨异构流和系统的数据,而不考虑它们的物理位置或格式。数据虚拟化可以定义为一组工具、技术和方法,它们可以让你访问并与数据进行交互,而不必担心其物理位置和计算所做的工作。例如,假设你有大量的数据分散在不同的系统中,并且希望以统一的方式查询所有数据,但前提是不能移动数据。

  在本文中,我们将介绍一些数据虚拟化技术,并说明它们如何使大数据的处理既简单又高效。

  数据虚拟化可以通过在Azure云上的高级分析栈的lambda架构师先来说明:

  图1:使用Azure平台服务的Lambda架构实现

  在大数据处理平台上,每秒会获取大量的数据,包括在休息和运动时的数据。然后在规范化的数据存储(例如Azure blob store)中收集这些大数据,然后进行清洗、分区、聚合,并为下游处理做好准备。下游处理的例子,比如机器学习、可视化、指示板报告生成等等。

  下游处理由SQL Server支持,并且基于用户的数量—当许多查询并行地执行竞争服务时,它就会超载。为了解决这样的超载场景,数据虚拟化提供了查询扩展,其中一部分计算被卸载到更强大的系统,如Hadoop集群。

  图1所示的另一个场景涉及在HDInsight(Hadoop)集群中运行的ETL过程。ETL转换可能需要访问存储在SQL Server中的引用数据。

标签:
Top