解决方案 | 如何构建大数据环境存储平台?
admin
2023-07-29 07:21:02
0


最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。

麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。

基于大数据理念及技术不断驱动业务创新,已经成为企业和组织构建核心竞争力的关键要素。


行业背景

大数据平台的基本任务就是对大量数据进行存储、计算、分析、挖掘处理,并最终形成价值。

因此,构建一套海量、高效、稳定、灵活并能够随业务和技术发展不断成长的数据存储系统,是大数据平台建设的重中之重

同时,大数据技术又广泛涉及众多热点 IT 技术,包括分布式计算、高并发处理、高可用处理、集群、实时性计算等,大数据平台存储系统的建设也必须充分考虑对以上技术及应用场景的有力支撑。

大数据平台存储系统的建设所面对的需求与挑战:

1、具备海量数据存储能力,并且能够按需灵活横向扩展至超大规模,以及时满足业务需求;

2、能够提供较高数据访问性能,为高密度数据采集以及批量数据高速读取分析等提供支持;

3、能够提供类型丰富的数据存储方式、存取访问接口,充分满足数据多样性的需求;

4、基于云计算技术构建大数据平台已经成为主流方向,数据存储系统需要提供良好支持;

5、具备良好的技术升级及功能扩展能力,以适应日新月异的技术发展;

6、具备一定的系统可用性及数据可靠性,有效保障数据资产安全;

7、具备经济性,能够帮助用户合理控制总体成本。

基于以上考虑,采用基于软件定义技术的分布式存储系统,是构建大数据平台的合理选择。


方案架构

本方案采用鹏云 ZettaStor 分布式存储产品,基于标准 x86 架构服务器硬件以及通用 IP 网络,以模块化的方式帮助用户快速构建基于分布式架构、高度可灵活横向扩展的统一存储资源池,为大数据平台提供存储资源服务。

ZettaStor 是一个软件定义的分布式存储系统软件。

只需部署在一组标准服务器上,就可以将这些服务器上的硬盘整合成统一存储资源池,业务系统通过 IP 网络就可方便获取存储资源,满足大数据平台各个环节对数据存储及访问处理的需求,有效降低总体成本。





解决方案架构


1、设备层

由一组标准 x86 架构服务器经 IP 网络互联构成。每台设备作为一个存储节点,其上部署 ZettaStor 存储软件。

2、存储资源层

由 ZettaStor 存储软件管理这些存储节点,将各节点所配置的内置硬盘整合成统一的存储资源池,基于副本或 EC(纠删码)技术实现故障冗余保护,并提供高速数据访问、灵活横向扩展、数据负载均衡等核心能力。

ZettaStor 系统可分别构建块存储文件存储、以及对象存储资源池,为大数据平台的各个环节提供数据存储支撑。其中:

  • 块存储资源池(基于标准 iSCSI 接口),一方面可以为承载大数据平台的云计算环境,包括虚拟机及容器等提供基础运行支持;另一方面还可以为各类结构化数据的采集、处理、分析等提供存储资源服务。
  • 文件存储资源池(基于 NFS/CIFS 接口)以及对象存储资源池(基于标准 S3/Swift 或 RESTful API 接口),为图片、音视频、文件数据库归档等非结构化数据的采集、处理、分析等提供存储资源服务。

3、计算资源池,是大数据平台的基础运行环境

ZettaStor 分布式存储系统可以与物理机、虚拟机或容器环境无缝对接,并提供存储资源服务。

4、大数据服务层

ZettaStor 分布式存储系统可以面向批量数据处理流式数据处理两类典型大数据流程提供全面的存储资源服务。


方案优势

1、业界领先的去中心化架构

领先的全对称分布式架构设计,基于类区块链的去中心化设计,消除了中心节点对系统规模、IO 性能、稳定性和可靠性等方面的种种限制和不利因素。

2、业界最大规模节点部署

支持上万节点规模部署,且始终保持系统的稳定性及高性能。容量和存储性能随存储节点增加线性增长,从而获得海量规模的支撑能力。

3、无感知故障恢复海量规模

在硬盘或节点故障时,能够立即由健康硬盘或节点接管任务,无需等待,也不会发生 IO 性能急剧下降或中断的情况,故障恢复时间<1 秒,业务无感知。

4、自主可控、安全可靠

完全自研,可兼容主流国产化硬件和操作系统,提供全国产化存储解决方案。


客户收益

1、随用随扩

系统规模随业务需求动态扩展,通过添加任意数量的 x86 服务器,只需两小时即可轻松实现按需不停机的扩容。同时,x86 服务器采购周期较短,实施容易,让扩容更为便利与快捷。

2、海量数据、高性能,满足超大规模大数据平台的存储需求

可扩展至数千节点,提供 EB 级存储容量,并聚合大量存储节点的处理能力,形成高并发、高吞吐量的 IO 访问性能,保障海量数据采集、高速批量数据读取/处理/分析等流程的流畅稳定运行。

3、集中存储,简化运维管理

标准 x86 服务器+IP 网络架构,集中统一存储,故障自愈,内置多种运维流程的图形化管理系统,大大降低运维复杂度,减少运行风险。

4、软硬件解耦,标准存储服务,广泛兼容

  • 提供丰富的标准数据访问接口,满足数据类型多样性需求。
  • 对系统部署的服务器品牌型号没有特殊要求,为用户系统的建设、设备选型、新技术的采用提供充分自由度。
  • 软件可在线升级,实现技术更新及功能拓展,帮助大数据平台快速应对技术发展并持续成长。

5、成本经济

存储系统采用低成本的 x86 服务器和 IP 网络作为构成部件,无厂家绑定。可显著降低建设成本、备件成本以及维护成本。


以上就是鹏云网络针对大数据环境存储的解决方案。

想了解更多可点击:鹏云网络大数据环境存储

相关内容