华为软件定义存储架构分析
明 亮
华为技术有限公司
2014-9-16
目录
华为软件定义存储相关技术
华为对云计算的理解
华为对软件定义存储理解
1
2
3
华为分布式存储介绍4
软件定义计算 软件定义存储 软件定义网络
云服务与调度管理
Oracle RAC
HANA / Sybase IQ
Hadoop/Hbase批处理 DB2
SQL Server
云基础设施层
IAAS
大数据层
物理资源
MPP DBStreaming流处理
MPP RDB
非结构化、半结构化大数据 结构化大数据
Huawei
Cloud OS
2P服务器 4P服务器 8P 服务器
SAN/NAS存储
…
企业IT向云计算架构演进
My SQL/PG-SQL
…
云计算机(Cloud Computer)的内涵
历史总永远是在螺旋式前进的,“云计算机”看似大型机,但绝非简单回到了大型机时代:
Scale-up Scale-out:规模更大,成本更低
硬件定义 软件定义:使用灵活,生态链繁荣
硬件冗余保证可靠性 分布式软件保证可靠性:灵活,跨地理位置
专线接入 互联网接入
目录
华为软件定义存储相关技术
华为对云计算的理解
华为对软件定义存储理解
1
2
3
华为分布式存储介绍4
云计算对传统存储的挑战
SAN NAS
App App App
SAN NAS
Hypervisor(vSphere, KVM)
VM VM VM VM
Virtualization
LUN数量有限,存储不感知VM
LUN配置复杂,修改配置困难
多VM运行同一个LUN,存在IO blending问题
如何解决?
扩展困难
创建VM:2分钟
为VM配置网络、存储:5天
时间都去哪儿了?
用户需要什么?
Give me a
VM for VDI
自动化管
理界面
计算资源
网络资源
存储资源
Here is
your VM
如何做到? SDDC
SDC:软件定义计算
SDN:软件定义网络
SDS:软件定义存储
什么是软件定义存储?
兼容任意硬件:包括通用硬件和专用存储设备
各种存储资源统一池化,自动化管理
自助式的用户服务接口
策略驱动存储,提供SLA保障
策略驱动的控制平面(Policy driven)
APP-centric Data service
Virtualized Data Plane
SAN/NAS SSD阵列 Object Scale-out
DAS
Software Defined Storage
Storage
Data Plane
Hypervisor(vSphere, KVM)
VM VM VM VM
Software defined Storage
目录
华为软件定义存储相关技术
华为对云计算的理解
华为对软件定义存储理解
1
2
3
华为分布式存储介绍4
统一的策略驱动的存储控制平面
业界主流的存储管理平台
Vmware vcenter
EMC:Vipr
IBM:SVC
Openstack:Cinder
Cinder: 华为SDS controller
活跃的社区,完善的
生态系统,促使我们
选择了Openstack
Openstack Gold member
Huawei
Oceanstor driver
Huawei
Fusionstorage driver
Huawei
Storhyper driver
Cinder架构
Cinder API:统一的卷管理接口
Cinder schuduler:基于策略的存储资源调度
Cinder volume:接入不同存储厂商的driver
Ceph driver
Cinder-volume
EMC driver
Cinder-volume
Huawei
storhyper driver
Cinder-volume
各个driver之间无
法互通?
华为SDS数据面当前架构
Huawei
FusionStorage driver
Cinder-volume
Oceanstor driver
Cinder-volume
Huawei
storhyper driver
Cinder-volume
Huawei OceanStor
系列——阵列产品
Huawei FusionCube系列
——Scale-out DAS产品
第三方SAN/NAS设备,
哑设备
管理面上通过Cinder提供统一接口
数据面的能力依然参差不齐
各个产品之间特性重叠
整个SDS数据面不够开放
Huawei SDS
华为SDS目标架构
Huawei
FusionStorage driver
Cinder-volume
Oceanstor driver
Cinder-volume
Huawei
storhyper driver
Cinder-volume
Huawei OceanStor
系列——阵列产品
Huawei FusionCube系列
——Scale-out DAS产品
第三方SAN/NAS设备,
哑设备
提供统一的以APP为中心的数据服务
APP-centric Data service(QoS,Cache, thin-provision, snapshot etc.)
Policy-Driven Cinder API
提供跨异构存储设备的数据服务
将整个数据服务框架开放到社区
数据服务不依赖任何设备提供商
华为SDS数据服务
APP-centric Data service
APP-centric Data service
APP-centric QoS Service
APP-centric Cache Service
APP-centric thin-provision Service
以堆叠的形式提供数据服务
接口开放,可使用第三方数据服务
所有的数据服务提供App粒度的策略管理
The third
data service
VM/APP可配置QoS要求:带宽,IOPS,延迟
VM/APP可配置Cache需求:介质,容量,算法,可靠性
VM/APP可配置瘦分配需求:总容量,预留容量
如何编排各种数据服务,以满足APP的需求,是
个巨大的挑战!
华为Data service——QoS服务
VM VM
SAN NAS
vDisk
FC/iSCSI Object
对象存储
NFS
……
vDisk vDisk
VM
vDisk vDisk
VM
vDisk vDisk
VM
vDisk vDisk
VM
vDisk vDisk
Host1 Host2 Host3 Host4 Host5 Hostn
分布式流控
分布式调度
智能资源调整 智能资源调整 智能资源调整 智能资源调整 智能资源调整 智能资源调整
Policy1
MIN IOPS: 1000
APP1
Policy2
MIN IOPS: 1000 MAX IOPS:3000 Burst IOPS:5000
MIN MBPS: 10 MAX MBPS:50 Burst MBPS:70
Policy3
MAX IOPS: 5000
APP2
APP3 APP4
通过分布式流控、分布式调度和智能资源调整技术,实现按策略组进行流量控制、流量保障
和系统资源最大化利用。
华为Data service——Cache服务
Device manager Device manager Device manger
SSD Pool SSD Pool SSD Pool
Cache manager
vSSD vSSD vSSD vSSD vSSD vSSD vSSD vSSD vSSD
Cache manager Cache manager
Replication Replication Replication
policy
policy
policy
VM VM VM VM VM VM VM VM VM
Storage System
华为Data service——Cache服务
• 提出SSD blending问题
SSD
SAN NAS Object
VM
所有APP的SSD cache交织在一起,无法充
分发挥SSD的价值
云数据中心应用众多,特征不一,必须要
解决好SSD blending的问题
Host1
VM VM
SSD
VM
Host2
VM VM
SSD
SAN NAS Object
VM VM VM
SSD
VM VM VM
 解决SSD blending问题
每个vSSD的容量,Cache算法,块大小,刷盘方
式,等根据应用特征配置
所有的vSSD共用集群中所有的SSD硬件
用最小的SSD成本,满足所有APP的Qos要求
vSSD vSSD vSSD vSSD vSSD vSSD
华为Data service——瘦分配服务
接入没有瘦分配能力的存储LUN
将这些LUN空间统一池化
提供瘦分配服务
分布式的元数据管
理,强大的扩展性
目录
华为软件定义存储相关技术
华为对云计算的理解
华为对软件定义存储理解
1
2
3
华为分布式存储介绍4
…
iSCSI/FC
协议层
存储层
…
NFS/CIFS/Posix
…
文件
系统 Object
对象
系统
对象
Key
元数据
数据
用户自定义
元数据
HTTP/REST/SOAP/S3
块存储
直接访问,开销最小,效率
最高
成本最高
场景:企业数据库,Oracle,
VM存储等
文件存储
更易管理,更易与应用对接
场景:HPC,媒资,企业内
部应用整合,文件共享等
对象存储
结构扁平,近乎无限的容量扩展
更加智能的自管理特性
业界标准互联网协议,跨地域传输能力
场景:面向互联网服务的存储,归档、备
份等
Object
Object
Object
Object
分布式存储对外接口
分布式对象存储UDS(1)
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
数据流
SmartDisk
SmartDisk
接入节点
存储节点 P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
P19 P26
P5 P12
全系统去中心:元数据分散
存储,消除系统中单点瓶颈
小颗粒存储单元:每片硬盘
带一颗处理器,最大程度降
低硬盘之间影响
文件 物理存储节点
A
P00,P12,P24,P3
6,P48,P60
B
P03,P15,P27,P3
9,P51,P63
… ……
元数据
节点
一般寻址方式
映射关系表
P00 P01 PXX
……
UDS:基于算法寻址
接入
节点
内置算法,通
过运算确定存
储节点位置
……
对一般寻址方式,随着
数据增加,元数据节点
可能成为扩展瓶颈
对UDS,寻址计算量不
随数据量增长而变化,
更易扩展
读写请求读写请求
分布式对象存储UDS(2)
故障自动检测 多节点并行加速恢复分片、分散式存储
恢复速度提高2
倍以上,降低
恢复期业务影响
对象1:
对象2:
数据块 校验块
对象3:
分布式对象存储UDS(3)
分布式块存储FusionStorage(1)
App App App App App App
计算网络(10GE)
Server2 Server3Server1
Cache
HDD
SSD
FusionStorage分布式一体化存储
主要特点
• 水平扩展、超大容量:分布式系统,无管理机
头瓶颈,容量几乎不受限制
• 高IOPS:应用大容量Cache技术,提升IOPS
• 低时延:应用程序通过Cache/SSD直达存储,
时延更低
• 数据重建快:并行重建,重建数据量小
• 管理简单:结构简单带来管理简单
Cache
HDD
SSD
Cache
HDD
SSD
资源池类似于SAN的RAID组概念,与RAID相比,其优点是:
• 大容量: 最大96块盘,提升超大存储空间,避免高IO应用导致热点瓶颈
• 动态热备:所有硬盘都可用作资源池的热备盘
简单结构:资源池、Volume二层结构,没有LUN结构,服务器直接看到Volume。
…
P1 P2 P3 Px
P1 P2 P3 Py
P1 P2 P3 Pz
资源池1
Disk
资源池2
资源池3
… …
… …
DiskDiskDiskDiskDisk
Volume Volume Volume Volume Volume…
Server Server
Server
分布式块存储FusionStorage(2)
分布式块存储FusionStorage(3)
MDC
MDC
MDC
OSD OSD
client client
OSD OSD OSD OSD OSD OSD OSD
client client
PAXOS status layer
RSM data layer
Stateless interface layer
Driver…
Viewstamped protocol : ordered request for strong consistency
State transfer to catch up befor rejoin
Fail stop (F+1 replica tolerant F failure)
状态视图
状态视图
 MDC: 集群状态视图控制
 OSD: 数据分布、复制和重建
 Client/Driver: 无状态的块接口映射
iSCSI…
全分布式的软件架构,无状态机头,使得整个系统可以线性、横向扩展
SAS/SATACPU、NVDIMM
硬件
设备层
存储
引擎层
PAXOS状态视图
控制
强一致性
复制协议
存储
服务层
备份
分布式Cache
分布式Linked Clone
存储
驱动层
SCSI驱动/iSCSI
DHT数据分布 并行数据重建
集群故
障自愈
分布式Snapshot
分布式Thin provisioning 虚拟机
批量部
署
Driver/ISCSI
VBS
Client
RSM
Snapshot
Cache
VDB
TCP
DiskManager
IB
OSCA
分布式块存储FusionStorage(4)
分布式文件系统OceanStor 9000(1)
检索查询 数据分析
HPC视频监控
应用层
硬件节点层
媒体与娱乐
Node
分布式数据库
WushanSQL
企业级Hadoop
FusionInsight Hadoop
数据处理层
NFS CIFS HDFS
SQL MR/Hbase
Node Node Node Node Node Node Node
分布式文件系统
WushanFS
归档
Node Node
话单查询 精准营销上网行为分析 商业推广
文件
Disk
Disk
Disk
…
Disk
Disk
Disk
…
Disk
Disk
Disk
…
Disk
Disk
Disk
…
Disk
Disk
Disk
…
源数据
分片
源数据
分片
源数据
分片
冗余数
据分片
冗余数
据分片
文件数据
节点1 节点2 节点3 节点4 节点5
图示以3份数据切片2份冗余切片存储在5个节点上举例
文件数据被切成N(例如3)个数据分片另外
再计算出M(例如2)个冗余分片
N取值范围:2-16
M取值范围:1-4
 数据分片写到不同的节点上,不
仅可以提高读写性能,又能保证
数据的高可靠性和服务的高可用
性,还能保持高的磁盘利用率,
节约投资
 在OceanStor 9000集群节点中,
任意不超过M(冗余份数)个硬
盘故障后,系统都可以通过节点
间数据重构的方式快速恢复出所
损失的数据,进而恢复整系统的
数据可靠性
 系统中任意可用空间都可以作为
“热备”空间使用,解决了传统
RAID的热备盘问题,进一步提
高了存储利用率
分布式文件系统OceanStor 9000(2)
节点间分布式RAID存储
故障
节点1 节点2 节点3 节点4 节点5 节点6
硬盘1
硬盘2
硬盘3
硬盘n
……
硬盘1
硬盘2
硬盘3
硬盘n
……
硬盘1
硬盘2
硬盘3
硬盘n
……
硬盘1
硬盘2
硬盘3
硬盘n
……
硬盘1
硬盘2
硬盘3
硬盘n
……
硬盘1
硬盘2
硬盘3
硬盘n
……
 系统中每个硬盘都属于多个NLUN,实际系统中,一个盘所属的的NLUN数将超过12个
 以图中节点3硬盘2为例,同时属于4个NLUN(四个不同色块),当这个盘故障时,会选出4个目
标盘出来进行恢复(放大的四个),数据会分别在4个目标盘上被恢复出来
 由于每个目标盘的恢复是独立的,目标盘之间的恢复可以并发,所以恢复速度较高(阵列中类似
的故障下目标盘只有一个),最高可达1TB/hr
分布式文件系统OceanStor 9000(3)
快速数据恢复
Thank You!

More Related Content

PPTX
FIT2CLOUD:云管理及DevOps协作平台
PDF
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
PDF
Oracle 全方位云解决方案概要
PPTX
Memcached vs redis
PPTX
賽門鐵克 Storage Foundation 6.0 簡報
PPTX
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
PDF
美团技术沙龙04 - Kv Tair best practise
PDF
Hybrid Cloud Based on Ceph Object Storage - ShanChun
FIT2CLOUD:云管理及DevOps协作平台
构建企业私有云、开启服务新里程——基于Dcos的PAAS实践
Oracle 全方位云解决方案概要
Memcached vs redis
賽門鐵克 Storage Foundation 6.0 簡報
20141128(刘胜)UTC2014分布式和云服务的思考与实践——支付清算行业分布式架构的探索
美团技术沙龙04 - Kv Tair best practise
Hybrid Cloud Based on Ceph Object Storage - ShanChun

What's hot (16)

PDF
Operation and Maintenance of Large-Scale All-Flash Memory Ceph Storage Cluste...
PDF
美团点评技术沙龙14:美团四层负载均衡
PDF
Databases on AWS
PDF
淘宝软件基础设施构建实践
PDF
今日如何建立一个安全的私有云
PDF
阿里云技术实践
PDF
Micro service
PDF
利用统一存储获得无与伦比的速度,简化系统,并节省更多
PDF
20220224台中演講k8s
PDF
Redis运维之道
PPTX
FIT2CLOUD - 打造自己的持续交付平台
PDF
Taobao图片存储与cdn系统到服务
PDF
Oracle 数据库一体机ODA X5-2 产品介绍.PDF
PDF
美团点评技术沙龙14美团云-Docker平台
PDF
美团点评技术沙龙010-点评RDS系统介绍
PPTX
Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)
Operation and Maintenance of Large-Scale All-Flash Memory Ceph Storage Cluste...
美团点评技术沙龙14:美团四层负载均衡
Databases on AWS
淘宝软件基础设施构建实践
今日如何建立一个安全的私有云
阿里云技术实践
Micro service
利用统一存储获得无与伦比的速度,简化系统,并节省更多
20220224台中演講k8s
Redis运维之道
FIT2CLOUD - 打造自己的持续交付平台
Taobao图片存储与cdn系统到服务
Oracle 数据库一体机ODA X5-2 产品介绍.PDF
美团点评技术沙龙14美团云-Docker平台
美团点评技术沙龙010-点评RDS系统介绍
Microsoft Azure 虛擬機器與虛擬網路 (2014-4-2 雲端達人班)
Ad

Viewers also liked (20)

PPTX
Jim Dowling - Multi-tenant Flink-as-a-Service on YARN
ODP
结构化数据存储
PDF
融合存储技术
PDF
软件定义存储
PDF
Fast2016 liang ming-converged_storage_technology-final (1)
PDF
下一代虚拟存储解决方案:Vaai
PPT
Emc存储培训
PPT
开源混合存储方案(Flashcache)
PPT
分布式构架简介 草稿
PPTX
Tachyon 2015 08 China
PDF
Choosing a Next Gen Database: the New World Order of NoSQL, NewSQL, and MySQL
PDF
关系数据库存储树形结构数据的理想实践 20100222
PPTX
Big Data, NoSQL, NewSQL & The Future of Data Management
PDF
Persona & Scenarios for Baidu Cloud - By Vanbin Fan 2012.12.25
PDF
NewSQL Database Overview
PPTX
My SQL and Ceph: Head-to-Head Performance Lab
PDF
NewSQL overview, Feb 2015
PPTX
What you need to know about ceph
PPTX
MySQL vs. NoSQL and NewSQL - survey results
PPTX
Suneel Marthi - Deep Learning with Apache Flink and DL4J
Jim Dowling - Multi-tenant Flink-as-a-Service on YARN
结构化数据存储
融合存储技术
软件定义存储
Fast2016 liang ming-converged_storage_technology-final (1)
下一代虚拟存储解决方案:Vaai
Emc存储培训
开源混合存储方案(Flashcache)
分布式构架简介 草稿
Tachyon 2015 08 China
Choosing a Next Gen Database: the New World Order of NoSQL, NewSQL, and MySQL
关系数据库存储树形结构数据的理想实践 20100222
Big Data, NoSQL, NewSQL & The Future of Data Management
Persona & Scenarios for Baidu Cloud - By Vanbin Fan 2012.12.25
NewSQL Database Overview
My SQL and Ceph: Head-to-Head Performance Lab
NewSQL overview, Feb 2015
What you need to know about ceph
MySQL vs. NoSQL and NewSQL - survey results
Suneel Marthi - Deep Learning with Apache Flink and DL4J
Ad

Similar to 华为软件定义存储架构分析 (20)

PDF
云计算与开源 刘黎明 世纪互联
PDF
阿里云产品线资深总监-云原生中间件重磅发布—全面迎接 Serverless 时代
PPTX
Accelerate Database as a Service(DBaaS) in Cloud era
PPTX
hicloud PaaS雲創平台(Java/PHP介紹)
PPTX
浅析分布式存储架构—设计自己的存储- 58同城徐振华
PDF
Hadoop development in China Mobile Research Institute
PDF
雲端運算簡介
PPT
Hadoop 與 SQL 的甜蜜連結
PDF
Hp云管理平台3.0
PPT
Paas研究介绍
PDF
零到千万可扩展架构 AWS Architecture Overview
PPTX
應用Ceph技術打造軟體定義儲存新局
ODP
雲端技術的新趨勢
PPT
淘宝Java中间件之路 it168
PDF
Open stack swift
PDF
Baidu Cloud Foundry
PDF
選擇正確的Solution 來建置現代化的雲端資料倉儲
PDF
RockStor - A Cloud Object System based on Hadoop
PPTX
PDF
Etu DW Offload 解放資料倉儲的運算效能
云计算与开源 刘黎明 世纪互联
阿里云产品线资深总监-云原生中间件重磅发布—全面迎接 Serverless 时代
Accelerate Database as a Service(DBaaS) in Cloud era
hicloud PaaS雲創平台(Java/PHP介紹)
浅析分布式存储架构—设计自己的存储- 58同城徐振华
Hadoop development in China Mobile Research Institute
雲端運算簡介
Hadoop 與 SQL 的甜蜜連結
Hp云管理平台3.0
Paas研究介绍
零到千万可扩展架构 AWS Architecture Overview
應用Ceph技術打造軟體定義儲存新局
雲端技術的新趨勢
淘宝Java中间件之路 it168
Open stack swift
Baidu Cloud Foundry
選擇正確的Solution 來建置現代化的雲端資料倉儲
RockStor - A Cloud Object System based on Hadoop
Etu DW Offload 解放資料倉儲的運算效能

华为软件定义存储架构分析