海量存储结构解析
立即解锁
发布时间: 2025-08-14 00:51:14 阅读量: 1 订阅数: 11 


操作系统概念:理论与实践
### 海量存储结构解析
#### 1. RAID 存在的问题
RAID(独立磁盘冗余阵列)虽能在一定程度上保障数据存储,但并非万无一失。文件指针错误、文件结构内指针错误、未完成写入(“撕裂写入”)等情况,若未妥善恢复,都可能导致数据损坏。此外,其他进程可能意外覆盖文件系统结构。RAID 主要防范物理介质错误,却无法抵御其他软硬件错误,如硬件 RAID 控制器故障或软件 RAID 代码中的漏洞,都可能造成数据全部丢失。
Solaris ZFS 文件系统采用创新的校验和方法解决这些问题。ZFS 为所有数据块(包括数据和元数据)维护内部校验和,且校验和不与被校验的块存放在一起,而是与指向该块的指针一同存储。例如,inode(用于存储文件系统元数据的数据结构)中包含每个数据块的校验和,若数据出现问题,校验和会出错,文件系统便能察觉。若数据有镜像,且一个块的校验和正确,另一个错误,ZFS 会自动用正确的块更新错误的块。同样,指向 inode 的目录项也有 inode 的校验和,访问目录时就能检测到 inode 中的问题。这种校验机制贯穿 ZFS 所有结构,相比 RAID 驱动器组或标准文件系统,能提供更高的一致性、错误检测和纠错能力。而且,由于 ZFS 整体性能极快,校验和计算及额外的块读写循环带来的额外开销并不明显。Linux BTRFS 文件系统也有类似的校验和功能。
多数 RAID 实现还存在灵活性不足的问题。例如,一个包含 20 个驱动器的存储阵列,被分为 4 组,每组 5 个驱动器,每组构成一个 RAID 5 级别集,从而有 4 个独立卷,每个卷包含一个文件系统。但如果一个文件系统过大,无法放入 5 个驱动器的 RAID 5 级别集,或者另一个文件系统只需少量空间,就会出现问题。即便存储阵列允许将 20 个驱动器创建为一个大的 RAID 集,仍可能有其他问题。一些卷管理器不允许更改卷的大小,或者文件系统不允许增长或收缩,即便卷大小可改变,文件系统也需重新创建才能利用这些变化。
ZFS 将文件系统管理和卷管理结合为一个单元,提供比传统分离功能更强大的功能。驱动器或驱动器分区通过 RAID 集汇聚成存储池,一个存储池可容纳一个或多个 ZFS 文件系统,整个存储池的空闲空间可供池内所有文件系统使用。ZFS 采用类似 malloc() 和 free() 的内存模型,在文件系统内使用和释放块时,为每个文件系统分配和释放存储。因此,存储使用没有人为限制,也无需在卷之间重新定位文件系统或调整卷大小。ZFS 提供配额限制文件系统大小,提供预留空间确保文件系统能按指定数量增长,且这些变量可由文件系统所有者随时更改。Linux 等系统也有卷管理器,允许逻辑连接多个磁盘以创建更大的卷来存储大文件系统。
以下是传统卷和文件系统与 ZFS 模型的对比表格:
| 类型 | 特点 |
| ---- | ---- |
| 传统卷和文件系统 | 驱动器分组形成独立卷,每个卷有文件系统,存在文件系统大小不匹配、调整困难等问题 |
| ZFS 模型 | 驱动器或分区汇聚成存储池,池内文件系统共享空闲空间,存储使用灵活,可按需调整 |
#### 2. 对象存储
通用计算机通常使用文件系统为用户存储内容,而对象存储则从存储池开始,将对象放入池中。与文件系统不同,对象存储无法在池中导航查找对象,它是面向计算机的,供程序使用。典型操作顺序如下:
1. 在存储池内创建对象,并获取对象 ID。
2. 根据对象 ID 在需要时访问对象。
3. 通过对象 ID 删除对象。
对象存储管理软件(如 Hadoop 文件系统 HDFS 和 Ceph)决定对象的存储位置并管理对象保护。通常,对象存储在普通硬件而非 RAID 阵列上。例如,HDFS 可在 N 台不同计算机上存储对象的 N 个副本,这种方式成本低于存储阵列,且至少在这 N 个系统上能快速访问对象。Hadoop 集群中的所有系统都能访问对象,但只有有副本的系统可通过副本快速访问。数据计算在有副本的系统上进行,结果通过网络仅发送给请求的系统。其他系统需网络连接才能读写对象。因此,对象存储常用于大容量存储,而非高速随机访问。
对象存储的优势在于水平可扩展性。存储阵列有固定最大容量,而要增加对象存储的容量,只需添加更多带内部磁盘或外接磁盘的计算机并加入存储池,对象存储池可达到 PB 级大小。此外,每个对象是自描述的,包含对其内容的描述,所以对象存储也被称为内容可寻址存储,可根据内容检索对象,存储的是无结构数据。
尽管对象存储在通用计算机上不常见,但大量数据都存储在对象存储中,如谷歌的互联网搜索内容、Dropbox 内容、Spotify 的歌曲和 Facebook 照片等。云计算(如 Amazon AWS)通常使用对象存储(如 Amazon S3)来保存文件系统和客户应用程序的数据对象。
以下是对象存储操作流程的 mermaid 流程图:
```mermaid
graph LR
A[创建对象] --> B[获取对象 ID]
B --> C[按需访问对象]
C --> D[通过对象 ID 删除对象]
```
#### 3. 存储相关总结
- **存储设备连接方式**:硬盘驱动器和非易失性存储设备是大多数计算机的主要二级存储 I/O 单元,现代二级存储被组织为大型一维逻辑块数组。这些驱动器可通过三种方式连接到计算机系统:通过主机计算机的本地 I/O 端口、直接连接到主板、通过通信网络或存储网络连接。
- **存储请求**:二级存储 I/O 请求由文件系统和虚拟内存系统生成,每个请求以逻辑块号的形式指定设备上的地址。
- **磁盘调度算法**:磁盘调度算法可提高 HDD 的有效带宽、平均响应时间和响应时间的方差,如 SCAN 和 C - SCAN 算法通过磁盘队列排序策略实现这些改进。但硬盘上磁盘调度算法的性能差异较大,而固态硬盘因无移动部件,调度算法性能差异小,常采用简单的 FCFS 策略。
- **错误处理**:数据存储和传输复杂,常出现错误。错误检测用于发现问题,提醒系统采取纠正措施并避免错误传播;错误纠正可根据可用的纠正数据量和损坏数据量检测并修复问题。
- **存储设备管理**:存储设备被划分为一个或多个空间块,每个分区可容纳一个卷或作为多设备卷的一部分,文件系统在卷中创建。操作系统管理存储设备的块,新设备通常预先格式化,设备分区、创建文件系统,若设备将包含操作系统,还会分配引导块存储系统的引导程序。当块或页面损坏时,系统需锁定该块或用备用块逻辑替换。
- **交换空间**:高效的交换空间对某些系统的良好性能至关重要。一些系统专门划分原始分区作为交换空间,一些使用文件系统内的文件,还有些系统为用户或系统管理员提供两种选择。
- **RAID 算法**:由于大型系统对存储量的需求以及存储设
0
0
复制全文
相关推荐










