admin管理员组文章数量:1037775
Seagate:HAMR与MACH
全文概览
在数据爆炸的时代,存储技术的革新成为推动数字化进程的核心动力。Seagate作为全球存储领域的领军者,正通过突破性技术重新定义HDD的未来。本文聚焦其三大核心技术:HAMR热辅助磁记录(突破存储密度极限)、MACH-2双执行器架构(提升性能与能效),以及Reman Build自愈机制(优化数据恢复效率)。这些创新不仅将单碟容量推向新高度,更通过智能资源虚拟化与数据迁移策略,显著降低数据中心的总拥有成本(TCO)。在AI与云计算需求激增的背景下,Seagate的解决方案为大规模存储提供了兼具高性能、低能耗与高可靠性的路径,重新定义了HDD在混合存储架构中的核心地位。
L1 存储硬件革新
- 存储密度突破
- HAMR技术:通过纳米级晶粒与激光加热,实现单碟容量突破,存储密度提升至20+ TB/盘。
- 能耗优化:大容量HDD每TB功耗下降30%,降低数据中心碳足迹。
- 性能提升
- MACH-2双执行器:并行数据流设计使带宽翻倍,随机读取性能提升200%,支持SAS/NVMe接口。
- 双执行器RAID集成:通过LUN条带化实现RAID50/60架构,兼顾容错性与容量利用率。
- 存储层级优化
- 智能迁移策略:热数据迁移至QLC-SSD或MA-HDD,冷数据下沉至QLC层,降低SSD/ HDD层级热量。
L2 软件技术革新
- 数据管理与容错
- EC机制:6+3配置下冗余存储减少60%,故障恢复速度较RAID 6提升5倍。
- Reman Build自愈:磁头故障时自动迁移数据,避免停机,降低电子废弃物。
- 数据压缩与去重
- VDO技术:去重+压缩实现4:1空间节省,但需权衡SSD写放大与HDD性能损耗。
阅读收获
- 掌握HAMR技术原理:理解热辅助磁记录如何突破传统存储密度瓶颈。
- 优化数据迁移策略:学习通过热/冷数据分层降低TCO,提升存储效率。
- 认识Reman Build价值:了解自愈技术如何减少硬件维护成本与停机风险。
- 权衡数据压缩利弊:明确去重与压缩对SSD/HDD性能的影响,制定平衡方案。
L1 存储硬件革新
高效 HDD 存储创新
图片展示了 Seagate 在 HDD 存储技术方面的创新,重点介绍了三大核心方向:
- 纳米级存储技术,提升介质密度,实现更高效的存储。
- 优化数据访问,通过机电创新和系统优化降低 TCO(总拥有成本)。
- 大容量 HDD 解决方案,通过智能资源虚拟化简化 HDD 部署。
整体目标是提高存储效率,优化系统性能,并推动大规模存储的发展。
存储密度创新
图片重点介绍了 HAMR(热辅助磁记录) 技术如何提升 HDD 存储效率与记录密度。主要涉及:
- 纳米级晶粒形成 和 先进材料科学,用于提高磁介质的存储能力。
- 先进晶圆光刻 和 复杂自适应校准,确保磁头和盘片的精确写入能力。
- HAMR 技术 利用热辅助方式,实现更高密度的数据存储。
关于 HAMR 热辅助磁记录
Western Digital 在2月12日召开投资者日会议上,同样强调了 HAMR 技术的落地前景,借助HAMR等先进技术,2024年至2030年期间,其每TB存储成本将保持比闪存低6倍的优势。在标准超大规模数据中心环境下,硬盘存储方案的TCO将比闪存存储低3.6倍。可参考阅读:
- Western Digital:聚焦HDD业务的AI存储布局
在HAMR(热辅助磁记录)技术中,磁介质的温度通常需要加热到上千摄氏度的范围,以便增强磁性材料的稳定性和可写性。
具体来说,HAMR技术的加热温度一般达到约400°C到500°C(摄氏度)。这个温度足以改变磁介质的磁性特性,使其在更高密度下进行数据记录,同时保持数据的稳定性。当磁头将热量传递给磁介质时,局部区域会被加热到这个温度,然后通过冷却过程快速记录数据。
这种加热使得数据可以被写入更小的磁粒(即更高的存储密度),而在常温下,磁介质的磁性较强,不容易改变,因此需要通过局部加热使磁介质变得更为“柔软”并可用来记录数据。
大容量存储的能耗效益
图片展示通过使用更高容量的硬盘,存储基础设施的功耗可以显著降低。随着硬盘容量的增长,每TB的功耗逐渐下降,这意味着通过采用大容量硬盘(例如采用HAMR技术的硬盘),可以在保持或提高存储容量的同时,减少能源消耗。总体上,这为数据中心和大型存储基础设施带来更高的能效和更低的运营成本。
高效数据访问
图片介绍了MACH-2技术,强调通过并行数据流的应用,能够显著提升存储系统的性能,支持更高的带宽和 IOPS(输入输出操作每秒)。该技术通过使用多执行器技术,优化了存储系统的成本、功率和密度,在提高存储密度的同时,保持高效的性能,适用于高要求的数据访问场景。
双执行器性能优势与单执行器对比
图表显示了双执行器技术相对于单执行器的显著性能优势。
通过使用双执行器,存储设备能够在相同功耗下实现约2倍的带宽,尤其在处理随机读取时表现尤为突出,适用于各种传输大小。此外,随着随机写入和顺序读取/写入传输数据量的增加,性能提升效果更为明显。在顺序性能上,SAS/NVMe接口被认为是最佳选择。
存储与内存层级工作负载TCO优化
图展示了如何通过优化工作负载在不同存储层级之间的迁移,来降低存储的总拥有成本(TCO)。具体做法包括:
- 将热的TLC-SSD工作负载迁移到更高效的NVDIMM/DRAM层。
- 将冷的TLC-SSD工作负载迁移到QLC-SSD层,以提高存储效率。
- 将热的工作负载从NL-HDD迁移到QLC-SSD以及MA-HDD,以优化存储利用率并提供更大的容量支持。
这些过渡工作负载的设计旨在降低SSD和HDD层级的热量,从而使得它们可以重新配置,以适应更大的存储容量。
智能数据迁移策略
为了在不同存储层级之间高效地迁移数据,可以采用智能的数据迁移策略。通常涉及以下内容:
- 自动数据迁移:利用存储系统的自动化功能,根据工作负载的访问模式定期将数据从热层(例如TLC-SSD)迁移到冷层(如QLC-SSD、MA-HDD)。
- 基于工作负载的迁移决策:根据实时的访问模式,使用机器学习或预测算法动态判断何时将数据迁移到适合的层级。例如,利用存储系统的监控工具,检测哪些数据访问频率降低,并将这些冷数据迁移到QLC-SSD。
- 热冷数据分离:通过分析数据的生命周期来决定数据是否需要迁移。例如,将最近访问过的数据保留在TLC-SSD或NVDIMM中,而将很久没有访问的数据迁移到QLC-SSD或MA-HDD。
驱动器与Linux设备对应关系
图展示了SAS存储设备的配置,重点是每个驱动器(Actuator)对应一个“磁盘”并与Linux设备进行映射。每个LUN管理一个文件系统,允许系统按LUN进行分配和管理。图中还提到,在这个配置中,需要特别关注故障域的管理,确保在出现硬件故障时能及时处理。
具体而言,设备列出了每个存储设备与相应的路径(如/dev/sda、/dev/sdb等)之间的关系。这有助于系统管理员在Linux系统中定位和管理存储设备。
双驱动器 – SAS/NVMe RAID集成
图展示了双驱动器HDD(Dual-Actuator HDD)在RAID架构中的集成,特别是如何在RAID5或RAID6阵列中使用LUN/NS(逻辑单元号/命名空间)。
双驱动器硬盘在LUN/NS的基础上将数据条带化,以形成RAID50或RAID60群组,从而确保具有相同的容错性和可用性。此外,每个LUN/NS具有独立的存储容量,允许更灵活的配置和高效的数据管理。
通过这种配置,RAID群组可以根据需要进行优化,确保数据的可靠性和高可用性,同时最大化存储容量的利用。
针对每个驱动器控制的存储堆栈解决方案
图展示了如何通过修改存储堆栈中的各个层来实现对每个驱动器(Actuator)进行控制。在这个过程中,应用程序被修改以调度I/O操作到两个独立的驱动器位置。通过设备映射器和Linux块设备分区,存储设备可以进行独立的分区管理。I/O调度优化通过多种算法提高整体I/O性能。
同时,该图还描述了SCSI子系统的行为,指出通常不应重新分配工作负载,并且内核和遗留问题可能限制灵活性。图中的堆栈结构展示了从存储应用程序到SCSI中层的完整存储管理流程。
===
- 应用程序可以进行修改,以便在两个并行位置范围内调度I/O。
- 文件系统:(依赖内核,难度较大)
- 设备映射器目标分割底层块设备,在驱动器分割点处进行处理。
- Linux块设备分区:
- 使用GPT创建两个独立的设备。
- 持久性/内核依赖。
- I/O调度优化:
- 管理命令(使用多种算法),提供命令流,优化总体I/O性能。
- SCSI子系统:
- 通常不应该重新分配工作负载。
- 内核和遗留问题限制了灵活性。
HDD基础技术创新要点
随着生成性AI的需求不断增加,存储和内存技术供应商正在加速基础技术的投资,特别是在面对传统技术提升已无法满足未来需求的情况下,必须采取更具进攻性的产品策略。此外,尽管未来仍有许多挑战,但如果供应商愿意适应并创新,软件架构师将能够找到解决方案以应对这些变化。
===
- 传统的在遗留技术上的小幅改进已经过去,必须拥抱新的、更大胆的产品策略。
- 许多挑战仍在前方,但如果普通供应商愿意倾听并能够适应,全面的软件架构师将继续寻找解决方案。
- 存储器和数据存储供应商正在加速他们的基础技术创新投资,以跟上预期的生成性AI需求。
L2 - 软件技术革新
数据管理的隐性成本
图展示了存储系统的网络流量和主机资源分配情况,强调了存储提供商在保护客户数据时所需的资源消耗。
在云数据中心,客户数据占据了大部分网络流量,而在传统的JBOD存储中,处理擦除编码、复制和重建的过程消耗了大量的主机资源。图中表明,存储提供商在保证数据保护和恢复的同时,不得不牺牲相当多的主机资源。
EC 与 副本机制对比
Seagate提出的Erasure Coding方案相较于传统的JBOD方案,显著提高了资源利用率。它通过智能的数据切割和冗余块生成,减少了冗余副本的存储需求,从而节省了存储空间,并保证了数据的容错能力。Erasure Coding不仅能提高存储效率,还能通过灵活配置来满足不同的数据保护需求,使得它在大规模存储环境中成为一种更高效的解决方案。
- Erasure Coding的基本原理
Erasure Coding是一种数据冗余技术,利用数学算法将数据分割成多个部分(数据块),并通过生成冗余数据块(也叫编码块)来保证数据的容错性。不同于传统的复制技术(如RAID 1或传统复制),EC将数据分割并分布在多个存储设备上,并生成冗余块,而不直接复制数据。通过这种方式,即使某些数据块丢失,也能从冗余数据块恢复原始数据。
举个例子:
- 假设有一个6+3的EC配置,即6个数据块和3个冗余块。数据被切割成6个部分,并生成3个冗余块。这就意味着,数据系统能够容忍最多3个硬盘故障(如果丢失的数据块不足3个,可以通过冗余块恢复数据),同时只需要存储3个冗余块,而不是3倍的复制数据。
- 与传统JBOD方案的对比
在传统的JBOD(Just a Bunch of Disks)存储方案中,数据通常是直接存储在硬盘上的,没有内置的冗余机制。JBOD的工作原理是将每个硬盘作为一个独立的存储单元,不提供自动的数据保护或容错能力。若硬盘发生故障,数据可能丢失。
- JBOD的资源利用率:每个硬盘存储的数据是独立的,且没有冗余副本。如果希望保证数据的冗余和容错性,通常需要使用额外的硬盘进行完整的数据副本。这就会导致存储空间的浪费,因为数据会被完全复制到多个硬盘上,增加了冗余存储的需求。
- Erasure Coding的资源利用率:Erasure Coding则不同,它通过创建冗余块来提高数据可靠性,但并不需要完整的副本。例如,在6+3的配置中,原始数据被分割成6块,且生成了3个冗余块。相比传统的三副本复制机制(如RAID 1需要3个副本),EC大大减少了冗余存储的数量,节省了大量的存储空间。
EC 机制下的关键数据恢复
图展示了分布式Erasure Coding(EC)如何在硬盘故障的情况下提供更快速的关键数据重建。首先,随着第一个硬盘的故障,系统的容错机制确保数据安全。然后,在第二个硬盘故障后,仅有3%的数据被认为是“关键”,而这些关键数据可以在5倍于典型RAID 6速度的情况下被快速重建。即使第三个硬盘发生故障,系统也能够在不丢失数据的情况下继续运行。最终,数据重建完成,整个阵列恢复健康。
这个过程展示了EC技术在硬盘故障情况下的数据恢复速度和效率,尤其在多硬盘同时故障时,通过快速重建和容错机制确保数据安全和可用性,提供更高效的数据保护方案。
HDD磁头故障修复/逻辑去除自愈
Seagate提出的HDD磁头故障修复技术(Logical Depop Self-Healing)通过自动化的修复过程,减少了硬盘在发生磁头故障时的停机时间和人工干预需求。
具体过程包括,当硬盘报告故障时,控制器会立即将数据转移至其他硬盘并将故障硬盘从逻辑卷中移除。随后,系统会对硬盘进行诊断和修复,最终通过重新平衡卷来恢复硬盘的正常工作,从而避免了需要完全更换硬盘的情况。这种技术有助于最小化电子废物,提高存储系统的运行效率,并降低硬件维护成本。
===
步骤:
- 硬盘报告硬错误,控制器警报。
- 控制器将数据转移到其他硬盘并将硬盘从逻辑卷中移除。
- 硬盘和控制器诊断错误,绕过故障并修复硬盘。
- 通过重新平衡卷,恢复硬盘的逻辑去除。
Note
简单来说,当磁头出现故障,系统检测后会自动开启数据保护机制,将故障盘数据均衡到其他正常盘中。
使用 Reman Rebuild 加速数据恢复
前提条件:
- Erasure Coding (EC):在文件系统或存储系统中以及支持重新构建的HDD上。
- 数据分布在存储集群或驱动池中,包括数据条带、ERC条带和备用容量,分配给所有可用的硬盘。
- 每个硬盘有10个磁盘盘片和每个盘片2个磁头,意味着每个硬盘有20个记录面。
- 写入磁头故障发生的可能性远高于读取磁头,而读取磁头仍然能继续工作。
右图是硬盘多个磁片叠加和读写头的结构。
Reman Build 机制的工作条件
Reman Build 数据恢复机制结合了 Erasure Coding (EC) 和高效的硬盘修复技术,能够在磁盘故障发生后迅速恢复数据。这一机制的工作原理需要特定的文件系统要求和存储配置,确保数据能在硬盘发生故障时快速恢复。以下是 Reman Build 数据恢复机制的关键文件系统要求和相关说明:
- 支持Erasure Coding(EC)的文件系统
- Erasure Coding (EC) 是该恢复机制的核心,要求文件系统或存储系统能够支持 EC。这意味着文件系统需要能够管理分布式存储的冗余数据并提供容错能力。EC通过将数据分成多个数据块,并计算和存储冗余数据(例如校验数据块),使得在部分硬盘故障的情况下可以恢复丢失的数据。
- 常见支持EC的文件系统包括 ZFS、Ceph、ReFS(Windows Server)、Lustre等,这些文件系统能够提供数据块级冗余和容错支持,适合大规模存储和企业级应用。
- 分布式数据条带化(Data Striping)
- 为了实现高效的数据恢复,Reman Build机制需要数据条带化(striping)。数据条带化是将数据分成小块(称为条带),这些条带被分布到多个硬盘上。这种方法使得每个硬盘只存储数据的一个部分,而不是完整的副本,因此提供更高的存储效率。
- 在EC系统中,数据条带化通常与冗余校验数据一起分布。每个条带和冗余数据块的分布需要支持存储池的自愈功能,确保在硬盘故障后快速恢复数据。
- 冗余和容错管理
- Reman Build依赖于文件系统的冗余机制,确保在磁盘故障时,可以从冗余块中恢复数据。每个硬盘都可能有多个冗余数据块(如 Parity 或 Replication),这些冗余数据块确保数据的完整性。
- 在进行恢复时,Reman Build使用 Erasure Coding 和 Parity 数据块来重建丢失的数据。文件系统需要能够识别并绕过故障的硬盘,从其他可用硬盘的冗余数据中恢复丢失的数据块。
- 支持磁头故障自愈的硬盘
- 由于Reman Build机制是针对硬盘的自愈恢复机制,它要求硬盘本身支持 磁头故障自愈(Head Failure Reman)。这意味着硬盘必须能够在磁头故障发生时,通过绕过损坏的磁头继续正常读取或写入数据。
- 许多现代硬盘支持这种技术,即使部分写入磁头发生故障,读取磁头仍然能够正常工作,从而不影响数据读取。这要求文件系统能够感知硬盘状态并处理相关的读写请求。
Reman Build 数据恢复场景-1
条件A:读取头正常工作,且硬盘有足够的备用块进行自愈
- EC算法使用硬盘内部复制功能,并指示硬盘将受影响的数据块复制到备用数据块列表中。
- EC算法跟踪错过的写入并将其更新到备用数据块中。
优点:
- 优点1:无需通过EC重建来自整个硬盘池的P+Q块的数据。
- 优点2:可以正常响应受影响硬盘的所有读取请求。
- 优点3:减少存储网络的拥塞。
图示:
- D+PQ块:数据和校验数据块
- 读取头和写入头故障:指示写入头出现故障时的状态。
- 备用块:在硬盘上为自愈过程提供空间。
Reman Build 数据恢复场景-2
条件B:读取头正常工作,但硬盘没有备用块
- EC算法将受影响的磁盘块从受影响的表面复制到驱动池中的可用备用块。
- EC算法跟踪错过的写入,并在所有驱动器的备用块中更新它们。
条件C:读取头故障
- EC算法从P+Q块中重建受影响的数据块,并将其写入可用的备用块。
- EC算法跟踪错过的写入,并在所有驱动器的备用块中更新它们。
条件B和条件C图示:
- 条件B:在此情况下,读取头正常,但硬盘没有备用块,EC算法会将受影响的块复制到其他可用的硬盘中,继续更新错过的写入。
- 条件C:在读取头故障的情况下,EC算法会从P+Q块重建受影响的数据,并写入其他硬盘的备用块,同时更新错过的写入。
随着数据中心存储的持续发展和负载的增加,特别是涉及Erasure Coding (EC)、复制和重建过程时,存储网络会变得非常拥堵。
为了减少这些流量并确保数据容量、弹性和可用性不受影响,采用智能快速EC重建和磁头故障自愈修复(Reman) 技术,在硬盘和存储箱级别进行数据修复和恢复。这种方法能够显著减少网络拥堵,提高存储系统的效率,同时保持高效的数据恢复和冗余管理。
典型的Linux数据压缩
图展示了Linux环境中使用虚拟数据优化器(VDO)进行数据压缩的工作流程。
VDO通过两种主要技术来减少数据:数据去重(Deduplication)和数据压缩(Compression)。
在数据去重步骤中,VDO去除了重复的数据块,之后通过压缩剩余的数据块进一步减少数据量。VDO提供了2:1的数据去重和2:1的压缩,最终实现4:1的平均数据压缩率。然而,尽管VDO可以显著减少数据占用空间,但它也会增加SSD的写放大(Write Amplification)并可能降低HDD的性能,特别是在高负载情况下。
Cite
- SSD的写放大:数据去重和压缩会增加写入次数,因为在压缩后的数据块可能需要多次更新,导致SSD必须进行多次擦除和写入操作,进而增加写放大的现象,降低SSD的寿命和性能。
- HDD性能下降:去重和压缩增加了数据访问的复杂性,可能导致更频繁的随机读写操作,增加了HDD的负担,从而降低了它的性能。尤其是在高负载下,HDD的随机访问性能较差,去重和压缩带来的额外计算和I/O负载会加剧这一问题。
数据压缩关键要点与观察
- 无论使用什么软件或硬件的数据压缩工具,始终确保能够表征存储设备上处理的下游工作负载。
- 数据压缩输出工作负载流线化/顺序化对后端的SSD和HDD存储设备都有好处。
- 强大的硬件指纹识别和哈希功能用于数据去重,以及无损硬件压缩/解压缩,通过消除CPU开销和应用程序检查重复项与数据完整性,来提高总拥有成本(TCO)和性能。
- 降低顺序数据应始终带来更好的性能和TCO。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
- 技术挑战:如何解决HAMR技术中高温对磁头寿命的影响?
- 架构优化:双执行器HDD在分布式存储集群中如何实现负载均衡?
- 生态平衡:数据压缩技术如何在性能损耗与存储成本间找到最优解?
原文标题:Cloud Storage Efficiency at Scale
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-13,如有侵权请联系 cloudcommunity@tencent 删除优化存储工作数据性能Seagate:HAMR与MACH
全文概览
在数据爆炸的时代,存储技术的革新成为推动数字化进程的核心动力。Seagate作为全球存储领域的领军者,正通过突破性技术重新定义HDD的未来。本文聚焦其三大核心技术:HAMR热辅助磁记录(突破存储密度极限)、MACH-2双执行器架构(提升性能与能效),以及Reman Build自愈机制(优化数据恢复效率)。这些创新不仅将单碟容量推向新高度,更通过智能资源虚拟化与数据迁移策略,显著降低数据中心的总拥有成本(TCO)。在AI与云计算需求激增的背景下,Seagate的解决方案为大规模存储提供了兼具高性能、低能耗与高可靠性的路径,重新定义了HDD在混合存储架构中的核心地位。
L1 存储硬件革新
- 存储密度突破
- HAMR技术:通过纳米级晶粒与激光加热,实现单碟容量突破,存储密度提升至20+ TB/盘。
- 能耗优化:大容量HDD每TB功耗下降30%,降低数据中心碳足迹。
- 性能提升
- MACH-2双执行器:并行数据流设计使带宽翻倍,随机读取性能提升200%,支持SAS/NVMe接口。
- 双执行器RAID集成:通过LUN条带化实现RAID50/60架构,兼顾容错性与容量利用率。
- 存储层级优化
- 智能迁移策略:热数据迁移至QLC-SSD或MA-HDD,冷数据下沉至QLC层,降低SSD/ HDD层级热量。
L2 软件技术革新
- 数据管理与容错
- EC机制:6+3配置下冗余存储减少60%,故障恢复速度较RAID 6提升5倍。
- Reman Build自愈:磁头故障时自动迁移数据,避免停机,降低电子废弃物。
- 数据压缩与去重
- VDO技术:去重+压缩实现4:1空间节省,但需权衡SSD写放大与HDD性能损耗。
阅读收获
- 掌握HAMR技术原理:理解热辅助磁记录如何突破传统存储密度瓶颈。
- 优化数据迁移策略:学习通过热/冷数据分层降低TCO,提升存储效率。
- 认识Reman Build价值:了解自愈技术如何减少硬件维护成本与停机风险。
- 权衡数据压缩利弊:明确去重与压缩对SSD/HDD性能的影响,制定平衡方案。
L1 存储硬件革新
高效 HDD 存储创新
图片展示了 Seagate 在 HDD 存储技术方面的创新,重点介绍了三大核心方向:
- 纳米级存储技术,提升介质密度,实现更高效的存储。
- 优化数据访问,通过机电创新和系统优化降低 TCO(总拥有成本)。
- 大容量 HDD 解决方案,通过智能资源虚拟化简化 HDD 部署。
整体目标是提高存储效率,优化系统性能,并推动大规模存储的发展。
存储密度创新
图片重点介绍了 HAMR(热辅助磁记录) 技术如何提升 HDD 存储效率与记录密度。主要涉及:
- 纳米级晶粒形成 和 先进材料科学,用于提高磁介质的存储能力。
- 先进晶圆光刻 和 复杂自适应校准,确保磁头和盘片的精确写入能力。
- HAMR 技术 利用热辅助方式,实现更高密度的数据存储。
关于 HAMR 热辅助磁记录
Western Digital 在2月12日召开投资者日会议上,同样强调了 HAMR 技术的落地前景,借助HAMR等先进技术,2024年至2030年期间,其每TB存储成本将保持比闪存低6倍的优势。在标准超大规模数据中心环境下,硬盘存储方案的TCO将比闪存存储低3.6倍。可参考阅读:
- Western Digital:聚焦HDD业务的AI存储布局
在HAMR(热辅助磁记录)技术中,磁介质的温度通常需要加热到上千摄氏度的范围,以便增强磁性材料的稳定性和可写性。
具体来说,HAMR技术的加热温度一般达到约400°C到500°C(摄氏度)。这个温度足以改变磁介质的磁性特性,使其在更高密度下进行数据记录,同时保持数据的稳定性。当磁头将热量传递给磁介质时,局部区域会被加热到这个温度,然后通过冷却过程快速记录数据。
这种加热使得数据可以被写入更小的磁粒(即更高的存储密度),而在常温下,磁介质的磁性较强,不容易改变,因此需要通过局部加热使磁介质变得更为“柔软”并可用来记录数据。
大容量存储的能耗效益
图片展示通过使用更高容量的硬盘,存储基础设施的功耗可以显著降低。随着硬盘容量的增长,每TB的功耗逐渐下降,这意味着通过采用大容量硬盘(例如采用HAMR技术的硬盘),可以在保持或提高存储容量的同时,减少能源消耗。总体上,这为数据中心和大型存储基础设施带来更高的能效和更低的运营成本。
高效数据访问
图片介绍了MACH-2技术,强调通过并行数据流的应用,能够显著提升存储系统的性能,支持更高的带宽和 IOPS(输入输出操作每秒)。该技术通过使用多执行器技术,优化了存储系统的成本、功率和密度,在提高存储密度的同时,保持高效的性能,适用于高要求的数据访问场景。
双执行器性能优势与单执行器对比
图表显示了双执行器技术相对于单执行器的显著性能优势。
通过使用双执行器,存储设备能够在相同功耗下实现约2倍的带宽,尤其在处理随机读取时表现尤为突出,适用于各种传输大小。此外,随着随机写入和顺序读取/写入传输数据量的增加,性能提升效果更为明显。在顺序性能上,SAS/NVMe接口被认为是最佳选择。
存储与内存层级工作负载TCO优化
图展示了如何通过优化工作负载在不同存储层级之间的迁移,来降低存储的总拥有成本(TCO)。具体做法包括:
- 将热的TLC-SSD工作负载迁移到更高效的NVDIMM/DRAM层。
- 将冷的TLC-SSD工作负载迁移到QLC-SSD层,以提高存储效率。
- 将热的工作负载从NL-HDD迁移到QLC-SSD以及MA-HDD,以优化存储利用率并提供更大的容量支持。
这些过渡工作负载的设计旨在降低SSD和HDD层级的热量,从而使得它们可以重新配置,以适应更大的存储容量。
智能数据迁移策略
为了在不同存储层级之间高效地迁移数据,可以采用智能的数据迁移策略。通常涉及以下内容:
- 自动数据迁移:利用存储系统的自动化功能,根据工作负载的访问模式定期将数据从热层(例如TLC-SSD)迁移到冷层(如QLC-SSD、MA-HDD)。
- 基于工作负载的迁移决策:根据实时的访问模式,使用机器学习或预测算法动态判断何时将数据迁移到适合的层级。例如,利用存储系统的监控工具,检测哪些数据访问频率降低,并将这些冷数据迁移到QLC-SSD。
- 热冷数据分离:通过分析数据的生命周期来决定数据是否需要迁移。例如,将最近访问过的数据保留在TLC-SSD或NVDIMM中,而将很久没有访问的数据迁移到QLC-SSD或MA-HDD。
驱动器与Linux设备对应关系
图展示了SAS存储设备的配置,重点是每个驱动器(Actuator)对应一个“磁盘”并与Linux设备进行映射。每个LUN管理一个文件系统,允许系统按LUN进行分配和管理。图中还提到,在这个配置中,需要特别关注故障域的管理,确保在出现硬件故障时能及时处理。
具体而言,设备列出了每个存储设备与相应的路径(如/dev/sda、/dev/sdb等)之间的关系。这有助于系统管理员在Linux系统中定位和管理存储设备。
双驱动器 – SAS/NVMe RAID集成
图展示了双驱动器HDD(Dual-Actuator HDD)在RAID架构中的集成,特别是如何在RAID5或RAID6阵列中使用LUN/NS(逻辑单元号/命名空间)。
双驱动器硬盘在LUN/NS的基础上将数据条带化,以形成RAID50或RAID60群组,从而确保具有相同的容错性和可用性。此外,每个LUN/NS具有独立的存储容量,允许更灵活的配置和高效的数据管理。
通过这种配置,RAID群组可以根据需要进行优化,确保数据的可靠性和高可用性,同时最大化存储容量的利用。
针对每个驱动器控制的存储堆栈解决方案
图展示了如何通过修改存储堆栈中的各个层来实现对每个驱动器(Actuator)进行控制。在这个过程中,应用程序被修改以调度I/O操作到两个独立的驱动器位置。通过设备映射器和Linux块设备分区,存储设备可以进行独立的分区管理。I/O调度优化通过多种算法提高整体I/O性能。
同时,该图还描述了SCSI子系统的行为,指出通常不应重新分配工作负载,并且内核和遗留问题可能限制灵活性。图中的堆栈结构展示了从存储应用程序到SCSI中层的完整存储管理流程。
===
- 应用程序可以进行修改,以便在两个并行位置范围内调度I/O。
- 文件系统:(依赖内核,难度较大)
- 设备映射器目标分割底层块设备,在驱动器分割点处进行处理。
- Linux块设备分区:
- 使用GPT创建两个独立的设备。
- 持久性/内核依赖。
- I/O调度优化:
- 管理命令(使用多种算法),提供命令流,优化总体I/O性能。
- SCSI子系统:
- 通常不应该重新分配工作负载。
- 内核和遗留问题限制了灵活性。
HDD基础技术创新要点
随着生成性AI的需求不断增加,存储和内存技术供应商正在加速基础技术的投资,特别是在面对传统技术提升已无法满足未来需求的情况下,必须采取更具进攻性的产品策略。此外,尽管未来仍有许多挑战,但如果供应商愿意适应并创新,软件架构师将能够找到解决方案以应对这些变化。
===
- 传统的在遗留技术上的小幅改进已经过去,必须拥抱新的、更大胆的产品策略。
- 许多挑战仍在前方,但如果普通供应商愿意倾听并能够适应,全面的软件架构师将继续寻找解决方案。
- 存储器和数据存储供应商正在加速他们的基础技术创新投资,以跟上预期的生成性AI需求。
L2 - 软件技术革新
数据管理的隐性成本
图展示了存储系统的网络流量和主机资源分配情况,强调了存储提供商在保护客户数据时所需的资源消耗。
在云数据中心,客户数据占据了大部分网络流量,而在传统的JBOD存储中,处理擦除编码、复制和重建的过程消耗了大量的主机资源。图中表明,存储提供商在保证数据保护和恢复的同时,不得不牺牲相当多的主机资源。
EC 与 副本机制对比
Seagate提出的Erasure Coding方案相较于传统的JBOD方案,显著提高了资源利用率。它通过智能的数据切割和冗余块生成,减少了冗余副本的存储需求,从而节省了存储空间,并保证了数据的容错能力。Erasure Coding不仅能提高存储效率,还能通过灵活配置来满足不同的数据保护需求,使得它在大规模存储环境中成为一种更高效的解决方案。
- Erasure Coding的基本原理
Erasure Coding是一种数据冗余技术,利用数学算法将数据分割成多个部分(数据块),并通过生成冗余数据块(也叫编码块)来保证数据的容错性。不同于传统的复制技术(如RAID 1或传统复制),EC将数据分割并分布在多个存储设备上,并生成冗余块,而不直接复制数据。通过这种方式,即使某些数据块丢失,也能从冗余数据块恢复原始数据。
举个例子:
- 假设有一个6+3的EC配置,即6个数据块和3个冗余块。数据被切割成6个部分,并生成3个冗余块。这就意味着,数据系统能够容忍最多3个硬盘故障(如果丢失的数据块不足3个,可以通过冗余块恢复数据),同时只需要存储3个冗余块,而不是3倍的复制数据。
- 与传统JBOD方案的对比
在传统的JBOD(Just a Bunch of Disks)存储方案中,数据通常是直接存储在硬盘上的,没有内置的冗余机制。JBOD的工作原理是将每个硬盘作为一个独立的存储单元,不提供自动的数据保护或容错能力。若硬盘发生故障,数据可能丢失。
- JBOD的资源利用率:每个硬盘存储的数据是独立的,且没有冗余副本。如果希望保证数据的冗余和容错性,通常需要使用额外的硬盘进行完整的数据副本。这就会导致存储空间的浪费,因为数据会被完全复制到多个硬盘上,增加了冗余存储的需求。
- Erasure Coding的资源利用率:Erasure Coding则不同,它通过创建冗余块来提高数据可靠性,但并不需要完整的副本。例如,在6+3的配置中,原始数据被分割成6块,且生成了3个冗余块。相比传统的三副本复制机制(如RAID 1需要3个副本),EC大大减少了冗余存储的数量,节省了大量的存储空间。
EC 机制下的关键数据恢复
图展示了分布式Erasure Coding(EC)如何在硬盘故障的情况下提供更快速的关键数据重建。首先,随着第一个硬盘的故障,系统的容错机制确保数据安全。然后,在第二个硬盘故障后,仅有3%的数据被认为是“关键”,而这些关键数据可以在5倍于典型RAID 6速度的情况下被快速重建。即使第三个硬盘发生故障,系统也能够在不丢失数据的情况下继续运行。最终,数据重建完成,整个阵列恢复健康。
这个过程展示了EC技术在硬盘故障情况下的数据恢复速度和效率,尤其在多硬盘同时故障时,通过快速重建和容错机制确保数据安全和可用性,提供更高效的数据保护方案。
HDD磁头故障修复/逻辑去除自愈
Seagate提出的HDD磁头故障修复技术(Logical Depop Self-Healing)通过自动化的修复过程,减少了硬盘在发生磁头故障时的停机时间和人工干预需求。
具体过程包括,当硬盘报告故障时,控制器会立即将数据转移至其他硬盘并将故障硬盘从逻辑卷中移除。随后,系统会对硬盘进行诊断和修复,最终通过重新平衡卷来恢复硬盘的正常工作,从而避免了需要完全更换硬盘的情况。这种技术有助于最小化电子废物,提高存储系统的运行效率,并降低硬件维护成本。
===
步骤:
- 硬盘报告硬错误,控制器警报。
- 控制器将数据转移到其他硬盘并将硬盘从逻辑卷中移除。
- 硬盘和控制器诊断错误,绕过故障并修复硬盘。
- 通过重新平衡卷,恢复硬盘的逻辑去除。
Note
简单来说,当磁头出现故障,系统检测后会自动开启数据保护机制,将故障盘数据均衡到其他正常盘中。
使用 Reman Rebuild 加速数据恢复
前提条件:
- Erasure Coding (EC):在文件系统或存储系统中以及支持重新构建的HDD上。
- 数据分布在存储集群或驱动池中,包括数据条带、ERC条带和备用容量,分配给所有可用的硬盘。
- 每个硬盘有10个磁盘盘片和每个盘片2个磁头,意味着每个硬盘有20个记录面。
- 写入磁头故障发生的可能性远高于读取磁头,而读取磁头仍然能继续工作。
右图是硬盘多个磁片叠加和读写头的结构。
Reman Build 机制的工作条件
Reman Build 数据恢复机制结合了 Erasure Coding (EC) 和高效的硬盘修复技术,能够在磁盘故障发生后迅速恢复数据。这一机制的工作原理需要特定的文件系统要求和存储配置,确保数据能在硬盘发生故障时快速恢复。以下是 Reman Build 数据恢复机制的关键文件系统要求和相关说明:
- 支持Erasure Coding(EC)的文件系统
- Erasure Coding (EC) 是该恢复机制的核心,要求文件系统或存储系统能够支持 EC。这意味着文件系统需要能够管理分布式存储的冗余数据并提供容错能力。EC通过将数据分成多个数据块,并计算和存储冗余数据(例如校验数据块),使得在部分硬盘故障的情况下可以恢复丢失的数据。
- 常见支持EC的文件系统包括 ZFS、Ceph、ReFS(Windows Server)、Lustre等,这些文件系统能够提供数据块级冗余和容错支持,适合大规模存储和企业级应用。
- 分布式数据条带化(Data Striping)
- 为了实现高效的数据恢复,Reman Build机制需要数据条带化(striping)。数据条带化是将数据分成小块(称为条带),这些条带被分布到多个硬盘上。这种方法使得每个硬盘只存储数据的一个部分,而不是完整的副本,因此提供更高的存储效率。
- 在EC系统中,数据条带化通常与冗余校验数据一起分布。每个条带和冗余数据块的分布需要支持存储池的自愈功能,确保在硬盘故障后快速恢复数据。
- 冗余和容错管理
- Reman Build依赖于文件系统的冗余机制,确保在磁盘故障时,可以从冗余块中恢复数据。每个硬盘都可能有多个冗余数据块(如 Parity 或 Replication),这些冗余数据块确保数据的完整性。
- 在进行恢复时,Reman Build使用 Erasure Coding 和 Parity 数据块来重建丢失的数据。文件系统需要能够识别并绕过故障的硬盘,从其他可用硬盘的冗余数据中恢复丢失的数据块。
- 支持磁头故障自愈的硬盘
- 由于Reman Build机制是针对硬盘的自愈恢复机制,它要求硬盘本身支持 磁头故障自愈(Head Failure Reman)。这意味着硬盘必须能够在磁头故障发生时,通过绕过损坏的磁头继续正常读取或写入数据。
- 许多现代硬盘支持这种技术,即使部分写入磁头发生故障,读取磁头仍然能够正常工作,从而不影响数据读取。这要求文件系统能够感知硬盘状态并处理相关的读写请求。
Reman Build 数据恢复场景-1
条件A:读取头正常工作,且硬盘有足够的备用块进行自愈
- EC算法使用硬盘内部复制功能,并指示硬盘将受影响的数据块复制到备用数据块列表中。
- EC算法跟踪错过的写入并将其更新到备用数据块中。
优点:
- 优点1:无需通过EC重建来自整个硬盘池的P+Q块的数据。
- 优点2:可以正常响应受影响硬盘的所有读取请求。
- 优点3:减少存储网络的拥塞。
图示:
- D+PQ块:数据和校验数据块
- 读取头和写入头故障:指示写入头出现故障时的状态。
- 备用块:在硬盘上为自愈过程提供空间。
Reman Build 数据恢复场景-2
条件B:读取头正常工作,但硬盘没有备用块
- EC算法将受影响的磁盘块从受影响的表面复制到驱动池中的可用备用块。
- EC算法跟踪错过的写入,并在所有驱动器的备用块中更新它们。
条件C:读取头故障
- EC算法从P+Q块中重建受影响的数据块,并将其写入可用的备用块。
- EC算法跟踪错过的写入,并在所有驱动器的备用块中更新它们。
条件B和条件C图示:
- 条件B:在此情况下,读取头正常,但硬盘没有备用块,EC算法会将受影响的块复制到其他可用的硬盘中,继续更新错过的写入。
- 条件C:在读取头故障的情况下,EC算法会从P+Q块重建受影响的数据,并写入其他硬盘的备用块,同时更新错过的写入。
随着数据中心存储的持续发展和负载的增加,特别是涉及Erasure Coding (EC)、复制和重建过程时,存储网络会变得非常拥堵。
为了减少这些流量并确保数据容量、弹性和可用性不受影响,采用智能快速EC重建和磁头故障自愈修复(Reman) 技术,在硬盘和存储箱级别进行数据修复和恢复。这种方法能够显著减少网络拥堵,提高存储系统的效率,同时保持高效的数据恢复和冗余管理。
典型的Linux数据压缩
图展示了Linux环境中使用虚拟数据优化器(VDO)进行数据压缩的工作流程。
VDO通过两种主要技术来减少数据:数据去重(Deduplication)和数据压缩(Compression)。
在数据去重步骤中,VDO去除了重复的数据块,之后通过压缩剩余的数据块进一步减少数据量。VDO提供了2:1的数据去重和2:1的压缩,最终实现4:1的平均数据压缩率。然而,尽管VDO可以显著减少数据占用空间,但它也会增加SSD的写放大(Write Amplification)并可能降低HDD的性能,特别是在高负载情况下。
Cite
- SSD的写放大:数据去重和压缩会增加写入次数,因为在压缩后的数据块可能需要多次更新,导致SSD必须进行多次擦除和写入操作,进而增加写放大的现象,降低SSD的寿命和性能。
- HDD性能下降:去重和压缩增加了数据访问的复杂性,可能导致更频繁的随机读写操作,增加了HDD的负担,从而降低了它的性能。尤其是在高负载下,HDD的随机访问性能较差,去重和压缩带来的额外计算和I/O负载会加剧这一问题。
数据压缩关键要点与观察
- 无论使用什么软件或硬件的数据压缩工具,始终确保能够表征存储设备上处理的下游工作负载。
- 数据压缩输出工作负载流线化/顺序化对后端的SSD和HDD存储设备都有好处。
- 强大的硬件指纹识别和哈希功能用于数据去重,以及无损硬件压缩/解压缩,通过消除CPU开销和应用程序检查重复项与数据完整性,来提高总拥有成本(TCO)和性能。
- 降低顺序数据应始终带来更好的性能和TCO。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
- 技术挑战:如何解决HAMR技术中高温对磁头寿命的影响?
- 架构优化:双执行器HDD在分布式存储集群中如何实现负载均衡?
- 生态平衡:数据压缩技术如何在性能损耗与存储成本间找到最优解?
原文标题:Cloud Storage Efficiency at Scale
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-13,如有侵权请联系 cloudcommunity@tencent 删除优化存储工作数据性能本文标签: SeagateHAMR与MACH
版权声明:本文标题:Seagate:HAMR与MACH 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1748302154a2282404.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论