admin管理员组文章数量:1028187
CXL调优:基于负载感知的TMC模型
全文概览
内存作为计算机系统的重要组成部分,其成本和性能之间的平衡变得越来越关键。传统的DRAM价格下降速度放缓,给数据中心和AI系统带来了挑战。为了解决这一问题,Compute Express Link(CXL)技术应运而生,它通过降低内存成本来扩展系统,并鼓励创新。本文将深入探讨CXL技术带来的机遇与挑战,以及如何通过内存分级和性能建模来优化资源配置。加州大学圣克鲁兹分校(UCSC)的系统与存储研究中心(CRSS)在存储技术领域的研究为我们提供了重要的参考。本文将重点介绍CRSS的研究方向、学术地位以及代表性研究项目,帮助读者了解CXL技术在实际应用中的潜力。通过本文的阅读,您将了解到CXL技术如何通过内存分级和性能建模来优化资源配置,从而在性能和成本之间取得平衡,为数据中心和AI系统带来更高的效率和更低的成本。
阅读收获
- 了解CXL技术如何通过内存分级优化资源配置,在性能和成本之间取得平衡。
- 掌握TMC研究方法,通过性能分析和建模,为数据中心运营商和终端客户提供更优的资源分配方案。
- 理解DRAM价格趋势对计算机系统和存储领域的影响,以及CXL技术在解决这些问题中的潜力。
Fig-1 USSC 系统与存储研究中心介绍
About CRSS
加州大学圣克鲁兹分校(UCSC)的系统与存储研究中心(Center for Research in Storage Systems, CRSS[1])是该校在计算机系统与存储技术领域的重要研究机构,专注于推动存储技术的创新及其在科学计算、工业应用中的实践。以下是关于CRSS的详细介绍:
- 研究方向与核心领域
CRSS的研究聚焦于存储系统的可扩展性、可靠性及长期存档技术,涵盖以下方向:
• 长期存档存储:研究如何高效保存海量数据(如科学模拟、天文观测数据),并解决存储介质寿命与数据可访问性的矛盾。
• 分布式存储系统:开发高可用、低延迟的分布式架构,支持大规模计算场景(如云计算、边缘计算)。
• 硬件安全与存储安全:探索存储设备(如GPU、SSD)的物理攻击防御机制,以及加密存储技术。
• 存储与计算融合:结合新型存储技术(如非易失性内存)优化系统性能,支持机器学习、大数据分析等应用。
- 学术地位与行业合作
• NSF I/UCRC支持:CRSS由美国国家科学基金会(NSF)工业/大学合作研究中心(I/UCRC)资助,与亚马逊、思科、谷歌、西部数据等企业深度合作,推动产学研结合。
• 技术转化成果:研究中心的成果已转化为多家科技公司的技术基础,例如分布式文件系统Ceph(由CRSS成员参与开发)被广泛应用于科学计算领域。
• 跨学科影响力:CRSS与UCSC的计算机科学、电子工程、天文学等学科紧密联动,支持天体物理模拟(如UC-HiPACC超级计算项目)等重大科研项目。
- 代表性研究项目
• Hyades超级计算存储系统:CRSS曾为UC-HiPACC的Hyades超级计算机部署PB级存储平台,采用华为UDS云存储系统,验证了海量数据的高效管理能力。
• 长期存档技术研究:针对数据生命周期管理,CRSS提出结合网络附加存储(NAS)与闪存的混合架构,平衡成本与性能。
• 安全存储协议:开发基于硬件的安全存储方案,防止数据篡改与未授权访问,应用于医疗、金融等敏感领域。
Fig-2 DRAM 历史价格走势图
图表展示了从大约1955年至今 DRAM(动态随机存取存储器)每Mbyte价格随时间的变化,纵轴采用了对数坐标。历史数据显示,DRAM 价格长期以来呈指数级下降趋势(在对数坐标下表现为一条陡峭的直线)。
然而,图表特别强调了2010年到2024年期间的趋势,用一条黄色的拟合线表示。这条拟合线显示,在最近的十几年里,DRAM 价格的下降速度显著放缓。图表上的标注“2x per decade”表示,在这个时期,DRAM 价格大约需要十年才能下降一半,这远慢于历史上的价格下降速度。
DRAM 价格下降速度的放缓被视为当前计算机系统和存储领域面临的一个挑战或问题。这意味着在存储成本降低方面遇到了瓶颈,对数据中心、AI 系统等依赖大量内存的领域产生了影响。
图表总结了 CXL(Compute Express Link)技术所带来的主要机遇和挑战。
机遇方面: CXL 被认为能够通过降低内存成本来解决系统扩展性的问题;作为一个开放标准,它有利于鼓励“小玩家”进行创新;此外,计算型内存的引入有望帮助降低总拥有成本(TCO)并提升整体性能。
挑战方面: CXL 技术也面临一些挑战,包括可能带来的性能开销;由于系统的异构性增加,管理和使用 CXL 会变得更复杂;最后,为了充分发挥 CXL 的潜力,需要进行跨软件和硬件层面的协同优化。
总的来说,CXL 被视为一个有潜力在内存和系统领域带来积极变革的技术,但也需要在实施过程中克服性能和复杂性等方面的挑战。
Fig-4 内存分级的概念设计
图表解释了“内存分级”(Memory Tiering)的概念。展示了计算机系统中的主内存可以被组织成不同的层级,而不是单一速度的内存。
主内存被划分为一个“快速层”,由传统的 DRAM 组成,以及一个“慢速层”,这里特别指出是使用 CXL 技术实现的。CPU 通过其末级缓存 (LLC) 与这些内存层级进行交互,应用程序 (APP1, APP2) 访问数据时会利用这种分级结构。
内存分级的目标:在降低总体成本的同时,尽量保持接近高性能内存所能提供的性能水平。这意味着系统会尝试将最常访问的“热”数据放在速度更快但成本更高的 DRAM 层,而将访问频率较低的“冷”数据放在速度较慢但成本更低的 CXL 层,从而在性能和经济性之间取得平衡。
Fig-5 计算负载的研究方法
内存分层研究的工作方向。
===
- 先前的研究工作:
- 基于黑盒机器学习的技术:贝叶斯、协同过滤
- 在 N 个工作负载和 M 种配置上进行训练,预测一种配置
- 我们的研究工作 (TMC):
- 白盒性能模型
- 数据布局提示(哪些数据放入 CXL/DRAM?)
- 为何某种配置是最佳的?
- 预测某个工作负载的性能(而非推荐一种配置)
- 假设分析
Fig-6 TMC 研究方法概述
图表提供了一个 TMC 方法的整体流程视图。该流程始于对用户工作负载进行性能分析 (Profiling)。在性能分析阶段,系统会收集关于工作负载在硬件上执行时的详细信息,例如占用的 CPU 周期、执行的指令数、内存访问延迟以及内存级并行度 (MLP)。图示中展示了两个例子来说明收集的数据:一个可能是关于不同数据结构(如 Hash, List)访问频率和大小的表格,以及一个显示缓存未命中率随缓存大小变化的曲线图。
通过对这些硬件性能特征数据的深入理解,TMC 构建一个性能模型(如底部文字所述)。这个模型利用分析得到的数据来指导后续的步骤。
接下来,性能分析的结果被用于决定内存分配 (Mem. allocation),即为应用程序分配多大容量的内存;以及内存放置 (Mem. placement),即如何将数据具体放在内存系统的不同层级(例如前文提到的 DRAM 和 CXL 层)。
最终,内存分配和放置的决策会输出具体的配置 (Configuration) 和放置方案 (Placement),指导系统如何为该工作负载设置内存系统,以达到优化性能和成本的目的。
总而言之,TMC 的核心思想是通过对硬件性能特征进行细致的分析,建立一个精确的性能模型,并以此模型为基础来智能地决定内存如何分配和数据如何布局,从而优化整体系统性能。
Fig-7 模型构建方法
图表详细展示了如何生成之前提到的“性能模型”。模型的构建过程始于一个关键的性能分析步骤 (Profiling Step)。为了全面地了解工作负载的性能特征,这个分析步骤特意在三种不同的配置下进行:
- fast_max: 使用0%的慢速内存,并配置最大大小的末级缓存 (LLC)。这代表了偏向于快速内存和最大缓存的情况。
- fast_min: 使用0%的慢速内存,并配置最小大小的末级缓存 (LLC)。这代表了偏向于快速内存但缓存受限的情况。
- slow_max: 使用100%的慢速内存,并配置最大大小的末级缓存 (LLC)。这代表了完全依赖慢速内存但缓存较大的情况。
通过在这三种具有代表性的极端配置下运行性能分析,可以收集到丰富的数据。这些数据包括数据结构的访问频率、不同缓存大小时的缓存未命中曲线,以及内存级并行度等关键指标。
所有这些从不同配置下收集到的性能分析数据,最终被汇集起来,用于生成性能模型。这意味着该性能模型是基于对工作负载在不同内存系统特性(速度、缓存大小、并行度)下的实际表现的深入了解而构建的。
图表展示了前文提到的性能模型如何用于预测不同数据放置方案下的性能指标。
图表上方提供了一些输入数据,即不同数据结构(List1, List2, Hash)的内存访问速率和它们的大小。这些是模型进行预测所需的信息。
图表下方展示了两种不同的数据放置方案:一是将 Hash 放在 CXL 内存层(通常被用作较慢的内存层),同时将 Hash 和 List1/2 放在 DRAM 层(较快的内存层);第二种是将 Hash 和 List 1放置在 CXL 层,而 List2 放在 DRAM 层。
对于这两种不同的数据放置方案,模型给出了预测结果:慢速内存(CXL)的访问速率。可以看到,方案 1 预测的慢速内存访问速率是 0.28,而方案 2 预测的是 0.80。这表明,即使是相同的数据结构,仅仅改变它们在不同速度内存层级中的位置,就会显著影响对慢速内存的访问频率。慢速内存的访问速率是衡量性能的一个重要指标,较高的慢速内存访问速率通常意味着更多的慢速访问,从而可能导致性能下降。
图表的核心在于说明:构建的性能模型能够根据不同的数据放置策略,预测关键的性能指标(如慢速内存访问速率),从而帮助用户评估哪种放置方案可能更优,这体现了模型的实用价值。
图表总结了 TMC的主要贡献和优势。
结论指出,TMC 相较于先前的研究工作,提供了一个更先进的性能模型。这个模型能够为终端客户选择最优的性能和总拥有成本 (TCO) 的平衡点,同时也帮助数据中心运营商优化资源分配。此外,该模型还支持进行假设分析,使用户或运营商能够探索不同配置方案的影响。
在量化优势方面,图表给出了具体的改进数据:TMC 能够将配置或方案的搜索成本降低到先前的研究工作的三分之一(降低 3 倍),并且将资源效率提高了 17%。
TMC 的研究通过提供一个更优越、更具洞察力的性能模型,不仅在理论上超越了先前的黑盒方法,更在实践中带来了显著的好处,包括降低成本、优化资源利用以及提升分析能力。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
- CXL技术在实际应用中还面临哪些挑战?如何克服这些挑战?
- TMC研究方法在其他领域是否有应用潜力?如何扩展其应用范围?
- 未来内存技术的发展趋势是什么?CXL技术将如何演进以适应这些趋势?
原文标题:Optimized Resource Allocation for CXL Tiered-Memory Systems
Notice:Human's prompt, Datasets by Gemini-2.0-flash-thinking
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-27,如有侵权请联系 cloudcommunity@tencent 删除系统性能模型内存数据CXL调优:基于负载感知的TMC模型
全文概览
内存作为计算机系统的重要组成部分,其成本和性能之间的平衡变得越来越关键。传统的DRAM价格下降速度放缓,给数据中心和AI系统带来了挑战。为了解决这一问题,Compute Express Link(CXL)技术应运而生,它通过降低内存成本来扩展系统,并鼓励创新。本文将深入探讨CXL技术带来的机遇与挑战,以及如何通过内存分级和性能建模来优化资源配置。加州大学圣克鲁兹分校(UCSC)的系统与存储研究中心(CRSS)在存储技术领域的研究为我们提供了重要的参考。本文将重点介绍CRSS的研究方向、学术地位以及代表性研究项目,帮助读者了解CXL技术在实际应用中的潜力。通过本文的阅读,您将了解到CXL技术如何通过内存分级和性能建模来优化资源配置,从而在性能和成本之间取得平衡,为数据中心和AI系统带来更高的效率和更低的成本。
阅读收获
- 了解CXL技术如何通过内存分级优化资源配置,在性能和成本之间取得平衡。
- 掌握TMC研究方法,通过性能分析和建模,为数据中心运营商和终端客户提供更优的资源分配方案。
- 理解DRAM价格趋势对计算机系统和存储领域的影响,以及CXL技术在解决这些问题中的潜力。
Fig-1 USSC 系统与存储研究中心介绍
About CRSS
加州大学圣克鲁兹分校(UCSC)的系统与存储研究中心(Center for Research in Storage Systems, CRSS[1])是该校在计算机系统与存储技术领域的重要研究机构,专注于推动存储技术的创新及其在科学计算、工业应用中的实践。以下是关于CRSS的详细介绍:
- 研究方向与核心领域
CRSS的研究聚焦于存储系统的可扩展性、可靠性及长期存档技术,涵盖以下方向:
• 长期存档存储:研究如何高效保存海量数据(如科学模拟、天文观测数据),并解决存储介质寿命与数据可访问性的矛盾。
• 分布式存储系统:开发高可用、低延迟的分布式架构,支持大规模计算场景(如云计算、边缘计算)。
• 硬件安全与存储安全:探索存储设备(如GPU、SSD)的物理攻击防御机制,以及加密存储技术。
• 存储与计算融合:结合新型存储技术(如非易失性内存)优化系统性能,支持机器学习、大数据分析等应用。
- 学术地位与行业合作
• NSF I/UCRC支持:CRSS由美国国家科学基金会(NSF)工业/大学合作研究中心(I/UCRC)资助,与亚马逊、思科、谷歌、西部数据等企业深度合作,推动产学研结合。
• 技术转化成果:研究中心的成果已转化为多家科技公司的技术基础,例如分布式文件系统Ceph(由CRSS成员参与开发)被广泛应用于科学计算领域。
• 跨学科影响力:CRSS与UCSC的计算机科学、电子工程、天文学等学科紧密联动,支持天体物理模拟(如UC-HiPACC超级计算项目)等重大科研项目。
- 代表性研究项目
• Hyades超级计算存储系统:CRSS曾为UC-HiPACC的Hyades超级计算机部署PB级存储平台,采用华为UDS云存储系统,验证了海量数据的高效管理能力。
• 长期存档技术研究:针对数据生命周期管理,CRSS提出结合网络附加存储(NAS)与闪存的混合架构,平衡成本与性能。
• 安全存储协议:开发基于硬件的安全存储方案,防止数据篡改与未授权访问,应用于医疗、金融等敏感领域。
Fig-2 DRAM 历史价格走势图
图表展示了从大约1955年至今 DRAM(动态随机存取存储器)每Mbyte价格随时间的变化,纵轴采用了对数坐标。历史数据显示,DRAM 价格长期以来呈指数级下降趋势(在对数坐标下表现为一条陡峭的直线)。
然而,图表特别强调了2010年到2024年期间的趋势,用一条黄色的拟合线表示。这条拟合线显示,在最近的十几年里,DRAM 价格的下降速度显著放缓。图表上的标注“2x per decade”表示,在这个时期,DRAM 价格大约需要十年才能下降一半,这远慢于历史上的价格下降速度。
DRAM 价格下降速度的放缓被视为当前计算机系统和存储领域面临的一个挑战或问题。这意味着在存储成本降低方面遇到了瓶颈,对数据中心、AI 系统等依赖大量内存的领域产生了影响。
图表总结了 CXL(Compute Express Link)技术所带来的主要机遇和挑战。
机遇方面: CXL 被认为能够通过降低内存成本来解决系统扩展性的问题;作为一个开放标准,它有利于鼓励“小玩家”进行创新;此外,计算型内存的引入有望帮助降低总拥有成本(TCO)并提升整体性能。
挑战方面: CXL 技术也面临一些挑战,包括可能带来的性能开销;由于系统的异构性增加,管理和使用 CXL 会变得更复杂;最后,为了充分发挥 CXL 的潜力,需要进行跨软件和硬件层面的协同优化。
总的来说,CXL 被视为一个有潜力在内存和系统领域带来积极变革的技术,但也需要在实施过程中克服性能和复杂性等方面的挑战。
Fig-4 内存分级的概念设计
图表解释了“内存分级”(Memory Tiering)的概念。展示了计算机系统中的主内存可以被组织成不同的层级,而不是单一速度的内存。
主内存被划分为一个“快速层”,由传统的 DRAM 组成,以及一个“慢速层”,这里特别指出是使用 CXL 技术实现的。CPU 通过其末级缓存 (LLC) 与这些内存层级进行交互,应用程序 (APP1, APP2) 访问数据时会利用这种分级结构。
内存分级的目标:在降低总体成本的同时,尽量保持接近高性能内存所能提供的性能水平。这意味着系统会尝试将最常访问的“热”数据放在速度更快但成本更高的 DRAM 层,而将访问频率较低的“冷”数据放在速度较慢但成本更低的 CXL 层,从而在性能和经济性之间取得平衡。
Fig-5 计算负载的研究方法
内存分层研究的工作方向。
===
- 先前的研究工作:
- 基于黑盒机器学习的技术:贝叶斯、协同过滤
- 在 N 个工作负载和 M 种配置上进行训练,预测一种配置
- 我们的研究工作 (TMC):
- 白盒性能模型
- 数据布局提示(哪些数据放入 CXL/DRAM?)
- 为何某种配置是最佳的?
- 预测某个工作负载的性能(而非推荐一种配置)
- 假设分析
Fig-6 TMC 研究方法概述
图表提供了一个 TMC 方法的整体流程视图。该流程始于对用户工作负载进行性能分析 (Profiling)。在性能分析阶段,系统会收集关于工作负载在硬件上执行时的详细信息,例如占用的 CPU 周期、执行的指令数、内存访问延迟以及内存级并行度 (MLP)。图示中展示了两个例子来说明收集的数据:一个可能是关于不同数据结构(如 Hash, List)访问频率和大小的表格,以及一个显示缓存未命中率随缓存大小变化的曲线图。
通过对这些硬件性能特征数据的深入理解,TMC 构建一个性能模型(如底部文字所述)。这个模型利用分析得到的数据来指导后续的步骤。
接下来,性能分析的结果被用于决定内存分配 (Mem. allocation),即为应用程序分配多大容量的内存;以及内存放置 (Mem. placement),即如何将数据具体放在内存系统的不同层级(例如前文提到的 DRAM 和 CXL 层)。
最终,内存分配和放置的决策会输出具体的配置 (Configuration) 和放置方案 (Placement),指导系统如何为该工作负载设置内存系统,以达到优化性能和成本的目的。
总而言之,TMC 的核心思想是通过对硬件性能特征进行细致的分析,建立一个精确的性能模型,并以此模型为基础来智能地决定内存如何分配和数据如何布局,从而优化整体系统性能。
Fig-7 模型构建方法
图表详细展示了如何生成之前提到的“性能模型”。模型的构建过程始于一个关键的性能分析步骤 (Profiling Step)。为了全面地了解工作负载的性能特征,这个分析步骤特意在三种不同的配置下进行:
- fast_max: 使用0%的慢速内存,并配置最大大小的末级缓存 (LLC)。这代表了偏向于快速内存和最大缓存的情况。
- fast_min: 使用0%的慢速内存,并配置最小大小的末级缓存 (LLC)。这代表了偏向于快速内存但缓存受限的情况。
- slow_max: 使用100%的慢速内存,并配置最大大小的末级缓存 (LLC)。这代表了完全依赖慢速内存但缓存较大的情况。
通过在这三种具有代表性的极端配置下运行性能分析,可以收集到丰富的数据。这些数据包括数据结构的访问频率、不同缓存大小时的缓存未命中曲线,以及内存级并行度等关键指标。
所有这些从不同配置下收集到的性能分析数据,最终被汇集起来,用于生成性能模型。这意味着该性能模型是基于对工作负载在不同内存系统特性(速度、缓存大小、并行度)下的实际表现的深入了解而构建的。
图表展示了前文提到的性能模型如何用于预测不同数据放置方案下的性能指标。
图表上方提供了一些输入数据,即不同数据结构(List1, List2, Hash)的内存访问速率和它们的大小。这些是模型进行预测所需的信息。
图表下方展示了两种不同的数据放置方案:一是将 Hash 放在 CXL 内存层(通常被用作较慢的内存层),同时将 Hash 和 List1/2 放在 DRAM 层(较快的内存层);第二种是将 Hash 和 List 1放置在 CXL 层,而 List2 放在 DRAM 层。
对于这两种不同的数据放置方案,模型给出了预测结果:慢速内存(CXL)的访问速率。可以看到,方案 1 预测的慢速内存访问速率是 0.28,而方案 2 预测的是 0.80。这表明,即使是相同的数据结构,仅仅改变它们在不同速度内存层级中的位置,就会显著影响对慢速内存的访问频率。慢速内存的访问速率是衡量性能的一个重要指标,较高的慢速内存访问速率通常意味着更多的慢速访问,从而可能导致性能下降。
图表的核心在于说明:构建的性能模型能够根据不同的数据放置策略,预测关键的性能指标(如慢速内存访问速率),从而帮助用户评估哪种放置方案可能更优,这体现了模型的实用价值。
图表总结了 TMC的主要贡献和优势。
结论指出,TMC 相较于先前的研究工作,提供了一个更先进的性能模型。这个模型能够为终端客户选择最优的性能和总拥有成本 (TCO) 的平衡点,同时也帮助数据中心运营商优化资源分配。此外,该模型还支持进行假设分析,使用户或运营商能够探索不同配置方案的影响。
在量化优势方面,图表给出了具体的改进数据:TMC 能够将配置或方案的搜索成本降低到先前的研究工作的三分之一(降低 3 倍),并且将资源效率提高了 17%。
TMC 的研究通过提供一个更优越、更具洞察力的性能模型,不仅在理论上超越了先前的黑盒方法,更在实践中带来了显著的好处,包括降低成本、优化资源利用以及提升分析能力。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
- CXL技术在实际应用中还面临哪些挑战?如何克服这些挑战?
- TMC研究方法在其他领域是否有应用潜力?如何扩展其应用范围?
- 未来内存技术的发展趋势是什么?CXL技术将如何演进以适应这些趋势?
原文标题:Optimized Resource Allocation for CXL Tiered-Memory Systems
Notice:Human's prompt, Datasets by Gemini-2.0-flash-thinking
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-27,如有侵权请联系 cloudcommunity@tencent 删除系统性能模型内存数据本文标签: CXL调优基于负载感知的TMC模型
版权声明:本文标题:CXL调优:基于负载感知的TMC模型 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1747499199a2169201.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论