学术活动
您当前的位置:首页 > 新闻动态 > 学术活动
【04.22】“青年科技工作者园地”举行第167次活动
文章来源:  2026-04-20
】 【】 【

活动时间、地点:4月22日(下周三)下午两点半 计算中心二楼会议室


主持人:胡誉老师


报告内容如下:



1. 大模型浪潮下大数据存储的挑战及思考


报告人:魏占辰,互联网大厂AI存储技术专家,负责AI场景高性能分布式存储平台的设计、研发和维护工作,确保大模型训练高效稳定运行

本报告立足实际问题,梳理了从数仓时代到大模型时代演进过程中,业务需求对存储系统带来的挑战,以及互联网公司采取的部分应对措施,并对机器学习方向大数据存储的未来发展提出了思考与建议。


2. 面向同步辐射光源科学数据的智能压缩框架及方法研究


报告人:刘点


随着以高能同步辐射光源(HEPS)为代表的第四代光源的建设,极高的空间相干性与亮度直接推动了实验数据规模的指数级增长,峰值产生量可达每天PB量级。海量异构数据为装置的存储、传输及在线计算带来了极其严峻的挑战。然而,现有的传统通用无损压缩算法(如gzip等)难以充分挖掘光源图像的空间与物理约束,面对高噪声场景极易出现压缩性能退化;同时,单一且静态的压缩算法无法适应复杂多变的实验模式,且难以满足高通量数据流的吞吐性能约束,极易成为制约系统运行的瓶颈。针对上述挑战,本研究突破了寻找“单一最优算法”的传统思路,提出了一套面向光源实验数据的通用压缩方法学与持续学习框架。研究首先构建了统一的数据特征表征与潜力建模体系,从信息论角度定量刻画光源数据的多样性;其次,设计了基于“历史匹配、规则匹配、特征筛选”的三级递进分层决策机制,在庞大的策略空间中实现压缩算法的高效、智能筛选;最后,引入持续学习机制,使系统能够利用历史性能数据动态修正策略选择模型,实现随实验场景演化的自适应优化。本框架旨在保障科学可信度的前提下,实现压缩效率与计算性能的协同优化,为海量光源数据的高效处理提供系统级解决方案。


3. 高能物理EB级数据场景下的元数据管理挑战与现状分析


报告人:唐元鸣


本报告聚焦于高能物理迈入EB级数据时代所引发的核心存储挑战。首先剖析科学数据负载的典型特征,特别是其深层次的目录结构、海量的小文件规模以及高并发的元数据访问模式,这些特征共同使得元数据管理的效率成为整个存储系统的关键瓶颈。核心部分将系统梳理当前主流分布式文件系统(如集中式、全分布哈希、动态子树分区等架构)在应对上述极端场景时的局限性。重点在于探讨其在试图满足“系统横向扩展性”与“深目录操作局部性”这两大核心需求时所面临的矛盾与权衡。通过此分析,尝试勾勒出现有技术方案的能力边界与尚未解决的关键问题。



附件下载:

地址:北京市918信箱 邮编:100049 电话:86-10-88235008 Email:ihep@ihep.ac.cn
中国科学院高能物理研究所 备案序号:京ICP备05002790号-1 文保网安备案号: 110402500050