8月12日股票网上配资靠谱吗,华为在一场会议中对外推出AI推理新技术UCM(推理记忆数据管理器,Unified Cache Manager),这是一款以KV Cache和记忆管理为中心的推理加速套件,通过推理框架、算力、存储三层协同,优化Tokens在各业务环节中流转的效率,以降低每Token的推理成本。 华为公司副总裁、数据存储产品线总裁周跃峰在演讲中表示,AI时代,模型训练、推理效率与体验的量纲都以Token数为表征,Token经济已经到来。“但在一定时间内推理的Token数上,中国头部互联网公司与海外头部互联网公司仍有差距。” 根据华为会上公布的数据,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60Tokens/s(时延50 - 100ms),因此,如何解决推理效率与用户体验的难题迫在眉睫。目前,包括华为在内,各大科技企业都会在调度KV Cache基础上,研发优化推理过程的技术。 以高带宽内存(HBM)为例,在AI推理进程中,本应是数据顺畅流转的 “高速通道”,但现实是资源常常紧缺。一旦HBM资源不足,AI推理便会出现任务卡顿、响应迟缓等问题。UCM的研发方向主要在于不再单纯依赖HBM这一 “独木桥”,而是在存储层面构建起一个多层级、可灵活调配的资源体系,使得推理过程中的数据能够在不同存储介质间合理流动,充分利用各级存储的优势。 根据华为的测试验证,UCM可将首Token时延最高降低90%,系统吞吐最大提升22倍,实现10倍级上下文窗口扩展。 但从技术上看,尽管国内厂商在AI推理的硬件层面,如算力芯片等方面取得了一定进展,但在以KV Cache为核心的软件体系构建上,尚未形成完整、成熟且具有广泛适用性的解决方案。而在国外,已经有一些较为成熟的基于KV Cache的推理加速软件框架与工具,能够很好地与各类硬件平台适配。 华为在会上表示,希望联合产业界的力量,推进以记忆数据管理为中心的AI推理生态。 “目前业界缺乏一套在各种场景下都能普适适用的框架、加速机制与算法,我们希望通过将部分成果开放,促进框架厂商、存储厂商以及GPU厂商共同加速这一框架机制的成熟,最终解决当前AI行业落地过程中的效率与成本问题。”华为数据存储产品线AI存储首席架构师李国杰表示,华为计划在今年9月正式开源UCM。 中国信息通信研究院人工智能研究所平台与工程化部主任曹峰表示,“系统级的推理架构优化已经形成主流,但不是单点技术的突破,我们要从整个芯片级的、软件级的,再到上层的框架级的进行协同考虑,形成整个推理架构,这也是未来产业的发展重点。” 举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部:banquan@yicai.com 文章作者![]() 李娜 相关阅读![]() 再搭华为智能化“顺风车”。 5 205 07-13 09:44![]() 华为副总裁、供应链管理部总裁汤启兵强调,深圳理工与华为的合作是“科教+产业”的通力协作。 31 06-24 11:44![]() 苹果全球开发者大会将召开、港股宁德时代加入MSCI中国标准和大盘股指数、国内航线燃油附加费将下调……6月哪些财经大事值得关注?一图速览 230 05-31 21:39![]() 华为智能汽车解决方案BU CEO靳玉志称,现在行业竞争厉害,很多智驾公司转行去做机器人了。 182 05-31 14:29![]() 尊界S800股票网上配资靠谱吗,押注百万元级别豪车市场。 5 301 05-31 10:52 一财最热 点击关闭 |
格隆汇8月4日丨浙江世宝(01057.HK)公布,于2024年8月1日,公司成功向中信银行杭州经济技术开发区支行申购了第六次中信银行理财产品,认购金额乃是使用公...
怎么买杠杆股票 昨天没一丁点波动,也就中午从高位跌到了2350,之后再无波动。 我知道停盘,但你看看周三黄金的表现,说白了这黄金就是想等今天晚上的非农,没有新的...
操作建议:早盘关注2499-2500反应,走走再给建议,目前不好下手。昨天给出2508附近空,还是有空间的。 9日,万事网联信息技术(北京)有限公司正式开业,这...
首先大家要注意更年期,无论怎么样去调理,首先一定要把自己的心态放平,如果自己的心态情绪调整不好,可以这样讲用什么方式都不行,接下来咱们言归正传接着讲更年期的问题...
近年来我国场外衍生品业务迅速发展,根据中证报价公开数据,截至2023年9月证券公司场外衍生品期末存量规模到达23,133.52亿元,挂钩标的资产和场内对冲工具越...