AMD软硬件协同赋能开发者加速AI智能体创新实践

【天极网笔记本频道】早晨快到公司时，手机中的AI已经将常吃的早餐套餐下单;坐到工位，电脑里智能体已经把过去12小时重要的科技新闻整理好;生成式AI在工作中批量生成图片、视频素材，节省创作的时间并尝试更多内容形式;3个小时的会议，AI助手几分钟就生成了会议大纲、重点信息和待办事项……

几年前AI在端侧落地，融入工作、生活、娱乐等各种场景。最初AI的表现不尽如人意，缺乏算力、应用，让AI只能作为替代搜索窗口的辅助工具，或者是聊天机器人。但如今，智能体时代到来，AI具备了更强大的“思考、执行、演进”能力，正从工具升级为提供生产力的助手。数据显示到2030年，全球将有50亿人使用AI技术。相比之下，PC覆盖全球半数人口用了45年、互联网用了27年、智能手机用了15年。

还有一组数据，2024年初中国日均Token的调用量为1000亿，到2026年3月份这个数据已经突破140万亿。短短两年增长超千倍，当然年初OpenClaw的爆火起到了重要作用。“养龙虾”的热潮展现了用户对于“有价值AI应用”的迫切需求，同时也引发了对AI智能体成本、安全、部署门槛的又一轮思考。如果将视线拓宽到整个行业，当下全球AI产业正迎来关键发展拐点，彻底告别传统大模型训练的单一竞争逻辑，AI智能体普及、端侧本地化部署、算力高效利用成为行业全新热点，产业竞争重心从“比拼云端算力规模”转向“算力高效落地、低成本创新、数据安全可控”的综合实力角逐。

在前不久召开的AMD AI开发者大会(AMD AI DevDay 2026)上，AMD董事会主席及首席执行官苏姿丰博士分享了AI发展的新趋势以及AMD的发展中心。她提到，推理与AI智能体的爆发，正在重塑全球计算格局与CPU、GPU的产业定位。在2022年至2025年，CPU和GPU的算力规划比在1:4，进入智能体时代后，CPU和GPU的比例正在向着1:1演进。AMD不仅聚焦打造端到端计算能力，为AI时代提供跨云边端的算力基础设施，与此同时，构建开放的软件生态系统也是AMD的战略核心之一。

还有一点值得关注，AMD AI开发者大会不仅首次在国内举行，也是AMD北美之外唯一举办的AI开发者日活动。苏姿丰博士在主题演讲中介绍道，AMD在大中华区有众多投入，目前AMD主要研发中心有超过4000名工程师在北京、上海、深圳、中国台北，同时还有多个AI卓越中心。AMD不仅携手中国企业打造了数百个落地案例，还与超过100家ISV、初创公司、大学进行合作，深入生态共建。

本次大会吸引了超过2000名开发者参与，AMD也同步分享了在中国赋能和培养AI开发者的一系列举措：通过提供基于Radeon GPU的免费开发者云，与基础模型公司深度协作优化AMD GPU的训练与推理，并与阿里云携手，基于AMD GPU赋能开发者模型社区和创空间，打造前沿的模型与社区生态。此外，AMD还推出了中国AI开发者专属项目，以开放平台构建深度连接，塑造AI创新的未来。

在AMD AI开发者大会期间，AMD还面向开发者举办了包括8大主题GPU实操工作坊、基于AI基础设施系统实践为主题的技术专题研讨会、AMD锐龙AI Max+ 395专场「作品说话」开发者分论坛，以及互动创新的产品与应用展演，给开发者与业内专家提供相互交流、学习、展示成果的平台。

参观大会Demo展区，可以看到开发者利用数据中心GPU、Ryzen AI、Radeon GPU、自适应计算平台等多元算力平台打造的AI开发成果，其中包括在PC端部署的智能体，可以趣味互动的机器人，还有面向教育、医疗、企业服务等千行百业的AI应用实践。比如，江波龙展示的端侧AI存储优化成果——SPU(Storage Processing Unit，存储处理单元)与iSA(Intelligence Storage Agent，存储智能体)协同解决方案。江波龙SPU是专为智能存储架构打造的处理单元，采用5nm先进制程工艺，单盘最大容量可达128TB。其核心优势在于具备存内无损压缩和HLC(High Level Cache)高级缓存技术，能够大幅节省SSD容量成本，并有效降低DRAM容量需求。而作为SPU的“大脑”，iSA存储智能体则是面向端侧AI推理的智能调度引擎。针对MoE大模型参数庞大、KV Cache膨胀快等问题，iSA通过专家卸载、智能缓存管理与预取算法，优化了存储调度。

在Demo区内还有来自多个品牌的搭载AMD锐龙AI Max+ 395处理器的Mini AI工作站或智能体主机，例如极摩客的EVO-X3/X2，有个小彩蛋，在机箱上有苏姿丰博士的签名。

软硬件协同全栈布局，筑牢AI智能体创新底座

作为AI发展、落地的重要着力点，PC在过去几年中围绕AI的创新有目共睹。配合快速演进的软硬件生态，从交互、性能到体验有了全面的跃升。随着智能体时代到来，面对高额Token调用成本、网络延迟限制、核心数据云端传输的隐私风险等限制AI规模化部署和应用的痛点，在PC端本地部署大模型和智能体大有可为。只不过有一个关键前提——高效、可靠的算力底座，这就是AMD锐龙AI Max+系列处理器受到很多开发者、AI从业者以及OEM关注的根本原因。

AMD锐龙AI Max+系列处理器采用了创新架构设计，实现CPU、GPU与NPU算力融合，更重要的是统一内存架构(UMA)技术，凭借高带宽、大容量解决了本地部署大模型“爆显存”的难题，最高支持96GB GPU专属显存，可在本地运行200B参数的复杂大模型，如Qwen 3.5 122B等等。在AMD AI开发者大会上，还有合作伙伴带来多台搭载AMD锐龙AI Max+处理器的Mini AI工作站并联解决方案，提供更大的内存，满足更高负载、企业部门部署的需求。

借助AMD锐龙AI Max+系列的优势，打破了云端算力依赖、Token焦虑与数据隐私瓶颈，大幅降低了AI本地部署的门槛，支持高效可靠的本地推理响应，也更符合当下个人、开发者与企业对智能体的使用需求。目前，依托该系列处理器的“智能体主机”新品类已形成完整产品矩阵，涵盖笔记本、一体机、Mini AI工作站等多形态设备，惠普、华硕、联想、宏碁等头部品牌及国内新兴创新厂商已推出超35款终端产品，全面覆盖个人创作、企业办公、本地模型微调、智能体开发等多元场景。

不止于此，AMD Radeon AI PRO R9700显卡、锐龙Threadripper PRO 9000系列桌面级处理器，进一步补齐了中端开发与高阶算力需求，凭借RDNA 4架构、超大显存与充足的PCIe 5.0通道，完美适配本地AI微调、多模型并行推理、分布式训练等高强度开发场景，打造全层级算力平台。

硬件算力底座固然重要，但关注AMD就不难发现，近几年在生态建设层面，AMD围绕软件栈的投入并不少，开源软件平台ROCm就是其中的代表。AMD高级副总裁、计算与图形总经理Jack Huynh在分享中提到，AMD依托开放标准软件栈，实现全链路互联互通，让ROCm能够覆盖从开发、规模测试到部署的全路径，大幅降低开发者创新门槛。

目前ROCm已在产品和系统层面实现重大更新扩展，新增支持新一代AMD锐龙 AI 400系列处理器，并可在ComfyUI中下载;从ROCm 7.2 版本开始，扩展对Windows和Linux的兼容性，同时新的PyTorch版本可通过AMD软件轻松获取，实现在Windows上的高效部署。

作为支持全系列AMD GPU的统一开源软件平台，ROCm原生适配PyTorch等主流AI框架与OpenClaw智能体框架，支持HIPCC编译器、多模态模型优化工具，实现“一次编写、全路径运行”的开发体验。

依托ROCm软件生态，开发者可实现从端侧PC、工作站到云端数据中心的无缝适配，大幅简化模型迁移、调试、部署流程，显著提升AI开发效率。在本次大会期间，AMD同步推出中文AI开发手册，支持AMD Ryzen AI和Radeon GPU，跨平台支持Windows和Linux，可以让开发者在其现有的工作环境中构建AI，快速上手测试和扩展AI工作负载。

写在最后

迈入智能体时代，不仅是AI技术的关键演进，同时作为最终用户，对于“成熟的AI产品形态”似乎也终于有了更具象的认知。这对于产业链上游参与者而言，是机遇，但也有新的挑战。来自供应链、Token成本等压力，让设备、应用、解决方案提供者在思考如何提升AI能力、部署效率的同时，还需要关注不同场景、细分领域的个性化需求和差异化定位。

对于AMD而言，广受好评的AMD锐龙AI Max+系列、快速迭代的ROCm开源软件平台，是其在端侧AI领域和开发者群体中扩大优势的有力支撑。在生态建设方面，依托软硬件底座，AMD不仅携手开发者、OEM、ISV伙伴为AI市场提供产品与软件应用、培养高端AI人才，还打造了一系列面向行业的解决方案，持续推进AI在更多领域和场景释放价值，助力AI普惠与规模化落地。

这些优势和成果，如何转化为AMD在中国市场更强劲的竞争力和影响力，推动AI领域技术创新，让AI无处不在，值得期待。