2025年3月18日,基于开源KTransformers架构的 CPU/GPU 异构推理能力,沐曦在曦云C500单卡GPU上成功实现DeepSeek-R1-671B满血版单并发解码吞吐16.5 tokens/s的优异成绩,相比社区官方数据提升20%以上。

图片来源:沐曦Meta公众号

相比国际高端GPU八卡满血版部署方案,本项目在单并发性能上具有极高的性价比。

图片来源:沐曦Meta公众号

沐曦和KVCache.AI团队合作,通过对KTransformers模型框架进行细致的分析和调整,团队成功达成了曦云C500与KTransformers的无缝对接,为进一步性能优化奠定了坚实的基础。

更多相关信息

  • 普超资本助力海尔新能源获超7亿元A轮融资,聚焦分布式智慧新能源

  • 普超投资组合|恭喜极佳视界入选《福布斯中国投资价值初创企业 Top100》

  • 普超资本“投中2024年度榜—最佳投资案例”