AI在线 AI在线

全球最快推理速度模型!Qafind Labs 发布 ChatDLM 技术

近日,Qafind Labs发布了其最新研发的ChatDLM模型,这一创新成果在人工智能领域引起了广泛关注。 ChatDLM是首个将“区块扩散(Block Diffusion)”和“专家混合(MoE)”深度融合的模型,其在GPU上实现了惊人的2,800tokens/s超高推理速度,支持131,072tokens的超大上下文窗口,开启了文档级生成和实时对话的新纪元。 ChatDLM的核心亮点在于其独特的技术架构。

近日,Qafind Labs发布了其最新研发的ChatDLM模型,这一创新成果在人工智能领域引起了广泛关注。ChatDLM是首个将“区块扩散(Block Diffusion)”和“专家混合(MoE)”深度融合的模型,其在GPU上实现了惊人的2,800tokens/s超高推理速度,支持131,072tokens的超大上下文窗口,开启了文档级生成和实时对话的新纪元。

微信截图_20250428082020.png

ChatDLM的核心亮点在于其独特的技术架构。该模型采用7B参数量,通过区块扩散技术,将输入按块分组,结合空间扩散和跨块注意力机制,极大地提升了处理速度。同时,ChatDLM引入了专家混合(MoE)技术,配置了32到64个专家,每次选择2个专家进行处理,这种灵活的机制进一步优化了模型的性能。

为了支持超大上下文,ChatDLM采用了RoPE优化和分层缓存技术,显著增强了模型的记忆能力。在推理优化方面,ChatDLM通过动态早停、BF16混合精度以及ZeRO分片等技术,实现了多GPU的轻松扩展,进一步提升了模型的效率和可扩展性。

在性能测试中,ChatDLM在A100GPU上表现出色,吞吐量达到2800tokens/s,上下文长度为131,072tokens,平均迭代步数在12到25之间。在HumanEval(0-shot)测试中,ChatDLM的准确率达到92.0%,在Fill-in-the-Middle测试中准确率为84.2%,在ARC-E(0-shot)测试中准确率为83.9%,这些数据充分证明了其卓越的性能。

展望未来,Qafind Labs计划为ChatDLM引入更多先进技术,包括自适应迭代(Adaptive Iteration)、图注意力集成(Graph-Attention)以及多模态扩散(Multimodal Diffusion),以进一步提升模型的精度和适用范围。

体验地址:https://www.chatdlm.cn

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

可保护作品免遭 AI 训练,Adobe 推出 Content Authenticity 应用

Adobe 推出全新应用 Content Authenticity,用于保护创意工作者的作品署名权,即使有人截屏并在网络二次传播也不受影响。这款网页应用于今日面向公众开放测试,用户上传需要保护的图像,应用就能嵌入隐形元数据和添加“禁止 AI 训练”标签,帮助确认作品归属和保护作品免遭 AI 训练。
4/24/2025 9:32:18 PM
准泽(实习)

降低门槛,全平台应用,昇腾还会手把手地教你如何用AI

机器之心报道作者:泽南如何才能做到 AI 应用一次开发,全场景部署?昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上,覆盖数十个版本的操作系统,运行在从端侧到云计算集群的各种设备上。这样复杂的环境,对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流,昇腾发布的 CANN、MindSpore、MindX 等工具,可以让开发者实现「统一端边云,全端自动部署」,开启了机器学习开发的新时代,一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中,基础架构作为连接硬件与
3/19/2021 11:23:00 AM
机器之心
  • 1