全球最快推理速度模型！Qafind Labs 发布 ChatDLM 技术

作者：AI在线 2025-04-28 09:00

近日，Qafind Labs发布了其最新研发的ChatDLM模型，这一创新成果在人工智能领域引起了广泛关注。 ChatDLM是首个将“区块扩散（Block Diffusion）”和“专家混合(MoE)”深度融合的模型，其在GPU上实现了惊人的2，800tokens/s超高推理速度，支持131，072tokens的超大上下文窗口，开启了文档级生成和实时对话的新纪元。 ChatDLM的核心亮点在于其独特的技术架构。

近日，Qafind Labs发布了其最新研发的ChatDLM模型，这一创新成果在人工智能领域引起了广泛关注。ChatDLM是首个将“区块扩散（Block Diffusion）”和“专家混合(MoE)”深度融合的模型，其在GPU上实现了惊人的2，800tokens/s超高推理速度，支持131，072tokens的超大上下文窗口，开启了文档级生成和实时对话的新纪元。

微信截图_20250428082020.png

ChatDLM的核心亮点在于其独特的技术架构。该模型采用7B参数量，通过区块扩散技术，将输入按块分组，结合空间扩散和跨块注意力机制，极大地提升了处理速度。同时，ChatDLM引入了专家混合（MoE）技术，配置了32到64个专家，每次选择2个专家进行处理，这种灵活的机制进一步优化了模型的性能。

为了支持超大上下文，ChatDLM采用了RoPE优化和分层缓存技术，显著增强了模型的记忆能力。在推理优化方面，ChatDLM通过动态早停、BF16混合精度以及ZeRO分片等技术，实现了多GPU的轻松扩展，进一步提升了模型的效率和可扩展性。

在性能测试中，ChatDLM在A100GPU上表现出色，吞吐量达到2800tokens/s，上下文长度为131，072tokens，平均迭代步数在12到25之间。在HumanEval（0-shot）测试中，ChatDLM的准确率达到92.0%，在Fill-in-the-Middle测试中准确率为84.2%，在ARC-E(0-shot)测试中准确率为83.9%，这些数据充分证明了其卓越的性能。

展望未来，Qafind Labs计划为ChatDLM引入更多先进技术，包括自适应迭代（Adaptive Iteration）、图注意力集成(Graph-Attention)以及多模态扩散(Multimodal Diffusion)，以进一步提升模型的精度和适用范围。

体验地址：https://www.chatdlm.cn

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

可保护作品免遭 AI 训练，Adobe 推出 Content Authenticity 应用

Adobe 推出全新应用 Content Authenticity，用于保护创意工作者的作品署名权，即使有人截屏并在网络二次传播也不受影响。这款网页应用于今日面向公众开放测试，用户上传需要保护的图像，应用就能嵌入隐形元数据和添加“禁止 AI 训练”标签，帮助确认作品归属和保护作品免遭 AI 训练。

4/24/2025 9:32:18 PM

准泽（实习）

城商行掀起大模型招标潮，百万级投入成行业新风口！

在人工智能技术快速发展的背景下，越来越多的城商行开始纷纷参与到大模型的招标中。根据最新消息，超过10家中小银行近期启动了大模型相关项目的招标，标志着这一领域的竞争加剧。这些银行希望通过大模型技术优化现有的金融服务流程，提高运营效率，进而为客户提供更优质的服务。

7/11/2025 11:11:51 AM

AI在线

全球最快推理速度模型！Qafind Labs 发布 ChatDLM 技术

相关资讯

调查：超72% 的企业选择 AI 工具时最看重易用性

可保护作品免遭 AI 训练，Adobe 推出 Content Authenticity 应用

城商行掀起大模型招标潮，百万级投入成行业新风口！