AI在线 AI在线

AI

MMaDA:多模态大型扩散语言模型的创新突破

大家好,我是肆〇柒。 今天,我们来聊聊一篇来自普林斯顿大学、北京大学、清华大学和字节跳动的研究团队的最新成果——MMaDA(Multimodal Large Diffusion Language Models)。 这项研究在多模态人工智能领域带来了新的突破,其创新的统一扩散架构和先进的后训练策略,为多模态任务的处理提供了全新的思路和解决方案。
5/28/2025 3:30:00 AM
肆零柒

AI问答系统的挑战之语义鸿沟与知识盲点,让大模型理解行业黑话

许多企业在引入通用型AI问答系统后,普遍面临两大核心技术挑战:语义理解的精准度不足和领域知识的深度缺失。 这直接导致系统在处理行业特定术语(黑话)时表现不佳,进而影响问答的准确性和用户体验。 行业黑话识别难题的技术根源通用AI模型主要依赖大规模、多领域的公开语料进行预训练。
5/28/2025 3:00:00 AM
贝塔街的万事屋

AdaptThink:推理模型的自适应思考范式

大家好,我是肆〇柒。 我前几天就看到这么一篇论文关于 AdaptThink。 它主要讲的是如何通过强化学习,来实现Reason Model(推理模型如o1,R1)根据问题难度自适应选择思考模式(思考或不思考),以优化推理质量和效率的平衡。
5/28/2025 2:40:00 AM
肆零柒

什么是 AI 智能体?一个例子说清楚

很多人知道,AI 可以用来聊天,帮你生成文本,比如写总结、改文案、润邮件。 但你有没有想过:这些事情,其实都可以交给一个AI 智能体自动完成? 比如这件事:你输入一些工作数据,让 AI 帮你写一篇工作总结,再稍作修改发给主管。
5/28/2025 2:00:00 AM
大征哥

DeepSeek-V3:硬件与模型的完美统协,奏响 AI 高效新乐章

大家好,我是肆〇柒。 DeepSeek-V3 曾经一度备受全球瞩目,从 V3 发布至今,这一开源模型已经在众多企业场景中成功落地。 然而,在落地过程中,由于其复杂的工程细节,相信许多团队也遇到了不少挑战。
5/28/2025 1:20:00 AM
肆零柒

基于大模型的智能问答系统

在构建基于大模型的智能问答系统时,LangChain 提供了一个强大的框架,支持各种模块来帮助开发者构建更复杂、更智能的语言处理应用。 以下是构建此类系统的一些关键组件和步骤。 模型接入:使用 LangChain 支持的模型,通过 API 接入外部模型,或利用 api-for-open-llm 框架调用 本地llm模型。
5/28/2025 1:00:00 AM
耗子

从无人问津到大厂簇拥,MCP到底是个啥?

在当今快速发展的AI领域,技术的迭代和创新不断涌现,而一种名为MCP的协议,正在悄然改变着AI模型与外部世界交互的方式。 近年来,随着AI技术的蓬勃发展,智能体(Agent)逐渐成为驱动AI应用的核心力量。 而MCP作为智能体的关键支撑技术,凭借其高效、可靠且灵活的任务执行能力和资源管理机制,为智能体在复杂多变的环境中提供了强大的保障,确保其能够高效运作。
5/28/2025 12:30:00 AM
Yu

Claude 4一战封神!找出6万行架构级重构的白鲸bug! 前大厂开发者自述:四年投入了200个小时没发现,别的模型都没做到!

出品 | 51CTO技术栈(微信号:blog51cto)今天,一篇Reddit上的帖子走红了,光看题目就很有料:Claude Opus 帮我解决了一个我四年来都找不到的“白鲸级 bug”图片发帖人是一位有 30 年经验的前 FAANG C 工程师,是团队里负责给bug清场的大佬级角色。 但这一次,他坦言被 Claude Opus “彻底震撼了”。 这个 Bug 有多棘手?
5/27/2025 7:08:26 PM
伊风

Riffle发布:无限画布+AI神器,音乐创作从此无界限!

一款名为 Riffle 的全新音乐创作工具近日引发业界热议。 这款专为音乐创作者设计的平台以其 无限画布 理念和强大的 AI 功能,为旋律记录、歌词创作、乐器叠加和项目管理提供了一站式解决方案。 AIbase 综合整理最新信息,带您深入了解 Riffle 如何重新定义音乐创作的未来。
5/27/2025 6:00:50 PM
AI在线

快手公布2025年Q1财报:可灵AI营收超1.5亿元,商业化加速落地

5月27日,快手发布2025年第一季度财报,旗下自研AI产品“可灵AI”表现亮眼,单季营业收入突破人民币1.5亿元,展现出强劲的商业化能力。 自2023年6月推出以来,可灵AI持续技术迭代,保持全球领先水平,并在多个领域加速落地应用。 公告显示,目前可灵AI已广泛应用于广告营销、短剧创作、智能终端等多个行业场景,成为快手AI布局的重要支点。
5/27/2025 6:00:35 PM
AI在线

字节推出统一多模态模型 BAGEL,GPT-4o 级的图像生成能力直接开源了!

图片字节推出的 BAGEL 是一个开源的统一多模态模型,他们直接开源了GPT-4o级别的图像生成能力。 (轻松拿捏“万物皆可吉卜力”玩法~)。 可以在任何地方对其进行微调、提炼和部署,它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能,通过能够实现精确、准确和逼真的输出的原生多模态架构解锁有用且有价值的图像生成。
5/27/2025 3:59:41 PM
AIGC Studio

图像编辑革命,万物皆可插入!浙大/哈佛/南洋理工提出Insert Anything,告别PS抠图,AI让世界无缝生长

浙江大学、哈佛大学、南洋理工大学联合提出了统一的图像插入框架Insert Anything,支持多种实际场景,包括艺术创作、逼真的脸部交换、电影场景构图、虚拟服装试穿、配饰定制和数字道具更换,下图展示了其在各种图像编辑任务中的多功能性和有效性。 效果展示相关链接论文:::通过 DiT 中的上下文编辑插入图像本研究提出了“Insert Anything”,这是一个基于参考的图像插入统一框架,可在用户指定的灵活控制指导下将参考图像中的对象无缝集成到目标场景中。 我们的方法并非针对单个任务训练单独的模型,而是在我们新的AnyInsertion数据集上训练一次——该数据集包含 12 万个提示图像对,涵盖人物、物体和服装插入等多种任务——并可轻松推广到各种插入场景。
5/27/2025 3:59:03 PM
AIGC Studio

对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多

上海交大、27岁、最年轻博导,留给张林峰的标签不多了(Doge)。 最新引发关注的,是他实实在在的一个论文成果——他们提出了一种新的数据集蒸馏方法,结果获得了CVPR 2025满分。 通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。
5/27/2025 3:44:28 PM

5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限

只用5%的参数,数学和代码能力竟然超越满血DeepSeek? 北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。 该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。
5/27/2025 3:40:34 PM

舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。 游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。 该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。
5/27/2025 3:35:02 PM

低Token高精度!字节复旦推出自适应推理框架CAR

过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。
5/27/2025 3:28:47 PM

扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧

首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。
5/27/2025 3:28:11 PM

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。 具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍处于起步阶段。
5/27/2025 3:23:05 PM