AI在线 AI在线

理论

多模态生成框架新SOTA:文本+空间+图像随意组合,20W+数据开源,复旦腾讯优图出品

能处理任意条件组合的新生成框架来了! 复旦大学、腾讯优图实验室等机构的研究人员提出UniCombine,一种基于DiT的多条件可控生成框架,能够处理包括但不限于文本提示、空间映射和主体图像在内的任意控制条件的任意组合,并保持高度的一致性和出色的和谐性。 具体效果be like:图片据了解,现有的多条件可控生成框架或是只能处理单一种类的多个条件,或是只适用于某种特定的多类别组合,从而普遍缺乏通用性的多类别 多条件的组合式生成能力。
4/17/2025 2:55:00 AM

Dify+RAGFLow:基于占位符的图片问答升级方案

4/2 号时写了一篇 RAGFlow 实现图片问答的原理解析,后续在知识星球内有星友陆续反馈在使用我提供的源码复现时,会出现知识库中能渲染图片,但回答中图片无法正常加载的问题。 知识库预览和引用文件部分是直接展示原始数据或进行简单渲染,它们能正确显示图片,证明原始上传的增强文本中的 URL 是正确的,并且图片服务器和网络配置是通的,问题出在聊天内容生成这个环节。 我当时提供了三种选择选择,分别是:更强的 prompt 指令、更强的 LLM 和”占位符 后处理“的方案,鉴于后续大家反馈前两种效果依然不够稳定,这篇我来系统的分享下如何实现第三种更符合实际生产场景的 RAG 富文本处理方案。
4/17/2025 1:00:00 AM
韦东东

突然的大招!刚刚,腾讯元宝直接成为微信好友,腾讯找到了新希望!

继微信接入 DeepSeek 之后,刚刚腾讯再次放出流量大招,用户可以加微信好友“元宝”。 你可以和他对话,也可以发链接、文件给他;元宝可以无缝与用户对话,路径更短。 你甚至可以把它置顶。
4/16/2025 10:17:33 PM

突发!字节AI Lab将整体并入Seed团队!字节AI Lab消亡史全梳理:比达摩院更早,曾撑起抖音推荐神话,如今彻底退出舞台

编辑 | 李美涵出品 | 51CTO技术栈(微信号:blog51cto)据《AI科技评论》报道,字节跳动 AI Lab 将整体并入 Seed 团队,标志着这个成立已久的老牌研究院式组织,正在被一种更“扁平化”的新型研发模式彻底取代。 自 2025 年 2 月原 Google DeepMind 副总裁吴永辉加入字节以来,字节的 AI 业务陆续迎来一系列组织架构和人事上的重大调整。 原本由朱文佳独立负责的 Seed 部门,如今逐步演变为吴永辉与朱文佳分工协作的双负责人机制:朱文佳主抓模型应用方向,吴永辉则掌舵 AI 基础研究。
4/16/2025 4:45:52 PM
李美涵

AI驱动内容分享!传OpenAI和Kimi都在探索打造新型社交网络

在人工智能飞速发展的今天,AI 技术正在不断重塑我们的社交和内容分享方式。 最近,有消息称 OpenAI 正在研发一款全新的社交平台,而 Kimi 所属的月之暗面也有类似的计划。 这不仅引发了科技界的广泛关注,也为未来的社交网络发展带来了新的可能性。
4/16/2025 3:31:14 PM

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

语言模型的推理刚火完,视频AI也开始「卷」起来了。 这次出手的是港中文 清华组合,直接把强化学习里的R1玩法搬到了视频领域,整出了全球首个视频版R1模型:Video-R1。 别看它只有7B参数,但它在李飞飞提出的VSI-Bench基准中,竟然超越了GPT-4o!
4/16/2025 3:28:31 PM
新智元

MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论

充满想象力的MIT大牛团队,又有新作了! 大佬Max Tegmark、Ziming Liu等人在一项新研究中发现,AI能够在没有任何先验知识的情况下,能够完全独立地提出哈密顿物理量。 论文地址:,这里的AI是LNN,而非LLM。
4/16/2025 3:28:01 PM
新智元

Manus平替方案:用DeepSeek+MCP Server构建AI自主工作流

前言在AI技术日新月异的今天,我们正见证着LLM(大语言模型)从"能说会道"向"能工巧匠"的进化。 当Anthropic推出Model Context Protocol(MCP)时,它像一道闪电划破夜空——这个被称作AI界的USB-C的协议,正在重新定义人机协作的边界。 作为一个沉迷于技术探索的开发者,我始终在寻找让AI真正"落地"的方法。
4/16/2025 3:22:51 PM
后端小肥肠

Claude终于能Research了!打通谷歌全家桶,工作效率10倍提升

今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。 Anthropic称Research功能是与Claude合作的新方式。 它能从多个角度分析问题,自动搜索信息,几分钟之内给出答案。
4/16/2025 1:51:29 PM
新智元

迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

论文标题:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models论文主页:: 仓库:. 迈向推理时代  900 篇文献揭示长链思维(Long CoT)的前世今生近年来,大模型(Large Language Models, LLMs)在数学、编程等复杂任务上取得突破,OpenAI-o1、DeepSeek-R1 等推理大模型(Reasoning Large Language Models,RLLMs)表现尤为亮眼。 但它们为何如此强大呢?
4/16/2025 1:28:00 PM
机器之心

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元

黄仁勋5000亿豪赌:AI超算首次Made in USA!

英伟达周一抛出重磅消息,宣布将首次在美国制造AI超级计算机。 未来四年内,英伟达将通过与台积电、富士康、纬创资通、安靠(Amkor)和矽品(SPIL)的合作,在美国打造出价值5000亿美元的AI基础设施。 目前,位于亚利桑那州凤凰城的台积电工厂已经率先开工,开始生产Blackwell芯片。
4/16/2025 9:41:46 AM
新智元

永别了,GPT-4!

猝不及防地,GPT-4就这样退出历史舞台了。 4月10日,OpenAI正式宣布,即将从ChatGPT中移除两年前推出的GPT-4。 从4月30日起,GPT-4将被当前的默认模型GPT-4o完全取代。
4/16/2025 9:35:03 AM
新智元

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

不过两月,GPT-4.5正式出局,前浪把后浪拍在了沙滩上。 GPT-4.1家族的出世,以更强编码性能,百万token上下文,更具性价比的价格,直接击穿了4.5。 nano版的GPT-4.1性能足以媲美GPT-4o mini,而且速度更快,价格更便宜。
4/16/2025 9:30:16 AM
新智元

英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

密集模型的推理能力也能和DeepSeek-R1掰手腕了? 华为利用纯昇腾集群训练出的盘古Ultra,在数学竞赛、编程等推理任务当中,和R1打得有来有回。 关键是模型参数量只有135B,整个训练过程零英伟达含量,而且没有出现损失尖峰。
4/16/2025 8:50:00 AM
量子位

ICLR 2025时间检验奖颁给Adam之父!Bengio「注意力机制」摘亚军

刚刚,ICLR 2025时间检验奖公布! 斩获大奖的是,xAI工程师、Hinton高徒Jimmy Ba发表的Adam优化器。 获得亚军的是,Yoshua Bengio团队提出的「注意力机制」,为Transformer和大模型奠定了基础。
4/16/2025 8:30:00 AM
新智元

从黑箱到透明工厂:Anthropic用回路追踪技术给LLM装上思维监控屏​

译者 | 朱先忠审校 | 重楼引言多年来,基于Transformer的大型语言模型(LLM)在从简单的信息检索系统到能够进行编码、写作、开展研究的复杂智能体等一系列任务上取得了长足的进步。 然而,尽管这些模型功能强大,但它们在很大程度上仍然是黑匣子。 给定输入,它们可以完成任务,但我们缺乏直观的方法来理解任务的具体完成方式。
4/16/2025 8:05:00 AM
朱先忠

人工智能在科学发现中的崛起:AI 能否真正跳出思维定式?

译者 | 涂承烨审校 | 重楼人工智能(AI)正在快速发展,其应用已遍布到医疗、金融、教育和娱乐等行业,而最令人兴奋的领域之一便是科学研究。 AI 处理海量数据、识别复杂模式并做出预测的能力,正在加速科学发现的步伐。 这引发了一个有趣的问题:AI 能否像人类科学家一样跳出思维定式,提出真正新颖的想法?
4/16/2025 8:00:00 AM
涂承烨