理论
多模态生成框架新SOTA:文本+空间+图像随意组合,20W+数据开源,复旦腾讯优图出品
能处理任意条件组合的新生成框架来了! 复旦大学、腾讯优图实验室等机构的研究人员提出UniCombine,一种基于DiT的多条件可控生成框架,能够处理包括但不限于文本提示、空间映射和主体图像在内的任意控制条件的任意组合,并保持高度的一致性和出色的和谐性。 具体效果be like:图片据了解,现有的多条件可控生成框架或是只能处理单一种类的多个条件,或是只适用于某种特定的多类别组合,从而普遍缺乏通用性的多类别 多条件的组合式生成能力。
4/17/2025 2:55:00 AM
Dify+RAGFLow:基于占位符的图片问答升级方案
4/2 号时写了一篇 RAGFlow 实现图片问答的原理解析,后续在知识星球内有星友陆续反馈在使用我提供的源码复现时,会出现知识库中能渲染图片,但回答中图片无法正常加载的问题。 知识库预览和引用文件部分是直接展示原始数据或进行简单渲染,它们能正确显示图片,证明原始上传的增强文本中的 URL 是正确的,并且图片服务器和网络配置是通的,问题出在聊天内容生成这个环节。 我当时提供了三种选择选择,分别是:更强的 prompt 指令、更强的 LLM 和”占位符 后处理“的方案,鉴于后续大家反馈前两种效果依然不够稳定,这篇我来系统的分享下如何实现第三种更符合实际生产场景的 RAG 富文本处理方案。
4/17/2025 1:00:00 AM
韦东东
突然的大招!刚刚,腾讯元宝直接成为微信好友,腾讯找到了新希望!
继微信接入 DeepSeek 之后,刚刚腾讯再次放出流量大招,用户可以加微信好友“元宝”。 你可以和他对话,也可以发链接、文件给他;元宝可以无缝与用户对话,路径更短。 你甚至可以把它置顶。
4/16/2025 10:17:33 PM
突发!字节AI Lab将整体并入Seed团队!字节AI Lab消亡史全梳理:比达摩院更早,曾撑起抖音推荐神话,如今彻底退出舞台
编辑 | 李美涵出品 | 51CTO技术栈(微信号:blog51cto)据《AI科技评论》报道,字节跳动 AI Lab 将整体并入 Seed 团队,标志着这个成立已久的老牌研究院式组织,正在被一种更“扁平化”的新型研发模式彻底取代。 自 2025 年 2 月原 Google DeepMind 副总裁吴永辉加入字节以来,字节的 AI 业务陆续迎来一系列组织架构和人事上的重大调整。 原本由朱文佳独立负责的 Seed 部门,如今逐步演变为吴永辉与朱文佳分工协作的双负责人机制:朱文佳主抓模型应用方向,吴永辉则掌舵 AI 基础研究。
4/16/2025 4:45:52 PM
李美涵
AI驱动内容分享!传OpenAI和Kimi都在探索打造新型社交网络
在人工智能飞速发展的今天,AI 技术正在不断重塑我们的社交和内容分享方式。 最近,有消息称 OpenAI 正在研发一款全新的社交平台,而 Kimi 所属的月之暗面也有类似的计划。 这不仅引发了科技界的广泛关注,也为未来的社交网络发展带来了新的可能性。
4/16/2025 3:31:14 PM
视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1
语言模型的推理刚火完,视频AI也开始「卷」起来了。 这次出手的是港中文 清华组合,直接把强化学习里的R1玩法搬到了视频领域,整出了全球首个视频版R1模型:Video-R1。 别看它只有7B参数,但它在李飞飞提出的VSI-Bench基准中,竟然超越了GPT-4o!
4/16/2025 3:28:31 PM
新智元
MIT惊人神作:AI独立提出哈密顿物理!0先验知识,一天破译人类百年理论
充满想象力的MIT大牛团队,又有新作了! 大佬Max Tegmark、Ziming Liu等人在一项新研究中发现,AI能够在没有任何先验知识的情况下,能够完全独立地提出哈密顿物理量。 论文地址:,这里的AI是LNN,而非LLM。
4/16/2025 3:28:01 PM
新智元
Manus平替方案:用DeepSeek+MCP Server构建AI自主工作流
前言在AI技术日新月异的今天,我们正见证着LLM(大语言模型)从"能说会道"向"能工巧匠"的进化。 当Anthropic推出Model Context Protocol(MCP)时,它像一道闪电划破夜空——这个被称作AI界的USB-C的协议,正在重新定义人机协作的边界。 作为一个沉迷于技术探索的开发者,我始终在寻找让AI真正"落地"的方法。
4/16/2025 3:22:51 PM
后端小肥肠
Claude终于能Research了!打通谷歌全家桶,工作效率10倍提升
今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。 Anthropic称Research功能是与Claude合作的新方式。 它能从多个角度分析问题,自动搜索信息,几分钟之内给出答案。
4/16/2025 1:51:29 PM
新智元
迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了
论文标题:Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models论文主页:: 仓库:. 迈向推理时代 900 篇文献揭示长链思维(Long CoT)的前世今生近年来,大模型(Large Language Models, LLMs)在数学、编程等复杂任务上取得突破,OpenAI-o1、DeepSeek-R1 等推理大模型(Reasoning Large Language Models,RLLMs)表现尤为亮眼。 但它们为何如此强大呢?
4/16/2025 1:28:00 PM
机器之心
AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理
大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元
黄仁勋5000亿豪赌:AI超算首次Made in USA!
英伟达周一抛出重磅消息,宣布将首次在美国制造AI超级计算机。 未来四年内,英伟达将通过与台积电、富士康、纬创资通、安靠(Amkor)和矽品(SPIL)的合作,在美国打造出价值5000亿美元的AI基础设施。 目前,位于亚利桑那州凤凰城的台积电工厂已经率先开工,开始生产Blackwell芯片。
4/16/2025 9:41:46 AM
新智元
永别了,GPT-4!
猝不及防地,GPT-4就这样退出历史舞台了。 4月10日,OpenAI正式宣布,即将从ChatGPT中移除两年前推出的GPT-4。 从4月30日起,GPT-4将被当前的默认模型GPT-4o完全取代。
4/16/2025 9:35:03 AM
新智元
GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的
不过两月,GPT-4.5正式出局,前浪把后浪拍在了沙滩上。 GPT-4.1家族的出世,以更强编码性能,百万token上下文,更具性价比的价格,直接击穿了4.5。 nano版的GPT-4.1性能足以媲美GPT-4o mini,而且速度更快,价格更便宜。
4/16/2025 9:30:16 AM
新智元
英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练
密集模型的推理能力也能和DeepSeek-R1掰手腕了? 华为利用纯昇腾集群训练出的盘古Ultra,在数学竞赛、编程等推理任务当中,和R1打得有来有回。 关键是模型参数量只有135B,整个训练过程零英伟达含量,而且没有出现损失尖峰。
4/16/2025 8:50:00 AM
量子位
ICLR 2025时间检验奖颁给Adam之父!Bengio「注意力机制」摘亚军
刚刚,ICLR 2025时间检验奖公布! 斩获大奖的是,xAI工程师、Hinton高徒Jimmy Ba发表的Adam优化器。 获得亚军的是,Yoshua Bengio团队提出的「注意力机制」,为Transformer和大模型奠定了基础。
4/16/2025 8:30:00 AM
新智元
从黑箱到透明工厂:Anthropic用回路追踪技术给LLM装上思维监控屏
译者 | 朱先忠审校 | 重楼引言多年来,基于Transformer的大型语言模型(LLM)在从简单的信息检索系统到能够进行编码、写作、开展研究的复杂智能体等一系列任务上取得了长足的进步。 然而,尽管这些模型功能强大,但它们在很大程度上仍然是黑匣子。 给定输入,它们可以完成任务,但我们缺乏直观的方法来理解任务的具体完成方式。
4/16/2025 8:05:00 AM
朱先忠
人工智能在科学发现中的崛起:AI 能否真正跳出思维定式?
译者 | 涂承烨审校 | 重楼人工智能(AI)正在快速发展,其应用已遍布到医疗、金融、教育和娱乐等行业,而最令人兴奋的领域之一便是科学研究。 AI 处理海量数据、识别复杂模式并做出预测的能力,正在加速科学发现的步伐。 这引发了一个有趣的问题:AI 能否像人类科学家一样跳出思维定式,提出真正新颖的想法?
4/16/2025 8:00:00 AM
涂承烨
资讯热榜
昆仑万维面向全球发布天工超级智能体Skywork Super Agents
昆仑万维天工超级智能体发布!AI Office革命来袭,Deep Research碾压OpenAI,成本仅40%!
谷歌发布Flow AI剪辑工具:Veo3 与Imagen4 驱动、镜头控制与场景扩展
字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破
告别“单打独斗”!AI 协作新范式 MoA,如何集结大模型“梦之队”?
3分钟生成UI源文件!实测谷歌最新UI设计神器Google Stitch
谷歌Gemini 2.5 Pro Deep Think发布:并行推理重塑AI复杂问题解决
每月249.99美元!谷歌推出 AI Ultra 订阅计划,畅享最强大 AI 模型与高级功能
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
腾讯
Anthropic
神经网络
研究
3D
计算
机器学习
Sora
生成
AI设计
AI for Science
苹果
GPU
AI视频
训练
华为
搜索
场景
Claude
百度
人形机器人
预测
伟达
xAI
智能体
深度学习
Transformer
大语言模型
字节跳动
模态
LLaMA
文本
具身智能
神器推荐
Copilot
驾驶
视觉
算力
API
应用
Agent
工具
安全
大型语言模型
干货合集
视频生成