模型

免费使用Sora！微软发布Bing Video Creator

今天凌晨1点，微软在官网发布了Bing搜索引擎全新功能——Bing Video Creator。 Bing Video Creator由OpenAI的文生视频模型Sora提供技术支持，通过自然语言就能生成写实、风景、卡通、影视等各种视频。同时会免费为用户提供该服务，生成速度分为快速和标准两种模式，初始有10次快速生成机会，用完后可消耗 100 微软奖励积分继续使用，或继续选择标准速度。

6/3/2025 9:05:29 AM

LeCun新作反杀AGI派！AI连「鸟」都搞不懂，拿什么超越人类？

LLM真的可以像人类一样「思考」了？图灵奖得主Yann LeCun联手斯坦福团队最新论文，狠狠打脸了LLM类人的神话。论文链接：，LeCun认为，大模型就是随机鹦鹉，它们的智力甚至连阿猫阿狗都不如。

6/3/2025 9:02:00 AM

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调强化学习」的两阶段训练范式：先通过推理数据进行监督微调（SFT），再通过强化学习（RL）进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型（LVLM）领域。但近日的一项研究成果却给出了一个惊人的发现：「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径，而 RL 则是在促进真正的多模态推理！

6/3/2025 8:49:00 AM

揭开大模型“伪遗忘”，港理工等团队：结构不变就是没忘

近年来，大语言模型（LLMs）的能力突飞猛进，但随之而来的隐私风险也逐渐浮出水面。训练中暴露的敏感信息往往被模型“记住”，引发广泛关注。在此背景下，机器遗忘（Machine Unlearning）技术应运而生，目标是在不影响整体能力的前提下，有选择性地抹除特定知识。

6/3/2025 8:44:00 AM

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

曾撼动Transformer统治地位的Mamba作者之一Tri Dao，刚刚带来新作——提出两种专为推理“量身定制”的注意力机制。在保持模型性能不变的情况下，将解码速度和吞吐量最高提升2倍，大大优化了模型的长上下文推理能力。这项研究的三位作者均来自普林斯顿大学，论文主要有两大贡献：其一，提出Grouped-Tied Attention（GTA），与已集成到LLaMA 3的注意力机制GQA质量相当，但KV缓存用量减少约50%。

6/3/2025 8:43:00 AM

SSM+扩散模型，竟造出一种全新的「视频世界模型」

在这个 AI 技术与应用大爆发的时代，我们最不缺的就是「热词」，从自回归到扩散模型，从注意力机制到状态空间模型，从思维链到推理模型…… 有时候，其中一些热词会聚拢一处，为 AI 世界创造出新的可能性。今天我们要介绍的这项研究便是如此，集齐了长上下文、状态空间模型（SSM）、扩散模型、世界模型等「热词」，创造了一种全新的「视频世界模型」。该研究来自斯坦福大学、普林斯顿大学和 Adobe Research，在社交网络上引起了不少关注。

6/3/2025 8:40:00 AM

北大校友造通用AI Agent，可执行1000个操作，无邀请码立即上手试用

无邀请码，就可直接上手！北大校友官宣推出号称“最强通用Agent” Fairies（中译仙女），能执行Deep research、代码生成、发邮件等1000个操作。编辑部的小伙伴一上手实测就发出了如下感叹~关键是无需邀请码，Mac和Windows用户只需下载APP就能立即上手试玩。

6/3/2025 8:39:00 AM

Claude团队打开大模型「脑回路」，开源LLM思维可视化工具来了

Claude团队来搞开源了——推出“电路追踪”（circuit tracing）工具，可以帮大伙儿读懂大模型的“脑回路”，追踪其思维过程。该工具的核心在于生成归因图（attribution graphs），其作用类似于大脑的神经网络示意图，通过可视化模型内部超节点及其连接关系，呈现LLM处理信息的路径。研究人员通过干预节点激活值，观察模型行为变化，从而验证各节点的功能分工，解码LLM的“决策逻辑”。

6/3/2025 8:35:00 AM

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

GPT-4o-Image也只能完成28.9%的任务，图像编辑评测新基准来了！ 360个全部由人类专家仔细思考并校对的高质量测试案例，暴露多模态模型在结合推理能力进行图像编辑时的短板。最近，上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员，针对图像编辑AI提出了三个问题：现有的图像编辑评测基准是否已经无法跟上时代的步伐？

6/3/2025 8:30:00 AM

o3崛起，但推理模型离「撞墙」只剩一年？

最多一年，推理模型就会撞上训练算力的「天花板」。 OpenAI的o3这样的推理模型，诞生还不到一年，能力已经突飞猛进。 OpenAI的研究人员非常乐观地认为，这种趋势会持续下去。

6/3/2025 8:26:00 AM

让AI学着“看菜下碟”！港中大等新框架让推理长度减少90%，准确率反增17%

人类在面对简单提问时常常不假思索直接回答，只有遇到复杂难题才会认真推理。如果AI模型也能像人一样决定“要不要思考”，效率是否会大大提升？近日，香港中文大学联合新加坡国立大学Show Lab的研究者提出了一种名为TON（Think Or Not）的新颖选择性推理框架，让视觉语言模型（VLM）可以自主判断是否需要显式推理。

6/3/2025 8:25:00 AM

全面评估多模态模型视频OCR能力，Gemini 准确率仅73.7%

多模态大模型（MLLM）在静态图像上已经展现出卓越的 OCR 能力，能准确识别和理解图像中的文字内容。然而，当应用场景从静态图像拓展至动态视频时，即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。

6/3/2025 8:22:00 AM

1/15成本，实现AI水印新SOTA | 南洋理工大学&A*STAR

给AI生成的作品打水印，让AIGC图像可溯源，已经成为行业共识。问题是，传统水印方法通常把图像当成一个整体处理，全局嵌入、水印提取一锅端，存在不少“短板”：比如，图像局部区域被篡改，就可能导致全局提取失败，也无法定位水印所在具体区域。又比如，无法只保护某个区域，如人脸、LOGO等。

6/3/2025 8:20:00 AM

10个小模型并联跑赢GPT-4.1！无额外训练，方法仅四步

近年来，语言模型技术迅速发展，然而代表性成果如Gemini 2.5Pro和GPT-4.1，逐渐被谷歌、OpenAI等科技巨头所垄断。与此同时，开源社区的小规模模型正面临日益严峻的挑战——他们参数规模通常仅在7B左右，难以在多任务、多领域场景中与大型闭源模型相抗衡，尚未形成真正意义上的通用人工智能能力。在此背景下，上海人工智能实验室联合东北大学、西北工业大学等机构，提出了Avengers框架，旨在探索开源小模型群体智能的新路径。

6/3/2025 8:12:00 AM

全球首个AI智能体「自进化」开源框架来了！一次部署，终生可用

在大语言模型技术迅猛发展的今天，各类AI智能体已广泛应用于科研和工业场景。然而，在实际应用中，构建一个高效、稳定的多智能体系统仍面临诸多挑战：从智能体选型、提示词调试到工作流设计，流程复杂，成本高昂。更重要的是，当前多智能体系统通常「部署即固化」，缺乏自我演化机制。

6/3/2025 8:09:00 AM

多模态扩散模型开始爆发，这次是高速可控还能学习推理的LaViDa

近段时间，已经出现了不少基于扩散模型的语言模型，而现在，基于扩散模型的视觉-语言模型（VLM）也来了，即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫 LaViDa，继承了扩散语言模型高速且可控的优点，并在实验中取得了相当不错的表现。现目前，几乎所有流行的 VLM 都是基于大型语言模型（LLM）构建的，而这些模型采用的范式是自回归（AR），即按照从左到右的顺序逐一生成 token。

5/30/2025 3:54:16 PM

大模型智能体如何突破规模化应用瓶颈，核心在于Agentic ROI

本文第一作者为上海交通大学计算机学院副教授刘卫文，研究方向为大模型智能体，大语言模型，个性化算法等。近年来，随着大语言模型的快速发展，基于其构建的大模型智能体（LLM Agents）正逐步从技术演示走向实际应用部署。然而，真正实现规模化应用仍面临诸多瓶颈。

5/30/2025 3:53:27 PM

AI生图大洗牌！流匹配架构颠覆传统，一个模型同时接受文本和图像输入

AI生图新突破！一个模型同时接受文本和图像输入。新模型FLUX.1 Kontext使用流匹配架构（Flow Matching），不再是文本编码器和扩散模型各干各的，与此前技术都不同。

5/30/2025 2:22:00 PM

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉