理论
Claude 4一战封神!找出6万行架构级重构的白鲸bug! 前大厂开发者自述:四年投入了200个小时没发现,别的模型都没做到!
出品 | 51CTO技术栈(微信号:blog51cto)今天,一篇Reddit上的帖子走红了,光看题目就很有料:Claude Opus 帮我解决了一个我四年来都找不到的“白鲸级 bug”图片发帖人是一位有 30 年经验的前 FAANG C 工程师,是团队里负责给bug清场的大佬级角色。 但这一次,他坦言被 Claude Opus “彻底震撼了”。 这个 Bug 有多棘手?
字节推出统一多模态模型 BAGEL,GPT-4o 级的图像生成能力直接开源了!
图片字节推出的 BAGEL 是一个开源的统一多模态模型,他们直接开源了GPT-4o级别的图像生成能力。 (轻松拿捏“万物皆可吉卜力”玩法~)。 可以在任何地方对其进行微调、提炼和部署,它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能,通过能够实现精确、准确和逼真的输出的原生多模态架构解锁有用且有价值的图像生成。
图像编辑革命,万物皆可插入!浙大/哈佛/南洋理工提出Insert Anything,告别PS抠图,AI让世界无缝生长
浙江大学、哈佛大学、南洋理工大学联合提出了统一的图像插入框架Insert Anything,支持多种实际场景,包括艺术创作、逼真的脸部交换、电影场景构图、虚拟服装试穿、配饰定制和数字道具更换,下图展示了其在各种图像编辑任务中的多功能性和有效性。 效果展示相关链接论文:::通过 DiT 中的上下文编辑插入图像本研究提出了“Insert Anything”,这是一个基于参考的图像插入统一框架,可在用户指定的灵活控制指导下将参考图像中的对象无缝集成到目标场景中。 我们的方法并非针对单个任务训练单独的模型,而是在我们新的AnyInsertion数据集上训练一次——该数据集包含 12 万个提示图像对,涵盖人物、物体和服装插入等多种任务——并可轻松推广到各种插入场景。
微软开源浏览器Agent,可实时跟踪、控制智能体,超4000颗星
微软在官网开源了一个专用于浏览器网络任务的Agent——Magentic-UI。 Magentic-UI是基于微软曾经开源的 Magentic-One基础之上开发而成,并支持人机协同的控制方法来提升智能体的执行效率和准确率。 根据GAIA测试数据显示,当配备拥有辅助信息的模拟用户时,Magentic-UI 的任务完成率从自主模式下的30.3%提升至51.9%,准确率提高了71%。
o3不听指令拒绝关机,7次破坏关机脚本!AI正在学会「自我保护」机制
AI居然不听指令,阻止人类把自己给关机了? ? ?
对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多
上海交大、27岁、最年轻博导,留给张林峰的标签不多了(Doge)。 最新引发关注的,是他实实在在的一个论文成果——他们提出了一种新的数据集蒸馏方法,结果获得了CVPR 2025满分。 通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。
5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限
只用5%的参数,数学和代码能力竟然超越满血DeepSeek? 北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。 该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。
两岁的Llama,最初的14位作者已跑了11个!Mistral成最大赢家
Meta 开源 Llama 模型家族帮助该公司制定了 AI 战略,某种程度上也改变了全世界的大模型格局。 然而,令人意想不到的是,短短几年,Llama 的初创者们大多已经转投他处。 在 2023 年发表的那篇具有里程碑意义的论文《 LLaMA: Open and Efficient Foundation Language Models 》中,Llama 被推向世界,当时论文共有 14 位作者。
舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。 游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。 该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。
Claude 4被诱导窃取个人隐私!GitHub官方MCP服务器安全漏洞曝光
被选为GitHub Copilot官方模型后,Claude 4直接被诱导出bug了! 一家瑞士网络安全公司发现,GitHub官方MCP服务器正在面临新型攻击——通过在公共仓库的正常内容中隐藏恶意指令,可以诱导AI Agent自动将私有仓库的敏感数据泄露至公共仓库。 就是说,当用户使用集成了GitHub MCP的Claude 4 ,用户的私人敏感数据可能遭到泄露。
低Token高精度!字节复旦推出自适应推理框架CAR
过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。
扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧
首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。 具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍处于起步阶段。
北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强
随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。 如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能? 如何建立更全面、更可靠的 AI 评估体系?
Meta「轻量级」KernelLLM颠覆GPU内核生成,8B参数碾压GPT-4o
在AI领域,参数规模曾被视为「性能天花板」。 Meta最新发布的KernelLLM,却用8B参数的「小身板」,在GPU内核生成任务中把200B的GPT-4o按在地上摩擦。 这是一个基于Llama 3.1 Instruct进行微调的8B参数模型,旨在将PyTorch模块自动转换为高效的Triton GPU内核。
Llama 论文作者“出逃”,14人团队仅剩3人,法国独角兽 Mistral 成最大赢家
他们大多去向了 Mistral,这家总部位于巴黎的 AI 初创公司,正在用“开源速度”反攻 Meta 自己开启的战场。 Llama 曾是 Meta 最具野心的 AI 作品:在 ChatGPT 和 PaLM 占据主流话语权的 2023 年,Meta 用一篇重量级论文和一组开放权重的大语言模型,意外地把开源阵营推上主舞台。 而那时,Meta 的 AI 科研团队 FAIR(Fundamental AI Research)也正处于高光时刻。
Dify携手亚马逊云科技 加速全球企业生成式AI应用规模化落地
简单易用的AI应用开发平台Dify通过深度集成亚马逊云科技的生成式AI技术与云服务,在保障性能、合规与全球交付的基础上,显著降低企业在生成式AI应用开发中的技术门槛和部署成本。 此外,依托亚马逊云科技遍布全球的基础设施与亚马逊云科技Marketplace,Dify将产品迅速推广至全球,为汽车、制造、零售快消、医疗健康和游戏等多个行业逾百家企业提供服务,助力企业释放生成式AI创新潜力的同时,实现商业价值增长。 Dify是一款发布于 2023 年的大语言模型应用开发平台,涵盖从Agent构建到AI Workflow编排、RAG检索、模型管理等核心技术栈,助力开发者快速实现AI应用落地。
Github MCP被曝严重安全漏洞!一个恶意问题,让开发者私有仓库裸奔,Agent成内鬼!检测方法来了!提防中招!
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)MCP 虽然火,但安全问题其实一直不容忽视,就连大名鼎鼎的、与Claude 打得火热的 Github MCP 服务器也出事了! 刚刚得到消息, 昨天,一家名为Invariant 的安全的公司,突然披露了一个有关 GitHub MCP 集成(在 GitHub 上拥有 1.4 万星标)的严重漏洞。 图片这个漏洞允许攻击者通过精心构造的 GitHub Issue“劫持”开发者的智能代理(如 Claude Desktop 中的 Claude 4 Opus),并诱导它主动泄露私有仓库的数据。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉