模型
OpenAI深夜发布全新Agent工具:两大杀器登场,感觉可以手搓Manus了
可以自己动手手搓Manus了? 刚刚OpenAI举行了一个19分钟的线上发布会,推出全新Agent工具,OpenAI直接祭出自研Agent SDK和Responses API两大杀器! 旨在彻底简化agent开发流程,让开发者和企业都能轻松构建实用又可靠的智能体!
3/12/2025 10:00:44 AM
AI寒武纪
揭示显式CoT训练机制:思维链如何增强推理泛化能力
基于逐步生成解决方案的大语言模型(LLMs)训练范式在人工智能领域获得了广泛关注,并已发展成为行业内的主流方法之一。 例如,OpenAI 在其「12 Days of OpenAI」直播系列的第二日推出了针对 O1 模型的强化微调(Reinforcement Fine-Tuning,RFT),进一步推动了 AI 定制化的发展[1]。 RFT/ReFT[2] 的一个关键组成部分是使用思维链(Chain-of-Thought,CoT)注释[3] 进行监督微调(Supervised Fine-Tuning,SFT)。
3/12/2025 9:48:19 AM
机器之心
18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集
目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。 然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。 为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集。
3/12/2025 9:40:28 AM
机器之心
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
挑战多图数学推理新基准,大模型直接全军覆没? 事情是这样的。 近日,中国科学院自动化研究所推出多图数学推理全新基准MV-MATH(该工作已被CVPR 2025录用),这是一个精心策划的多图数学推理数据集,旨在全面评估MLLM(多模态大语言模型)在多视觉场景中的数学推理能力。
3/11/2025 1:49:20 PM
量子位
阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI
首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位
武大等发布大视觉模型最新安全综述:全面分类攻击策略、防御机制和评估方法
随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知,大型视觉语言模型(LVLMs)正以前所未有的速度重塑AI世界,这些能够理解视觉信息并生成自然语言响应的智能系统,已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。 然而,当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容,我们是否该感到担心? 近期,武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述,系统性总结了LVLMs在安全性上的挑战,并提出了全面而系统的安全分类框架。
3/11/2025 1:44:24 PM
新智元
轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错
朋友会离开你,兄弟会背叛你。 但数学不会,数学不会就是不会。 相信学不好高等数学的人,对上面这个梗深有感悟。
3/11/2025 1:42:19 PM
新智元
OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包
就在刚刚,OpenAI博客放出了一项新的研究。 他们发现,前沿推理模型一旦有机会,就会试图钻漏洞! 这种行为,被称为奖励欺骗。
3/11/2025 1:39:08 PM
新智元
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗? 近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。 并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。
3/11/2025 1:07:58 PM
机器之心
Magic Mirror:可从单个参考图像生成电影级质量身份一致性和自然运动视频
Magic Mirror 可以生成合成身份配对的视频数据。 该框架利用视频扩散模型,能够在保持身份一致性的同时,生成具有电影级质量和动态运动的视频。 Magic Mirror 根据 ID 参考图像生成文本转视频结果。
3/11/2025 10:15:00 AM
AIGC Sdudio
DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!
在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。 这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。 尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。
3/11/2025 10:00:00 AM
AIGC Studio
腾讯混元-TurboS:首个混合Transformer-Mamba MoE超大模型来了
腾讯混元团队发布了他们最新的力作——Hunyuan-TurboS,首个混合Transformer-Mamba MoE架构的超大模型大家都知道,传统Transformer模型在处理长文本时一直面临挑战,O(N²)的复杂度以及KV-Cache问题让长文本训练和推理效率大打折扣。 而这次,混元-TurboS巧妙地融合了Mamba和Transformer两种架构的优势:• Mamba的高效长序列处理能力• Transformer强大的上下文理解能力强强联合,效果自然惊艳! 官方数据显示,Hunyuan-TurboS在多个关键benchmark上表现出色:• 数学、推理、对齐能力超越或持平 GPT-4o-0806、DeepSeek-V3 以及各类开源模型。
3/11/2025 9:42:00 AM
AI寒武纪
哥大本科生靠AI横扫硅谷大厂offer,学校震怒!预言码农两年内淘汰准备退学
硅谷大型科技公司FAANG的面试,对不少人来说都是一场噩梦。 结果,哥大的一位大二学生Roy Lee,居然利用AI,顺利斩获了亚马逊、Meta和TikTok的offer,获得了直通梦中情厂的实习机会! 这个消息一出,震惊了不少人。
3/11/2025 9:40:00 AM
新智元
微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人
微软研究院官宣开源多模态AI——Magma模型。 首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。 该模型近期已被计算机视觉顶会CVPR接收,只要给定一个目标描述,Magma就能制定计划、执行行动,无论是在数字界面中还是物理世界里,都能展现出灵活而高效的交互能力。
3/11/2025 9:35:00 AM
量子位
已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
字节对MoE模型训练成本再砍一刀,成本可节省40%! 刚刚,豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。 COMET已应用于字节的万卡训练集群,在真实的生产环境中,累计帮助节省了数百万GPU小时。
3/11/2025 9:20:00 AM
量子位
LeCun最新访谈对DeepSeek一顿猛夸,还谈了AI发展需理解物理世界
LeCun最新访谈,对DeepSeek一顿猛夸。 他表示,DeepSeek是一项很出色的成果,它的开源不只是成果创造者受益,全世界都能从中受益。 不过LeCun也指出,金融市场对DeepSeek出现的反应,说什么“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这种说法是错误的。
3/11/2025 9:15:00 AM
量子位
Manus被破解了?曝出系统提示词和背后大模型,CTO也回复了
最近几天,一个叫「Manus」的通用 AI Agent 产品刷屏网络。 它能完成复杂的文件处理、数据分析、代码编写等多种任务。 刚上线不久,大家纷纷在线求购邀请码,都想亲自上手一试这个突然火起来的智能体。
3/11/2025 8:42:04 AM
机器之心
通俗讲解DeepSeek中的GRPO:强化学习里的神奇算法
在人工智能快速发展的时代,强化学习是其中的关键技术,它让机器能够像人一样,在不断尝试中学习怎么做是最好的。 今天要讲的 GRPO(Group Relative Policy Optimization),也就是群体相对策略优化算法,是强化学习里非常厉害的存在。 接下来,就带大家走进deepseek(Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升) GRPO 的奇妙世界,看看它到底是怎么回事。
3/11/2025 1:00:00 AM
大模型之路
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
图像
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
具身智能
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
MCP
预测