AI在线 AI在线

模型

阿里开源R1-Omni,DeepSeek同款RLVR首度结合全模态情感识别,网友:可解释性+多模态学习=下一代AI

首次将DeepSeek同款RLVR应用于全模态LLM,含视频的那种! 眼睛一闭一睁,阿里通义实验室薄列峰团队又开卷了,哦是开源,R1-Omni来了。 同样在杭州,这是在搞什么「开源双feng」(狗头保命)?
3/11/2025 1:47:10 PM
量子位

武大等发布大视觉模型最新安全综述:全面分类攻击策略、防御机制和评估方法

随着GPT-4o与Qwen-VL等模型的视觉理解和多模态生成能力逐渐打破众人认知,大型视觉语言模型(LVLMs)正以前所未有的速度重塑AI世界,这些能够理解视觉信息并生成自然语言响应的智能系统,已在医疗诊断、自动驾驶、金融风控等关键领域崭露头角。 然而,当研究者仅用几百美元就能突破顶级模型的安全防线、简单的对抗噪声图片就能让模型输出危险内容,我们是否该感到担心? 近期,武汉大学、中国科学技术大学和南洋理工大学的研究团队发布了一篇综述,系统性总结了LVLMs在安全性上的挑战,并提出了全面而系统的安全分类框架。
3/11/2025 1:44:24 PM
新智元

轻松拿捏高等数学,LLM平均得分90+!GPT-4o、Mistral几乎没错

朋友会离开你,兄弟会背叛你。 但数学不会,数学不会就是不会。 相信学不好高等数学的人,对上面这个梗深有感悟。
3/11/2025 1:42:19 PM
新智元

OpenAI最强模型惨遭剖脑,CoT写下作弊自白书!不写代码耍心机被当场抓包

就在刚刚,OpenAI博客放出了一项新的研究。 他们发现,前沿推理模型一旦有机会,就会试图钻漏洞! 这种行为,被称为奖励欺骗。
3/11/2025 1:39:08 PM
新智元

使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独

没有任何冷启动数据,7B 参数模型能单纯通过强化学习学会玩数独吗? 近日,技术博主 Hrishbh Dalal 的实践表明,这个问题的答案是肯定的。 并且他在这个过程中用到了 DeepSeek 开发的 GRPO 算法,最终他「成功在一个小型数独数据集上实现了高奖励和解答」。
3/11/2025 1:07:58 PM
机器之心

Magic Mirror:可从单个参考图像生成电影级质量身份一致性和自然运动视频

Magic Mirror 可以生成合成身份配对的视频数据。 该框架利用视频扩散模型,能够在保持身份一致性的同时,生成具有电影级质量和动态运动的视频。 Magic Mirror 根据 ID 参考图像生成文本转视频结果。
3/11/2025 10:15:00 AM
AIGC Sdudio

DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!

在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。 这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。 尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。
3/11/2025 10:00:00 AM
AIGC Studio

腾讯混元-TurboS:首个混合Transformer-Mamba MoE超大模型来了

腾讯混元团队发布了他们最新的力作——Hunyuan-TurboS,首个混合Transformer-Mamba MoE架构的超大模型大家都知道,传统Transformer模型在处理长文本时一直面临挑战,O(N²)的复杂度以及KV-Cache问题让长文本训练和推理效率大打折扣。 而这次,混元-TurboS巧妙地融合了Mamba和Transformer两种架构的优势:• Mamba的高效长序列处理能力• Transformer强大的上下文理解能力强强联合,效果自然惊艳! 官方数据显示,Hunyuan-TurboS在多个关键benchmark上表现出色:• 数学、推理、对齐能力超越或持平 GPT-4o-0806、DeepSeek-V3 以及各类开源模型。
3/11/2025 9:42:00 AM
AI寒武纪

哥大本科生靠AI横扫硅谷大厂offer,学校震怒!预言码农两年内淘汰准备退学

硅谷大型科技公司FAANG的面试,对不少人来说都是一场噩梦。 结果,哥大的一位大二学生Roy Lee,居然利用AI,顺利斩获了亚马逊、Meta和TikTok的offer,获得了直通梦中情厂的实习机会! 这个消息一出,震惊了不少人。
3/11/2025 9:40:00 AM
新智元

微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。 首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。 该模型近期已被计算机视觉顶会CVPR接收,只要给定一个目标描述,Magma就能制定计划、执行行动,无论是在数字界面中还是物理世界里,都能展现出灵活而高效的交互能力。
3/11/2025 9:35:00 AM
量子位

已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源

字节对MoE模型训练成本再砍一刀,成本可节省40%! 刚刚,豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。 COMET已应用于字节的万卡训练集群,在真实的生产环境中,累计帮助节省了数百万GPU小时。
3/11/2025 9:20:00 AM
量子位

LeCun最新访谈对DeepSeek一顿猛夸,还谈了AI发展需理解物理世界

LeCun最新访谈,对DeepSeek一顿猛夸。 他表示,DeepSeek是一项很出色的成果,它的开源不只是成果创造者受益,全世界都能从中受益。 不过LeCun也指出,金融市场对DeepSeek出现的反应,说什么“哦,现在我们可以更便宜地训练系统了,所以我们不再需要那么多计算机”,这种说法是错误的。
3/11/2025 9:15:00 AM
量子位

Manus被破解了?曝出系统提示词和背后大模型,CTO也回复了

最近几天,一个叫「Manus」的通用 AI Agent 产品刷屏网络。 它能完成复杂的文件处理、数据分析、代码编写等多种任务。 刚上线不久,大家纷纷在线求购邀请码,都想亲自上手一试这个突然火起来的智能体。
3/11/2025 8:42:04 AM
机器之心

通俗讲解DeepSeek中的GRPO:强化学习里的神奇算法

在人工智能快速发展的时代,强化学习是其中的关键技术,它让机器能够像人一样,在不断尝试中学习怎么做是最好的。 今天要讲的 GRPO(Group Relative Policy Optimization),也就是群体相对策略优化算法,是强化学习里非常厉害的存在。 接下来,就带大家走进deepseek(Paper Review: DeepSeek-R1——强化学习驱动的大语言模型推理能力提升)  GRPO 的奇妙世界,看看它到底是怎么回事。
3/11/2025 1:00:00 AM
大模型之路

具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能

现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。 视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。 图片由于二维数字世界和三维物理世界之间存在差异,现有的VLA模型通常对任务进行简化,导致多模态理解能力偏弱,在跨任务和跨领域的泛化能力上不够通用。
3/10/2025 1:31:28 PM

「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍

开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2GB。 这次彻底把推理模型训练显存打下来了! 这次把GRPO训练推理模型的上下文变长10倍,同时需要的显存少了90%。
3/10/2025 1:11:26 PM
新智元

准博士生把导师履历论文输入ChatGPT,制成「AI评委」!顺利通过资格考试

美国学生发现了ChatGPT的创意新用途! 2024年8月,渴望成为University of Colorado生物医学博士生的Adriana Ivich,面临着博士资格考试的挑战。 在这场考试中,她不仅要详细阐述自己的研究计划,还得接受评审委员会的闭门「拷问」。
3/10/2025 9:55:00 AM
新智元

1.5B硬刚GPT-4o,CMU祭出LCPO提示可控思考!每token性能较S1暴涨2倍

一个只有15亿参数的小模型,竟然能在相同token预算下挑战GPT-4o的性能! 最近,CMU团队推出了「长度控制策略优化」(LCPO),它让AI的推理过程不再是「一刀切」,而是像个聪明管家,能根据任务需求灵活调整「思考」长度。 无论是啃下复杂的数学难题,还是快速解答简单问题,这个名叫L1的模型都游刃有余。
3/10/2025 9:38:00 AM
新智元