模型
毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔
OpenAI的o3发布以来,这个功能让不少网友觉得毛骨悚然——它能准确破解你的地理位置! 就在刚刚,Lanyrd联创、Django Web框架缔造者Simon Wilson专门发了一篇博客,详尽推敲了o3究竟是如何猜测照片拍摄地点的。 他将整个过程评价为:既超现实,又反乌托邦,仿佛几十年前的科幻小说突然变成现实!
4/28/2025 9:08:00 AM
新智元
ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
论文有两位共同一作。 郑凯文为清华大学计算机系三年级博士生,何冠德为德州大学奥斯汀分校(UT Austin)一年级博士生。 扩散模型(Diffusion Models)近年来在生成任务上取得了突破性的进展,不仅在图像生成、视频合成、语音合成等领域都实现了卓越表现,推动了文本到图像、视频生成的技术革新。
4/28/2025 9:00:00 AM
机器之心
基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
本文由上海人工智能实验室,悉尼大学,牛津大学联合完成。 第一作者周恒为上海 ailab 实习生和 Independent Researcher 耿鹤嘉。 通讯作者为上海人工智能实验室青年科学家白磊和牛津大学访问学者,悉尼大学博士生尹榛菲,团队其他成员还有 ailab 实习生薛翔元。
4/28/2025 8:50:00 AM
机器之心
英伟达华人硬核AI神器,「描述一切」秒变细节狂魔!仅3B逆袭GPT-4o
有了AI,谁还愿意用手配「字幕」? 刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。 论文地址: Anything,上传一张图,圈哪点哪,它即可生成一段丰富的文字描述。
4/27/2025 9:54:48 AM
GPT-4.5功臣遭驱逐!奥特曼盛赞工作出色,美国深陷AI人才危机
GPT-4.5的核心研发成员,竟然要被驱逐出美国? ! OpenAI著名研究科学家Noam Brown爆料称,已经在美国居住了12年的加拿大籍AI研究员,现就职于OpenAI的Kai Chen,近日被美国拒发绿卡。
4/27/2025 9:26:00 AM
新智元
强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
最近,以推理能力为核心的大语言模型已然成为了主流,比如OpenAI o系列模型、DeepSeek-R1等等。 推理模型在处理数学和编程等复杂逻辑问题方面取得了显著突破。 相比于之前依赖人工标注进行指令微调的方法,这一突破的关键在于可验证奖励强化学习(RLVR)。
4/27/2025 9:23:00 AM
新智元
Anthropic CEO豪言LLM黑箱5年内必破!研究员爆料:AI有意识概率已达15%
未来,AI会拥有意识,并像人类一样体验世界吗? 现在没有实锤证明AI具有意识,但Anthropic认为这事说不定真有可能。 周四,Anthropic宣布启动这项研究,旨在了解AI的「幸福感」到底算不算数,是否需要认真对待。
4/27/2025 9:21:00 AM
新智元
全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
最近,全球第一个用去中心化强化学习训练的32B模型——INTELLECT-2正式发布! 任何人都能用自己的异构计算资源参与,无需授权。 这种全新的范式,让去中心化训练在编码、数学和科学领域,迈向前沿的推理性能。
4/27/2025 9:19:00 AM
新智元
开源垂直领域高质量数据合成框架!专业QA自动生成,无需人工标注,来自上海AI Lab
垂域模型训练,高质量问答数据稀缺一直是行业痛点。 在垂直领域大模型训练中,人工标注成本高昂,合成数据又常陷入质量与专业性难以兼得的困境。 为此,上海AI实验室等提出GraphGen。
4/27/2025 9:16:00 AM
70%大小,100%准确!完美压缩LLM性能0损失,推理速度最高飙升39倍
人人都想有一个自己的DeepSeek,但并不是人人都有「一打」96GB显存的H20。 虽然量化可以极大地降低模型对于显存的需求,但它本质上是一种有损压缩技术。 换句话说就是,量化模型的输出分布不可避免地会受到影响,进而降低LLM的准确性和可靠性。
4/27/2025 9:15:40 AM
新智元
从底层重构强化学习训练框架,阿里高德开源新方法:抛弃替代损失函数,仅需优化原始目标
抛弃替代损失函数,仅需优化原始目标, 强化学习新范式来了:消除critic和reference模型,避免KL散度约束;解决优势函数和梯度估计两个偏差。 来自阿里-高德地图的团队提出了一种相当简单的强化学习训练新方法:组策略梯度优化GPG (Group Policy Gradient)。 GPG开创性地从底层重构强化学习训练框架,仅需优化原始目标,解决已有方法偏差,提高训练效率。
4/27/2025 9:12:00 AM
大模型何以擅长小样本学习?ICLR 2025这项研究给出详细分析
近年来,大语言模型(LLM)在人工智能领域取得了突破性进展,成为推动自然语言处理技术发展与通用人工智能实现的核心力量。 上下文学习能力(In-Context Learning, ICL)是 LLM 最显著且重要的能力之一,它允许 LLM 在给定包含输入输出示例的提示(prompt)后,直接生成新输入的输出,这一过程仅通过前向传播而无需调整模型权重。 这种能力使得 LLM 能够基于上下文中的示例快速理解并适应新任务,展现出强大的小样本学习和泛化能力。
4/27/2025 9:10:00 AM
机器之心
首个大模型全链路安全综述 !南洋理工新国立等发布LLM Safety全景图:从数据、训练到部署的全面梳理
随着人工智能技术迅猛发展,大模型(如GPT-4、文心一言等)正逐步渗透至社会生活的各个领域,从医疗、教育到金融、政务,其影响力与日俱增。 然而,技术的进步也伴随着潜在风险——大模型安全这一议题正成为全球科技界关注的焦点。 南洋理工大学、新加坡国立大学等全球40余所顶尖机构的67位学者联袂打造大模型全链路安全综述,综合梳理了843篇文章,系统的从全栈视角分析了大模型从出生到应用的全栈安全,涵盖数据准备→预训练→后训练→部署→商业化应用以及安全性评估等全部阶段。
4/27/2025 9:07:00 AM
量子位
北航推出全开源TinyLLaVA-Video-R1,小尺寸模型在通用视频问答数据上也能复现Aha Moment!
当前,基于强化学习提升多模态模型的推理能力已经取得一定的进展。 但大多研究者们选择 7B 的模型作为基座,这对于许多资源有限的科研人员而言仍存在显著的门槛。 同时,在视频推理领域,由于高质量强推理性数据较为稀少,通用问答数据较难激发模型的深层次逻辑推理能力,因此先前一些初步尝试的效果大多不尽如人意。
4/27/2025 9:00:00 AM
机器之心
英伟达AI奥赛夺冠,1.5B数学碾压DeepSeek-R1!代码全系开源,陶哲轩点赞
AI数学奥赛第一名「答卷」终于公布! NVIDIA公布并开源了他们的冠军模型OpenMath-Nemotron系列! 论文地址:、软件工程师Chan Kha Vu,则盛赞道:这些模型太不可思议了!
4/27/2025 8:54:00 AM
新智元
秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一
kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。 结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。 例如在 LibriSpeech ASR 测试上,Kimi-Audio 的 WER 仅 1.28%,显著优于其他模型。
4/27/2025 8:50:00 AM
机器之心
英伟达开源「描述一切」模型,拿下7个基准SOTA
图像描述(image captioning)生成一直是计算机视觉和自然语言处理领域面临的长期挑战,因为它涉及理解和用自然语言描述视觉内容。 虽然近期的视觉语言模型 (VLM) 在图像级描述生成方面取得了令人瞩目的成果,但如何为图像中的特定区域生成详细准确的描述仍然是一个悬而未决的问题。 这一挑战在视频领域尤为突出,因为模型必须额外捕捉动态视觉内容,例如人类动作、物体运动以及人与物体的交互。
4/27/2025 8:30:00 AM
机器之心
如何利用网络爬虫进行大规模LLM数据收集
大语言模型的 “智慧” 很大程度上依赖于其训练数据的质量和数量。 想要打造一个能够理解真实世界的模型,就必须获取来自真实世界的信息,而互联网无疑是海量数据的主要来源。 本文将深入探讨如何利用网络爬虫收集大规模、适用于 AI 训练的数据,为人工智能模型的训练筑牢坚实基础。
4/27/2025 4:05:00 AM
大模型之路
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用