数据
3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST
3D生成版DeepSeek再上新高度! 国产、易用、性能强且开源——新模型一露面就刷新SOTA,并且第一时间加入开源全家桶。 顺时针转个圈圈给大家看,效果是这样:加上“皮肤”是这样:再来一个,效果是这样:肉眼可见,这次妥妥升级变成了更细节的细节控~以上效果,都来自3D大模型明星初创公司VAST,其刚刚上新的两个基础模型,TripoSG和TripoSF,为团队的最新研发成果。
3/31/2025 8:25:00 AM
量子位
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
深夜重磅! 阿里发布并开源首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,来了。 仅靠一个一体式模型,就能搞定文本、音频、图像、视频全模态,并实时生成文本和自然语音。
3/27/2025 1:23:39 PM
量子位
统一细粒度感知!北大&阿里提出UFO:无需SAM,16个token让MLLM实现精准分割
本文作者来自北京大学和阿里通义万相实验室。 其中论文第一作者是汤昊,北京大学 2022 级博士生,目前主要关注统一的多模态任务建模算法。 指导教授是王立威老师,北京大学智能学院教授,曾获 NeurIPS 2024 最佳论文奖、ICLR 2023 杰出论文奖及 ICLR 2024 杰出论文提名奖。
3/25/2025 10:13:26 AM
机器之心
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
昨晚,DeepSeek-V3悄然升级! 新模型版本为DeepSeek-V3-0324,参数量为6850亿,相较上个版本参数增幅不大(6710亿)。 从发布时间和技术特点来看,DeepSeek-V3-0324,很可能是DeepSeek-R2的基础架构。
3/25/2025 9:03:00 AM
新智元
每天2小时成绩逆袭全美前2%!AI助教让学生不再内卷
每天只用2小时就能搞定繁重的学习任务,剩下时间开发自己的兴趣项目,考试成绩还提高了。 这样的学校你愿意尝试吗? 据福克斯新闻报道,德克萨斯州一家名为Alpha School的私立学校在引入AI「助教」后,学生的考试成绩蹭蹭上涨,提高到了全美国的前2%。
3/24/2025 9:12:00 AM
新智元
Idea撞车何恺明「分形生成模型」!速度领先10倍,性能更强
前不久,大神何恺明刚刚放出新作「分形生成模型」,递归调用原子生成模块,构建了新型的生成模型,形成了自相似的分形架构,将GenAI模型的模块化层次提升到全新的高度。 论文地址: 地址:,澳大利亚国立大学的研究人员提出了一个全新的图像生成模型ARINAR,在思想上与分形生成模型不谋而合,但是在性能和速度上都显著提升,base模型的FID从11.8提升到2.75,生成时间从2分钟降低到12秒! ARINAR不仅超越了之前的扩散模型,与目前表现最好的自回归模型MAR相比,ARINAR生成质量相当,速度是MAR的5倍。
3/24/2025 9:08:00 AM
新智元
硅谷投资人爆料:AI爆炸率先发生在中国!芯片扩大1万倍,AI逼近物理极限
如果AI系统能自己设计出更强大的AI,智能爆炸可能很快就要到来了! 而人类,会被AI迅速甩在后面。 最近,硅谷投资人、EverFi CEO兼创始人Tom Davidson等人发表了一篇长文硬核博客,详细讨论了智能爆炸(Intelligence explosion, IE)的类型以及对应的发生概率。
3/24/2025 8:55:00 AM
新智元
人工智能应用最大的问题是数据问题,而不是技术问题
随着人工智能技术的发展,人工智能也从刚开始的聊天模型变成了能够应用到实际场景中的一项新的技术;而且随着国家大力发展人工智能技术,人工智能就像二十年前的互联网技术一样,充斥着各种机会,但同样也面临着各种各样的挑战。 但是,以个人从事一段时间的人工智能技术应用,以及个人对人工智能技术的了解来看;人工智能目前在实际应用中所存在的主要问题就是数据问题,而不仅仅只是技术问题。 当然,人工智能技术还需要时间继续发展,但以解决实际问题出发,目前的人工智能模型需要大量的行业数据做支撑。
3/20/2025 8:10:00 AM
AI探索时代
仅凭RGB图像实现户外场景高精度定位与重建,来自港科广团队 | ICRA 25
从自动驾驶、机器人导航,到AR/VR等前沿应用,SLAM都是离不开的核心技术之一。 现有基于3D高斯分布(3DGS)的SLAM方法虽在室内场景表现出色,但使用仅RGB输入来处理无界的户外场景仍然面临挑战:准确的深度和尺度估计困难,这影响了姿态精度和3DGS初始化图像重叠有限且视角单一,缺乏有效的约束,导致训练难以收敛为了解决上述挑战,港科广团队提出全新解决方案——OpenGS-SLAM。 仅凭RGB图像实现高精度定位与逼真场景重建。
3/19/2025 10:00:41 AM
量子位
首次,6人7天真人秀!南洋理工等发布第一视角AI生活管家数据EgoLife
当AI智能体(如Manus)接管你的大部分工作后,你是否曾想过,如何让自己的生活变得更加轻松与智能? 试想一个未来场景:你佩戴着智能眼镜,一个AI助理能无缝融入你的日常生活,根据你的个人习惯提供贴心的美食建议,下班后提醒你曾经购买过的物品,甚至通过分析你和家人过去的活动来主动预测你的需求。 这样一款「生活助手」将极大提升个人效率和家庭协作,让AI真正成为我们生活中的得力管家。
3/19/2025 9:43:43 AM
新智元
多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
DeepSeek-R1 问世后,我们一直在期待能「强推理、慢思考」的大模型进化成多模态模式。 如果能在视觉等各领域复刻强化学习(RL)在文本上的突破,AI 应用势必会将更多领域推入新的范式。 毫无疑问,这也是众多科技公司正在探索的方向。
3/19/2025 8:30:00 AM
机器之心
o1/o3后训练负责人离职创业,奥特曼把OpenAI玩成另一个YC孵化器了
OpenAI高管离职潮继续:CTO Mira卷着一票人才集体出走之后,刚刚,后训练研究副总裁William Fedus也官宣离职创业了。 他在不到半年前,也就是去年10月刚刚晋升——没错,彼时OpenAI的上一任后训练负责人Barret Zoph等人刚刚跟着CTO Mira跑路。 在那一拨人才离职潮中,William (Liam) Fedus是顶上重任的主要角色之一。
3/18/2025 1:14:13 PM
量子位
https://mp.weixin.qq.com/s/-lOj5naC2Yb3BD32YuUyOw
机构: 北京大学人工智能研究院 北京通用人工智能研究院作者: 毛彦升 徐宇飞 李佳琪 孟繁续 杨昊桐 郑子隆 王希元 张牧涵长文本任务是当下大模型研究的重点之一。 在实际场景和应用中,普遍存在大量长序列(文本、语音、视频等),有些甚至长达百万级 tokens。 扩充模型的长文本能力不仅意味着可以在上下文窗口中装入更长的文本,更是能够更好地建模文本段落间信息的长程依赖关系,增强对长文的阅读理解和推理。
3/17/2025 12:55:18 PM
机器之心
想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%
大规模多模态模型(Large Multimodal Models,LMM)在人类反馈下的表现如何? 这一问题对于利用LMM开发通用AI助手至关重要,现有的基准测试并未针对LMM与人类的交互智能进行测试。 来自新加坡国立大学的华人团队提出了InterFeedback,一个可应用任何LMM和数据集的交互式框架。
3/17/2025 9:35:00 AM
新智元
哥大博士经费被砍当场崩溃!全美高校遭史上最大规模裁员,科研圈遭灭顶之灾
早上7点,哥大生物医学工程系的博士研究生Daniella Fodera接到实验室主任的电话,得知自己的项目基金被终止,当场崩溃痛哭。 而她的遭遇,只是众多受特朗普政府决策打击的科学家的缩影。 美国政府发起的削减拨款,如今已经在全美高校引起了大地震。
3/17/2025 8:10:00 AM
新智元
MM-Eureka:极少数据实现多模态推理的R1-Zero时刻
尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。 例如,R1-V 仅在简单计数任务上表现出进步,未能实现回答长度的增长和顿悟时刻;R1-Multimodal-Journey 则在训练过程中回答长度反而降低;LMM-R1 虽然有所进步,但尚未在大规模图文数据训练中得到验证。 而 Kimi 1.5 尽管表现突出,但并未开源其模型或数据。
3/14/2025 11:59:29 AM
机器之心
一家高校实验室,走出12家明星AI初创公司!Pieter Abbeel:我的NB学生们
一家高校实验室 ,能走出多少个知名 AI 初创公司的创始人? 强化学习大牛、UC 伯克利教授 Pieter Abbeel 浅浅统计了一番:我带过的学生里,也就 12 个吧。 这些公司的名气都不小:OpenAI、Perplexity、Physical Intelligence、Inception AI、Reflection…… 相信你都听说过。
3/14/2025 9:24:29 AM
机器之心
自动调整推理链长度,SCoT来了!为激发推理能力研究还提出了一个新架构
不怕推理模型简单问题过度思考了,能动态调整CoT的新推理范式SCoT来了! SCoT,即自结构化推理链(Self-structured Chain of Thought )。 它通过将推理过程分解为最小语义原子步骤,能动态生成适配不同复杂度问题的CoT结构,解决了现有方法在推理多样性和效率上的不足。
3/13/2025 1:00:00 PM
量子位
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
英伟达
Anthropic
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
LLM
生成式
苹果
Claude
Agent
AI新词
神经网络
3D
AI for Science
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
GPU
AI设计
百度
华为
工具
大语言模型
搜索
具身智能
场景
RAG
字节跳动
大型语言模型
预测
深度学习
伟达
视觉
Transformer
视频生成
AGI
神器推荐
亚马逊
架构
Copilot
DeepMind
应用
安全