模型
四年2亿,苹果天才离职内幕首曝光!庞若鸣发离职信告别,苹果AI大溃败
天才出走,4年两亿美元! 苹果的AI宏图,彻底翻车了。 一家在七巨头中占有举足轻重地位的大厂,究竟是如何走到这一步的?
7/24/2025 9:12:00 AM
ICCV高分论文|可灵ReCamMaster在海外爆火,带你从全新角度看好莱坞大片
作为视频拍摄爱好者,你是否曾因为设备限制无法完成想要实现的运镜效果? 例如想要将镜头上移拍摄风景的全貌,但没有入手拍摄无人机;又或是对拍摄素材很满意,但拍摄时手抖影响了成片质量。 作为 AI 视频创作者,是否对于生成视频的内容很满意,然而运镜却不尽人意?
7/24/2025 8:30:00 AM
Meta开源创新大模型架构AU-Nets
在大模型领域,如何将文本数据分解成合适的单元一直是重点研究对象。 传统的分词方法,如Byte Pair Encoding等,会预先将文本分割成固定粒度的单元,然后构建一个静态的词汇表供模型使用。 但这种方法存在诸多局限性,一旦分词完成,模型在后续处理中就只能局限于这些预设的单元,无法灵活地调整对数据的处理方式和预测范围;另一方面,对于一些低资源语言或者具有特殊字符结构的文本,这种固定分词方式往往难以有效处理,限制了模型的泛化能力和应用范围。
7/23/2025 9:10:00 AM
机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025
如何让AI像人一样,仅凭少量演示,就能稳健适应复杂多变的真实场景? 美国东北大学和波士顿动力RAI提出了HEP(Hierarchical Equivariant Policy via Frame Transfer)框架,首创“坐标系转移接口”,让机器人学习更高效、泛化更灵活。 总的来说,HEP框架具有以下亮点:极简高效的分层结构高层负责全局目标设定,低层自主在本地坐标下优化动作,显著提升操作的灵活性与效率;空间对称性自然泛化模型自动适应目标平移、旋转等变化,极大降低泛化对数据量的依赖;创新型体素编码器三维视觉信息高效表达,兼顾细节还原与计算速度。
7/22/2025 12:42:53 PM
南洋理工、北大、上海AI实验室开源长记忆世界模型
目前,世界模型的模拟方法在维持长期一致性方面仍面临巨大挑战。 许多模拟环境在视角移动或时间推移后会出现内容变化,导致 3D 空间不一致,严重影响了用户体验和模拟效果的可靠性。 为了解决这一难题,南洋理工大学、北京大学王选计算机技术研究所、上海人工智能实验室的研究人员联合开源了长记忆世界模型WORLDMEM。
7/22/2025 10:45:55 AM
碾压DeepSeek V3!阿里开源新版Qwen-3,屠榜级断层第一
今天凌晨1点,阿里巴巴开源了Qwen3系列新版本Qwen3-235B-A22B-2507。 比较意外的是,阿里已经停用了混合思考模型,新版Qwen3是一个非思维推理,又回到了指令微调模型,但性能非常强劲。 根据阿里公布的数据显示,新版Qwen3在知识、推理、代码、对齐、智能体、多语言测试6大类几十种测试基准中,全部大幅度超过了DeepSeek开源的新版V3-0324模型。
7/22/2025 10:43:25 AM
超越Claude 3.5和o1!8B模型靠「分层投票+测试时训练」逆袭
测试时训练(test-time training)是一种通用的训练方法。 该方法将单个未标记的测试实例转化为自监督学习问题,在对测试样本进行预测之前更新模型参数。 而对于大模型训练,通常会使用一种称为情境学习的技术来提高其模型在新任务上的性能。
7/22/2025 10:22:02 AM
数百个虚拟人在线逃生!天大等发布:首个实时在线多智能体模拟方法
人群疏散模拟对于提高公共安全至关重要,也是构建逼真虚拟动态环境所需要的技术,其发展面临着复杂人类行为建模难的挑战。 现有的疏散模拟方法常以2D点表示人群,关注人群位置和轨迹,但忽略了复杂人类行为,如碰撞、交互、摔倒等,以及三维环境、个体行为能力的影响,导致模拟结果不真实。 而现有的三维运动生成方法和角色控制方法也无法同时保证实时性、合理性、个性化、动态感知、以及适用于任意场景和地形,如表1所示。
7/21/2025 11:51:58 AM
斯坦福开源复杂推理AI Agent,融合超十种工具
传统的AI助手通常依赖于单一模型或有限的工具集,难以应对需要多步推理、跨领域知识融合及高精度数据分析的任务。 例如,解决视觉谜题,需要精细图像理解和基于文本的混合推理。 为了解决这一难题,斯坦福开源了OctoTools,这是一个融合了11种不同工具专用于复杂推理的AI Agent。
7/21/2025 11:51:12 AM
仅需0.7秒单图像实时3D重建,开源扩散模型
单图像3D重建,即从单一视角的二维图像中恢复出三维物体的形状和结构,是计算机视觉领域的一项基础且极具挑战的难题。 学术界和工业界主要探索了两种不同的技术路线:基于回归的建模方法和生成式建模方法。 基于回归的方法能够高效地推断出可见表面,但在处理遮挡区域时却力不从心,常常导致表面和纹理估计不准确。
7/21/2025 9:26:00 AM
代码碾压一切!OpenAI神秘模型o3-alpha一夜刷屏,却遭41岁大神绝地反杀
OpenAI果然藏了一手。 昨天夜里,一个名为「o3-alpha-responses-2025-07-17」的神秘模型被爆出。 网友们疯狂测试后,得出一致结论,这个模型强得离谱。
7/21/2025 9:19:00 AM
谷歌AlphaFold得了诺奖,但DeepMind根本没引用前人论文?
AlphaFold因获得诺奖而声名大噪。 在大多数情况下,AlphaFold 2的预测精度几乎可与X射线晶体学相媲美,令人震撼。 生物化学界持续了半个世纪的难题,终于被攻克。
7/21/2025 9:16:00 AM
英伟达GPU被曝严重漏洞,致模型准确率暴跌99.9%
英伟达GPU,被白帽黑客发现了严重漏洞。 通过一种名为GPUHammer的攻击方式,可以让GPU上跑的大模型,准确率从80%直接掉到0.02%,可以说是渣都不剩。 多伦多大学的研究人员形容,这种攻击就像在模型中引发灾难性的脑损伤。
7/21/2025 9:05:00 AM
一盘大棋!OpenAI「截胡」IMO金牌,奥特曼为GPT-5献上「核弹级」预热
谁曾想,OpenAI又抢尽了谷歌的风头! 爆料称,谷歌DeepMind的AI模型早在本周五,也就是两天前,便拿下了IMO金牌。 但由于内部审核慢,需等下周一市场部批准后,DeepMind才能官宣具体情况。
7/21/2025 9:04:00 AM
陶哲轩回应OpenAI新模型IMO夺金!GPT-5测试版也曝光了
OpenAI最新模型曝光了,在2025年国际数学奥林匹克竞赛(IMO)上达到了金牌水平! IMO被公认为全球最顶尖的数学竞赛,每年只有不到8%的参赛者能够获得金牌。 而现在,一个AI模型做到了。
7/21/2025 9:00:00 AM
AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab
给AI一场压力测试,结果性能暴跌近30%。 来自上海人工智能实验室、清华大学和中国人民大学的研究团队设计了一个全新的“压力测试”框架——REST (Reasoning Evaluation through Simultaneous Testing)。 该框架在一个prompt里同时抛给模型多个问题,模拟真实世界中复杂的、多任务并行的推理场景。
7/21/2025 8:47:00 AM
大神Karpathy都投的AI实时视频生成模型:直播都能立即转,无限时长几乎零延迟
大神Karpathy都忍不住投资的AI初创,带来首个实时扩散视频生成! 用扫帚当麦克风,用盒子当混音台,无需昂贵设备就能开一场沉浸式直播。 喜欢游戏类型但不喜欢游戏的画面?
7/21/2025 8:46:00 AM
无需NeRF/高斯点后处理,视频秒变游戏模型成现实!新方法平均每帧仅需60秒 | ICCV 2025
只需一段视频,就可以直接生成可用的4D网格动画? 来自KAUST的研究团队提出全新方法V2M4,能够实现从单目视频直接生成高质量、显式的4D网格动画资源。 这意味着无需NeRF/高斯点后处理,可直接导入游戏/图形引擎。
7/21/2025 8:45:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
图像
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
具身智能
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
MCP
预测