AI
视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源
一个新的Benchmark,竟让大模型在复杂视频推理这事儿上统统不及格! 这就是腾讯ARC Lab和香港城市大学最新推出的Video-Holmes——如其名,它可以说是视频推理界的“福尔摩斯测试”,通过让多模态大模型参与“推理杀人凶手”, “解析作案意图”等高难度的推理任务,以展现他们复杂视频推理能力的边界。 而且Video-Holmes可以说是规避了现在业内已有的Benchmark痛点,即视频源和问题都偏简单,没法反映推理模型和非推理模型之间的差距。
5/30/2025 9:17:00 AM
博士级AI智能体写的论文,首次登上顶会ACL!人类作者只是监工
有个叫Zochi的AI系统写了一篇研究论文,并且被顶级学术会议ACL 2025的主会场接受了! ACL是自然语言处理(NLP)领域里最顶尖的会议之一。 Zochi是Intology AI开发的首个博士级智能体,就像一个从头到尾完成科学研究「AI科学家」。
5/30/2025 9:15:00 AM
视频实时生成可交互! 两位自动驾驶大牛创业世界模型:40毫秒/帧,无需任何游戏引擎,人人免费可玩
李飞飞押注的世界模型领域,迎来两位自动驾驶大牛创业新成果! 无需任何游戏引擎,AI能以40毫秒/帧想象并实时生成视频。 40毫秒/帧啥概念?
5/30/2025 9:14:00 AM
妈妈再也不用担心延迟了!斯坦福手搓Llama超级内核,推理仅需0.00068秒
想象一下:你和AI聊天时,每句话都要等它3秒——血压是不是瞬间飙升? 低延迟LLM推理,就是专门针对这个问题的解决办法。 博客地址:「整了个大活」:他们手搓了个叫做「Megakernel」超级玩具(推理引擎),把Llama-1B的前向传播整个塞进单个GPU内核!
5/30/2025 9:12:00 AM
中国团队让AI拥有「视觉想象力」,像人类一样脑补画面来思考
在人类的认知过程中,视觉思维(Visual Thinking)扮演着不可替代的核心角色,这一现象贯穿于各个专业领域和日常生活的方方面面。 图 1:需要借助「脑补」图像进行思考的真实世界任务。 这些任务通常需要视觉预见性和想象力,仅凭基于文本的思考无法完全实现生物化学家在探索新的治疗途径时,会在脑海中构建蛋白质的三维立体结构,通过视觉化的分子间相互作用来理解复杂的生化过程;法医分析师在破解疑难案件时,需要在心中重建犯罪现场的空间布局,通过视觉推理来验证证据之间的逻辑连接;建筑师在设计创新建筑时,会在脑海中不断勾勒和修正建筑草图,通过视觉想象来优化空间配置和光照效果;篮球运动员在制定战术策略时,需要在脑海中构想队友的跑位路线、防守阵型的变化以及关键时刻的战术配合,通过视觉化的场景想象来设计最佳的进攻方案;在日常决策中,一般人也会通过「脑补」各种可能的场景图像来辅助判断和选择,用脑海中自发生成的图像作为认知媒介。
5/30/2025 9:10:00 AM
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”? 比如,“写一篇10,000字的长文,详细分析某个议题。 ”看似简单的要求,实际却往往让这些模型“力不从心”:不是生成内容不足,就是重复啰嗦,甚至直接罢工拒绝生成。
5/30/2025 9:10:00 AM
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。 UC Berkeley团队共同一作Xuandong Zhao把这项成果称为:大模型无需接触真实答案,仅通过优化自己的信心,就能学会复杂推理。 具体来说,新方法完全不需要外部奖励信号或标注数据,只需使用模型自身的置信程度作为内在奖励信号。
5/30/2025 9:05:00 AM
原来Veo 3早有苗头!人大联合值得买科技在CVPR 2025提出全新「图像到有声视频」生成框架
本文介绍工作由中国人民大学高瓴人工智能学院宋睿华团队、李崇轩、许洪腾与值得买科技 AI 团队共同完成。 第一作者王希华是人大高瓴博士生(导师:宋睿华),他的研究兴趣主要在多模态生成,之前提出利用音频布局(audio layout)为视频生成同步声音的TiVA模型,已发表在MM 2024。 宋睿华的团队主要研究方向为多模态理解、生成与交互。
5/30/2025 9:00:00 AM
RSS 2025|从说明书学习复杂机器人操作任务:NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill
本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。 合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。 通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为机器人和人工智能。
5/30/2025 8:55:00 AM
LLM省钱大测评!48块GH200,首个百亿级参数量实证
近年来,大型语言模型(LLM)如GPT系列取得了革命性进展,在自然语言处理、内容创作、多语言翻译乃至科学研究等众多领域展现出惊人能力。 然而,模型参数量(如DeepseekR1的671B参数)和上下文窗口的急剧膨胀,带来了巨大的计算力(GPT-3训练约需3640Petaflop/s-days)、能源消耗和资金投入(GPT-3训练成本估计超460万美元)。 高昂的成本已成为制约LLM进一步发展和广泛应用的关键瓶颈。
5/30/2025 8:50:00 AM
100亿H20没卖出,英伟达狂赚1000多亿破纪录!
英伟达狂赚不止,再次交出了亮眼成绩单! 今早,英伟达2026财年第一季度财报公布,再次破纪录:营收达441亿美元,较上一季度增长12%,较去年同期增长69%数据中心收入达391亿美元,较上一季度增长10%,较去年同期增长73%数据中心占据收入的大头,其次为游戏。 受新出口许可要求影响,英伟达因H20库存积压及采购义务,在本季度计提了45亿美元费用。
5/30/2025 8:40:00 AM
DeepSeek免费超越GPT-4?
DeepSeek 最新发布了 R1-0528 版本,这次更新的最大亮点是"深度思考"能力大幅提升。 很简单:进入 DeepSeek 官网、APP 或小程序,在对话界面开启"深度思考"功能即可。 图片API 接口也同步更新,调用方式保持不变。
5/30/2025 7:40:56 AM
程序员NEO
DeepSeek-R1小升级!体验后有被惊艳到
今年1月,DeepSeek-R1横空出世,凭借在性能和成本方面展现出的巨大优势,迅速成为全球人工智能(AI)领域瞩目的焦点。 时隔四个月,这款大模型迎来了小升级。 5月28日,DeepSeek正式发布了R1的最新版本——DeepSeek-R1-0528。
5/30/2025 6:57:53 AM
Yu
随着经济压力加大,零售商利用AI来优化成本
面对关税和消费者支出模式带来的压力,零售企业正依赖AI和其他技术来优化成本,以保持竞争力。 随着许多零售商为今年剩余时间内的增长放缓做准备,因为市场波动仍在持续,Ralph Lauren Corporation、Revolve . Group和Williams-Sonoma正优先考虑对AI工具的投资,希望这些工具能减轻经济逆风的影响,并改善客户和员工的体验。
5/30/2025 6:00:00 AM
Lindsey
【一文读懂AI核心要点】什么是大模型?你真的知道“大模型”和“大语言模型”的区别吗?
在人工智能领域,“大模型”和“大语言模型”这两个词经常被提及,很多人甚至把它们当成了同义词。 其实,这两者之间存在本质的区别。 今天,我就带你深入剖析什么是大模型,什么是大语言模型(LLM),它们的区别在哪里,以及如何利用这些模型提升你的项目效率。
5/30/2025 5:00:00 AM
爱学习的蝌蚪
当测试遇见 AI:用 Streamlit+AutoGen+Deepseek 构建智能用例生成器
一、引言: 测试用例的 AI 进化之路1.1 行业困境:手工用例的三重效率枷锁在软件测试领域,测试用例是质量保障的核心载体。 据 ISTQB 2024 全球测试报告揭示:测试用例承担着 70%的质量决策责任,但是传统手工编写方式正面临三大痛点:1.1.1 痛点一:效率瓶颈 —— 百级用例的时间黑洞数据支撑:腾讯云测试效能调研显示:某电商平台年编写用例 1.2w 条,其中 68.3% 因需求变更需重复修改。 某金融 APP 密码修改功能开发中,23 条用例编写耗时占项目周期 42% (相当于 1 个资深测试工程师 80 工时)。
5/30/2025 3:33:00 AM
魏文晏
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率低至55%
当前顶尖AI模型是否真能“看懂”物理图像? 全谱系多模态物理推理新基准来了,结果SOTA级模型准确率都不足55%。 新基准名为SeePhys,强调了图形感知对于模型认识和理解物理世界的重要性。
5/30/2025 3:10:00 AM
使用Agno实现AI代理设计的五个层级,由易到难
AI代理设计指南本指南将代理设计分解为五个实际难度级别,每个级别均提供可运行的代码示例。 无论开发者是初学者还是处理现实世界的复杂任务,本指南都能帮助避免常见陷阱,构建真正有效的代理。 这些级别包括:•级别1:带工具和指令的代理•级别2:带知识和记忆的代理•级别3:带长期记忆和推理的代理•级别4:多代理团队•级别5:代理系统以下逐一介绍各级别。
5/30/2025 2:10:00 AM
AI研究生
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
芯片
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
具身智能
大语言模型
百度
生成
Sora
GPU
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
深度学习
生成式AI
架构
DeepMind
亚马逊
特斯拉
编程
AI模型
视觉
Transformer
预测
MCP