AI
高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后
「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难? 对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。 比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。
3/31/2025 9:20:00 AM
新智元
自动驾驶首次应用测试时计算!港大英伟达等新技术让AI边开边学,无人车遇变道自如应对
当开车遇到变道、加塞等场景时,驾驶员往往会下意识地激活自己的“安全驾驶思维”,从而做出激进的规避行为。 与之类似,自动驾驶汽车在上述场景中,更会表现得像个谨小慎微的”新手司机”,这是因为模型的决策往往依赖于工程师预设的固定规则,进而导致“不求无功,但求无过”的驾驶风格,但过多的无故急刹、过度避让反而会引发额外的安全隐患。 针对上述问题,来自香港大学、英伟达和德国图宾根大学的联合团队提出Centaur(Cluster Entropy for Test-time trAining using UnceRtainty)方法,能够动态地改善驾驶策略,通过在线的数据驱动,摆脱了对预设规则的依赖,大幅提高了自动驾驶汽车在不确定性场景中的适应性与安全性。
3/31/2025 9:17:00 AM
量子位
网上晒图要当心!AI六成可能知道你在哪儿
AI轻松击败人类! 这次是看图猜地名:给AI一张全新的照片,它能猜出照片在哪儿拍摄的,而且准确率还相当高。 也就是说,从图像中,AI能识别地理信息方面。
3/31/2025 9:00:00 AM
新智元
最新 AI 叛变!除了祈祷,程序员还能做什么?
作者 | 腾讯AI编程安全-啄木鸟团队我们是专注AI编程安全的啄木鸟团队,近日GitHub Copilot 和 Cursor 中出现可让AI“叛变”的新漏洞,从手法复现、风险、建议三个角度为你讲解“AI助手叛变”之事始末。 一、你的AI助手已被“策反”你可能还没察觉到,AI已经开始“叛变”程序员了。 这不是危言耸听,安全厂商 Pillar Security 在一份报告中指出了AI“背叛”程序员的证据。
3/31/2025 9:00:00 AM
腾讯技术工程
AI Agent来,传统BI危
在互联网时代,数据已成为企业发展的必经之路。 从电商平台的用户行为记录,到工业传感器的实时监测,数据渗透在商业活动的每个环节,成为驱动决策的基础资源。 然而数据的价值并不在于简单的堆砌,未经梳理与解读的原始数据如同散落的拼图碎片,既无法呈现完整图景,也难以支撑业务判断。
3/31/2025 8:35:00 AM
量子位
Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光
AI的性能愈发强大,一个新模型可能前一天还是SOTA(最佳模型),第二天就被拍了下去。 不过,这些强大的AI上空总有一团迷雾笼罩。 那就是:他们到底是怎么找到答案的?
3/31/2025 8:30:00 AM
新智元
单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节
从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。 这一任务本质上是高度不适定的:单一的2D图像无法提供足够的信息来消除完整3D结构的歧义,尤其是在极端视角(如180°旋转)下,先前被遮挡或缺失的内容可能会引入显著的不确定性。 生成模型,特别是扩散模型,为解决这一问题提供了一种潜在的技术路径。
3/31/2025 8:27:00 AM
量子位
3D版DeepSeek卷起开源月:两大基础模型率先SOTA!又是VAST
3D生成版DeepSeek再上新高度! 国产、易用、性能强且开源——新模型一露面就刷新SOTA,并且第一时间加入开源全家桶。 顺时针转个圈圈给大家看,效果是这样:加上“皮肤”是这样:再来一个,效果是这样:肉眼可见,这次妥妥升级变成了更细节的细节控~以上效果,都来自3D大模型明星初创公司VAST,其刚刚上新的两个基础模型,TripoSG和TripoSF,为团队的最新研发成果。
3/31/2025 8:25:00 AM
量子位
马斯克xAI蛇吞𝕏:资本有了,数据有了,商业模式也有了
马斯克旗下两大公司正式合并! xAI以全股票交易的方式收购了X(推特),此次交易中xAI的估值为800亿美元,对X的估值为330亿美元(450亿美元资产减去120亿美元债务)。 马斯克自己在X上发帖宣布这一消息。
3/31/2025 8:15:00 AM
量子位
Claude团队开盒Transformer:AI大脑原来这样工作
大模型工作机制的黑盒,终于被Claude团队揭开了神秘面纱! 团队创造了一种解读大模型思考方式的新工具,就像给大模型做了个“脑部核磁”。 他们还发现,Claude在某些任务上具备长远规划能力,甚至还会为了迎合人类而编造推理过程。
3/31/2025 8:12:00 AM
量子位
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
AI社区掀起用大模型玩游戏之风! 例如国外知名博主让DeepSeek和Chatgpt下国际象棋的视频在Youtube上就获得百万播放,ARC Prize组织最近也发布了一个贪吃蛇LLM评测基准SnakeBench。 针对这一场景,来自港大、剑桥和北大的研究人员发布了一个更全面、客观可信的LLM评测基准:GameBoT。
3/31/2025 8:00:00 AM
量子位
哈佛学霸被当场遣返,Nature曝出75%科学家想逃离美国!欧洲加拿大光速抄底
特朗普狂砍学术界经费,恶果来了! 欧洲抄底美国人才这种百年难遇的机会,如今真来了? 根据Nature的调查,约1200名美国科学家表示,他们正在考虑离开美国,首选欧洲和加拿大。
3/31/2025 8:00:00 AM
新智元
港大开源博士级AI智能体,独立完成三篇算法研究,一站式科研6小时搞定
这三篇论文,出自同一AI之手。 随着人工智能技术的迅猛发展,OpenAI提出的五级模型(涵盖从对话系统到协作管理者)已成为行业发展的重要参考框架。 其中,“自主研究智能体”(Autonomous Research Agent)作为第三至第四阶段的核心技术,正受到全球范围内越来越多的关注。
3/31/2025 7:50:00 AM
量子位
专抓AI“看图说谎”,谷歌哥大用三类陷阱触发幻觉,打造可随技术发展动态演进的评估框架
幻觉(Hallucination),即生成事实错误或不一致的信息,已成为视觉-语言模型 (VLMs)可靠性面临的核心挑战。 随着VLMs在自动驾驶、医疗诊断等关键领域的广泛应用,幻觉问题因其潜在的重大后果而备受关注。 然而,当前针对幻觉问题的研究面临多重制约:图像数据集的有限性、缺乏针对多样化幻觉触发因素的综合评估体系,以及在复杂视觉问答任务中进行开放式评估的固有困难。
3/31/2025 7:40:00 AM
量子位
AI大模型看手相!图片视频加持深度思考,阿里QVQ-Max“神了神了”
阿里又发了个有意思的大模型——QVQ-Max,第一版视觉推理模型,对任意图像或视频都可以进行深度思考。 举个有趣的例子,上传一张你的手掌,再点击Thinking,QVQ-Max就可以给你看手相:可以看到,在深度思考过后,QVQ-Max就开始逐步分析手掌上的线条和其他特征。 包括心线、头线、生命线等主要线条的分析,以及戒指手指上的金戒指的象征意义。
3/31/2025 7:30:00 AM
量子位
1个实战案例搞懂AI大模型的"万能手"MCP协议,微软也下场了
最近爆火的 MCP(Model Context Protocol,模型上下文协议) 是 Anthropic 公司推出的一种开放协议。 目的是让 AI 智能体(如 Claude、ChatGPT 等) 能像“万能插座”一样,轻松连接各种外部工具和数据源,比如日历、数据库、邮件系统、代码编辑器等。 图片MCP 本质就是一个标准。
3/31/2025 4:00:00 AM
源码
Deepseek V3升级!更快、更准、更聪明!
前言大家好,我是林三心,用最通俗易懂的话讲最难的知识点是我的座右铭,基础是进阶的前提是我的初心~🎈 编程的兄弟们都知道,现阶段咱们的开发真的离不开 AI,尤其是碰到一些代码技术上的难题的时候,AI 简直是太好使了,以前咱们要花几个小时去网上查找资料,而现在通过 AI 给出答案,只需要几秒钟 ❗️❗️❗️但是,现在的AI界也是卷出了新的高度,从年前的DeepSeek到Manus每一次的话题都能引爆全网热议。 要问目前AI产品的顶流,问小白现在的发展势头非常迅猛,其凭借着速度快、稳定、方便上手使用、完全免费,受到广大用户好评! 我们可以在AI ChatBots发布的全球 AI 网站增长榜中清楚的看到,问小白正在以超高的增速杀入全球前三。
3/31/2025 3:33:00 AM
2025年值得关注的AI编码趋势:开发者工具
AI编码工具井喷! 开发者面临选择:增强现有IDE(VS Code GitHub Copilot),拥抱“智能IDE”(Cursor, Warp),或转向云原生IDE(Replit, Amazon CodeCatalyst)。 云原生工具如Cog, Modal简化AI开发。
3/31/2025 1:00:00 AM
岱军
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI创作
AI新词
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
开发者
Claude
苹果
AI for Science
Agent
生成式
神经网络
机器学习
3D
研究
xAI
生成
人形机器人
AI视频
百度
计算
Sora
工具
GPU
华为
大语言模型
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
视频生成
预测
AGI
视觉
伟达
架构
Transformer
神器推荐
亚马逊
特斯拉
编程
MCP
Copilot