模型
陶哲轩官宣AI数学基金首轮名单:29个项目瓜分1.3亿,数学界沸腾!
近日,陶哲轩表示,自己所担任顾问的AI数学基金,刚刚公布第一批获得资助的项目:由于收到大量高质量提案,基金已将总资助金额从900万美元翻倍至1800万美元。 预计2025年晚些时候还将再开放一轮申请。 去年12月,陶哲轩表示同意加入AI数学基金(AI for Math Fund)顾问委员会。
9/23/2025 9:15:31 AM
GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭
继IMO 2025登顶后,谷歌、OpenAI的模型,再一次拿下了ICPC金牌。 ICPC,被公认为全球最具挑战的大学生编程竞赛之一。 OpenAI和谷歌不仅解决了全部12题,还在人类选手中位列第一,难道AI编程真能所向披靡了吗?
9/23/2025 9:13:37 AM
性价比之王!马斯克发布Grok 4 Fast!200万上下文窗口,输出百万token价格仅3块5!附生成环境评估建议
昨天,马斯克的 xAI 发布了新模型 Grok 4 Fast。 作为 Grok 4 的“兄弟型号”,它更便宜、更快、可大规模扩展,目标是在长上下文推理和智能体工具使用上进一步突破。 🚀 核心看点Grok 4 Fast 是 xAI 的 Grok 4 的一个变体,强调效率和可用性,同时不牺牲性能。
9/22/2025 11:36:10 AM
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
本文的第一作者曾敏来自 vivo AI Lab,主要研究方向为大语言模型、强化学习、agent。 监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。 通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。
9/22/2025 10:44:20 AM
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题
在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。 然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。 这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。
9/22/2025 10:41:42 AM
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界
近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。 然而,生成内容的精准可控性仍是制约其应用推广的短板,例如,模型可以生成“海滩边的排球比赛”的动态场景,但创作者很难指挥镜头何时推拉、如何摇移、从哪儿起落。 为补齐“可控性”这块短板,业界通常会在特定数据上微调或重训现有的视频生成模型,但微调一个大模型所需的时间成本和算力成本高昂,甚至还可能会削弱模型内在的世界知识,损害模型的泛化能力与画面质感。
9/22/2025 9:16:00 AM
醒醒,LLM根本没有性格!加州理工华人揭开AI人格幻觉真相
AI真的有「性格」吗? 有人拿它做过大五人格测试,发现它回答得既友善,又不焦虑,甚至比人类更稳定。 于是有了各种趣味解读:有的模型像外向的ENFP,有的则更像严谨的ISTJ,好像AI也能被贴上MBTI标签。
9/22/2025 9:13:00 AM
马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文
马斯克xAI又出手了! 这次闪亮登场的是Grok 4 Fast——不仅实现1折价格追平Gemini 2.5,还支持2M上下文窗口。 除此之外,这个全新的多模态推理模型还可与X实现无缝衔接。
9/22/2025 9:11:00 AM
马斯克Grok 4 Fast首发霸榜!2.5倍速秒杀GPT-5,成本暴降98%直追Gemini
Grok 4 Fast官宣上线,马斯克再次兑现了承诺! 它首次将推理/非推理「双模式」合一,支持200万上下文,直接刷爆性价比SOTA。 推理测试中,Grok 4 Fast直接碾压前代Grok 3 Mini,尤其是数学、编码性能大增。
9/22/2025 9:06:00 AM
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错
让AI像金融分析师一样搜索和分析数据,到底有多难? 当前的大模型虽然能回答基础金融知识,在CFA考试中取得高分,但面对真实的金融场景,它们的表现究竟如何? 为了回答这个问题,字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。
9/22/2025 9:04:00 AM
阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁
正如牡蛎历经磨砺,在坚实的外壳内将沙砾孕育成一颗温润的珍珠。 AI也可以如此,不是一个只会紧紧封闭抵御风险的系统,而是一个有底线、有分寸、也有温度的伙伴。 阿里巴巴集团安全部联合清华大学、复旦大学、东南大学、新加坡南洋理工等高校,联合发布技术报告;其理念与最近OpenAI发布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不谋而合。
9/22/2025 8:50:00 AM
终结CMU霸权,清华首次登顶CSRankings世界第一!北大AI领域夺冠
就在刚刚,2025 CSRankings全球计算机科学排名再次更新! 清华大学首次摘得全球第一! 而在今年4月时,排名是这样的:这次更新最大看点是中国高校集体爆发:清华大学、上海交通大学、浙江大学、北京大学分列第1、3、4、5位,直接占据了TOP 5中的4个名额。
9/22/2025 8:47:00 AM
吴恩达发帖:编程Agent确实会作妖!奖励黑客模型、甚至直接删掉了整个项目代码;Agentic测试关注度飙升,自曝自己的测试心得
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)“首先要承认,编程Agent确实会‘作妖’! ”今天一早,AI大佬吴恩达针对目前火热的编程Agent产品发表了自己的观点。 虽然这个赛道很热,但吴恩达丝毫没有掩饰自己内部团队的真实使用体验。
9/19/2025 7:30:14 PM
云昭
登顶多模态推理榜MMMU!UCSD新方法超越GPT-5、Gemini
近年来,大语言模型(LLM)在推理能力上的进展显著,其中过程奖励模型(Process Reward Model, PRM)的提出,使得模型能够在推理链条的中间步骤获得监督,从而更稳健地选择合理的解题路径。 这类方法在文本推理任务中已经取得了良好效果,但在扩展至多模态场景 时,仍然面临两个突出挑战:分布偏移:多模态输入空间巨大,训练与推理分布往往存在显著差异;数据质量不均:大规模训练集不可避免地包含噪声或低质量样本,降低了有效监督信号。 因此,如何在多模态推理中有效利用高质量样本,抑制噪声样本的负面影响,成为亟需解决的问题。
9/19/2025 2:53:34 PM
斯坦福李飞飞团队,带你一句话进入无限3D世界
斯坦福大学的李飞飞教授,又带着她的新成果来“砸场子”了。 只用一张图,甚至一句话,就能直接生成一个可以让你在里面“逛街”的3D世界。 不是图片,也不是视频,而是一个活生生的、可以自由探索、永久存在的3D虚拟空间。
9/19/2025 9:06:00 AM
理解帮助生成?RecA自监督训练让统一多模态模型直升SOTA
谢集,浙江大学竺可桢学院大四学生,于加州大学伯克利分校(BAIR)进行访问,研究方向为统一多模态理解生成大模型。 第二作者为加州大学伯克利分校的 Trevor Darrell,第三作者为华盛顿大学的 Luke Zettlemoyer,通讯作者是 XuDong Wang, Meta GenAl Research Scientist,博士毕业于加州大学伯克利分校(BAIR 实验室),这篇工作为他在博士期间完成。 背景:统一多模态理解与生成模型的挑战统一多模态模型(Unified Multimodal Models, UMMs)旨在将视觉理解和生成统一于单一模型架构。
9/19/2025 9:05:18 AM
AI芯片独角兽一年估值翻番!放话“三年超英伟达”,最新融资53亿超预期
谷歌TPU团队原班人马组建,英伟达挑战者、AI芯片初创企业Groq又获融资。 超出此前的6亿预期,此次融资高达7.5亿美元(约53亿人民币),Groq现估值69亿美元(约490亿人民币)。 一年的时间,估值就涨了一倍多。
9/18/2025 12:55:18 PM
找ChatGPT谈恋爱多是“日久生情”?!MIT&哈佛正经研究
终于有科学家对“AI伴侣”这事儿展开正经研究了! 以往这类消息多以趣闻轶事出现,be like:而现在,麻省理工和哈佛大学的研究人员通过分析Reddit子版块r/MyBoyfriendIsAI上的帖子,完整揭露了人们寻找“AI男友”的动机、具体相处过程等问题,并得出了一系列有趣发现:原来大部分人并非刻意寻找AI伴侣,而是“日久生情”;用户也会通过戒指和仪式与AI结婚;通用AI比专门的恋爱AI更受欢迎,很多人的“另一半”都是ChatGPT;最痛苦的莫过于模型突然更新;……下面详细来看——都在用AI伴侣干什么? 先说一下这个r/MyBoyfriendIsAI板块。
9/18/2025 12:48:59 PM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
数据
机器人
大模型
Midjourney
开源
Meta
智能
用户
微软
GPT
学习
AI新词
技术
智能体
马斯克
Gemini
图像
AI创作
英伟达
Anthropic
训练
论文
代码
LLM
算法
Stable Diffusion
芯片
腾讯
苹果
AI for Science
Claude
蛋白质
Agent
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
工具
计算
RAG
大语言模型
GPU
华为
Sora
具身智能
AI设计
字节跳动
搜索
大型语言模型
AGI
场景
深度学习
视频生成
预测
视觉
架构
伟达
Transformer
DeepMind
编程
神器推荐
AI模型
亚马逊
特斯拉