AI在线 AI在线

AI

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。 这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。 一个最基础、却也最关键的问题是:在评判一个模型是否“入戏”之前,AI裁判能准确识别出对话中到底是谁在说话吗?
8/18/2025 9:00:00 AM
谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草

谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草

大块头不等于大智慧。 这在生成式AI领域,已逐渐成为共识。 Gemma 3系列的成功就是一个很好的例证。
8/18/2025 8:57:00 AM
AI顶会反噬整个学术圈!「不发表就会死」,NeurIPS爆仓,博士年肝4.5篇大崩溃

AI顶会反噬整个学术圈!「不发表就会死」,NeurIPS爆仓,博士年肝4.5篇大崩溃

或许你也注意到了这个现象——AI和机器学习的繁荣,已经造成了一场少有人谈论的危机。 学生和研究人员过剩,就业前景有限,整个学术体系已经不堪重负。 随着NeurIPS、ICML和CVPR等会议的投稿数量激增,同行评审流程正在崩溃。
8/18/2025 8:51:00 AM
微软推Agent Lightning:AI 智能体训练与执行彻底解耦,零改代码即用!

微软推Agent Lightning:AI 智能体训练与执行彻底解耦,零改代码即用!

近日,微软研究院的一个团队发布了一个名为 Agent Lightning 的框架,它使任何人工智能(AI)智能体都能通过强化学习进行训练。 图片这个框架的核心突破在于,它实现了智能体执行与强化学习(RL)训练过程的完全解耦。 这一设计允许开发者将该框架无缝集成到他们现有的智能体中,并且几乎不需要修改任何代码。
8/18/2025 3:00:00 AM
炸裂!Spring Boot 3 搭配 AI 实现智能弹幕审核 + Redis 热点缓存 + 上下文识别

炸裂!Spring Boot 3 搭配 AI 实现智能弹幕审核 + Redis 热点缓存 + 上下文识别

我们用 Spring Boot 3 WebSocket 打造了一个实时弹幕系统。
8/18/2025 2:11:00 AM 编程疏影
“完美候选人”可能啥都不会?AI造假攻陷远程面试!

“完美候选人”可能啥都不会?AI造假攻陷远程面试!

Gartner预测,到2028年,每四份候选人资料中,就会有一份是假的。 这是一个让人瞠目的结论,却不是空穴来风。 Gartner对3000名求职者的调研显示,6%的人承认在面试中动过手脚,要么冒充别人,要么找人替自己出镜。
8/18/2025 2:00:00 AM
刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代

刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代

Genie 3是有史以来最先进的世界模型之一。 仅通过文本,它能够实时生成完全互动、高度一致的世界。 它不仅是DeepMind积累的结晶,还是通向AGI和具身智能体的关键一步。
8/18/2025 1:00:00 AM 新智元
绿动算力 超智融合

绿动算力 超智融合

“天苍苍,野茫茫,风吹草低见牛羊”,雄浑壮阔的草原风景与“绿水青山就是金山银山”的发展智慧在鄂尔多斯交相辉映。 8月13-16日在鄂尔多斯国际会展中心举办的第21届CCF全国高性能计算学术大会(CCF HPC China 2025),让草原的辽阔与算力的澎湃、大自然的馈赠与科技的突破在此碰撞融合,书写了数智化时代自然禀赋与数字革命共生共荣的新篇章。 作为全球三大超算盛会之一,本届大会以“绿动算力 超智融合”为主题,紧扣当下行业趋势和技术热点,延续并彰显“学术引领、产业融合”的特色,汇聚众多特邀嘉宾,11位院士莅临现场,另外还包括戈登贝尔奖获得者、权威专家、资深学者、企业精英等。
8/17/2025 9:37:00 PM 郑佳美
奥特曼播客自曝:多次被打脸!模型下架内幕:GPT-5爽到再也不想回4o!围绕AI卖产品者死,卖服务者活!带娃是自己最有成就感的事

奥特曼播客自曝:多次被打脸!模型下架内幕:GPT-5爽到再也不想回4o!围绕AI卖产品者死,卖服务者活!带娃是自己最有成就感的事

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)GPT-5一发布,4o就成为了无数人心中的“白月光”。 今天,一则奥特曼在GPT-5发布前夕提前录制的播客上线了。 回看当时那股无限的期待,再对照发布后的落差,味道确实有点微妙。
8/15/2025 6:39:35 PM 伊风
百度AICA第9期开课:18大行业96位首席AI架构师齐探AI产业落地

百度AICA第9期开课:18大行业96位首席AI架构师齐探AI产业落地

8月15日,由百度与深度学习技术及应用国家工程研究中心联合发起的AICA首席AI架构师培养计划(以下简称“AICA”)在北京举办第九期开学典礼。 经过半年的预科班课程学习、严格的项目技术评审以及面评等多重筛选,96位企业CTO、技术高管学员从近500位报名者中脱颖而出,将开展为期半年的 AI 大模型研发和应用共创学习。 茅台、麦当劳、奔驰等90余家来自18个行业的企业技术管理者将与百度一起围绕大模型、多模态、智能体和产业链协同等前沿方向,开启为期半年的共学之旅。
8/15/2025 5:11:55 PM 鹭羽
OpenAI华人露头就被小扎挖!95后北大校友1个月前上直播,今天已是Meta人

OpenAI华人露头就被小扎挖!95后北大校友1个月前上直播,今天已是Meta人

又来了又来了,OpenAI华人工程师,果然露脸就被小扎挖(doge)。 这一次,主角是95后北大校友孙之清,上个月刚刚参与了ChatGPT Agent的发布直播。 当时就有不少网友调侃:发布会出镜就是在给Meta提供挖角名单。
8/15/2025 12:27:27 PM
OpenAI波兰双雄:GPT不是偶然!再忆奥特曼被逐当天实况

OpenAI波兰双雄:GPT不是偶然!再忆奥特曼被逐当天实况

OpenAI早期,据说午餐时大家太紧张,以至于不敢说话,现在的氛围轻松许多。 甚至OpenAI早期有个「波兰帮」,比如联合创始人Wojciech Zaremba(下图左),后来在编程竞赛击败ChatGPT的信息学奥赛金牌选手Przemysław Debiak(下图右)。 图片还有两位黄金级搭档Jakub Pachocki和Szymon Sidor:现首席科学家Jakub Pachocki,奥特曼称赞为「我们这一代最杰出的头脑之一」;OpenAI技术Fellow、前者的高中同学Szymon Sidor。
8/15/2025 11:54:04 AM 新智元
Claude Code价格翻倍背后:Anthropic的技术自信与AI编程市场的大洗牌

Claude Code价格翻倍背后:Anthropic的技术自信与AI编程市场的大洗牌

昨天有朋友在微信群里发了个截图,说Claude的API费用怎么突然涨了这么多。 我点开一看,确实有点意外——Claude一夜之间价格翻倍了。 说实话,AI圈最近一直在打价格战,各家都在降价。
8/15/2025 9:23:41 AM 阿丸笔记
Claude Code 史诗级更新!AI 编程进入“反向教学”模式,写到一半会停下考你:这行代码你来写

Claude Code 史诗级更新!AI 编程进入“反向教学”模式,写到一半会停下考你:这行代码你来写

Claude code又更新了,最近claude几乎一天一更新,今天,Claude Code 和 Claude App 推出了学习模式,感觉Claude Code正在朝着万能Agent发展先说 Claude Code:现在支持用 /output-style 来定制沟通风格,Output styles允许你把 Claude Code 调整为任意类型的Agent来配合你的工作流程,同时保留它的核心能力(运行本地脚本、读写文件、维护 TODO)这次主打两种风格,专为学生和开发者提升技能而来:Explanatory(解释)——Claude 会把它的思考过程摊开说,为什么这么设计、有哪些权衡、最佳实践是什么,一边写代码一边讲门道Learning(学习)——更像结对编程的导师。 Claude 会不时暂停,把部分任务交给你来写,再给出指导与反馈,边做边学实操上,如果你想更深入理解它在做什么、为什么这么做,选 Explanatory;如果你想通过亲手编码快速进步,选 Learning,把 Claude 当成带你升级打怪的搭档就好。 更多细节可看官方文档:,对所有 Claude App 用户也有好消息:此前在 Claude for Education首发的 Learning 风格,现在全面开放。
8/15/2025 9:16:16 AM
Meta刚刚开源DINOv3,横扫60+任务,无标注封神!

Meta刚刚开源DINOv3,横扫60+任务,无标注封神!

今天凌晨,全球社交、科技巨头Meta开源了,最新视觉大模型DINOv3。 DINOv3的主要创新使用了自我监督学习,无需标注数据就能大幅度降低训练所需要的时间和算力资源。 并且与前一代相比,DINOv3的训练数据大12倍扩大至17亿张图像以及大7倍的70亿参数。
8/15/2025 9:07:09 AM
链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防

链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防

思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段,通过在输入中加入「Let’s think step by step」等提示,模型会生成类似人类的中间推理步骤,显著提升复杂任务的表现。 然而,这些流畅的推理链条是否真的反映了模型的推理能力? 亚利桑那州立大学的一项最新研究却发现,CoT 推理可能并不是真正的推理,而更像是对训练数据分布内模式的复现。
8/15/2025 9:03:24 AM
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab

混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab

近年来,AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。 特别是DeepSeek-R1等先进模型的出现,可验证强化学习(RLVR)技术展现出强大的性能提升潜力。 然而,现有关于强化学习和模型的研究多聚焦于单一领域优化,缺乏对跨领域知识迁移和协同推理能力的系统性探索,让模型能够在多领域协同工作,发挥更好的推理能力。
8/15/2025 9:00:00 AM
LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer

LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer

OpenAI 在 AI 领域引领了一波又一波浪潮,想必很多人好奇,这些创新背后的研究人员是如何通过面试的? 尤其是现在,OpenAI 已经成为全球最受瞩目的 AI 公司之一,吸引了无数顶尖人才投递简历。 想要加入这个团队,着实不容易。
8/15/2025 8:57:02 AM