AI
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。 这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。 一个最基础、却也最关键的问题是:在评判一个模型是否“入戏”之前,AI裁判能准确识别出对话中到底是谁在说话吗?
谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
大块头不等于大智慧。 这在生成式AI领域,已逐渐成为共识。 Gemma 3系列的成功就是一个很好的例证。
AI顶会反噬整个学术圈!「不发表就会死」,NeurIPS爆仓,博士年肝4.5篇大崩溃
或许你也注意到了这个现象——AI和机器学习的繁荣,已经造成了一场少有人谈论的危机。 学生和研究人员过剩,就业前景有限,整个学术体系已经不堪重负。 随着NeurIPS、ICML和CVPR等会议的投稿数量激增,同行评审流程正在崩溃。
微软推Agent Lightning:AI 智能体训练与执行彻底解耦,零改代码即用!
近日,微软研究院的一个团队发布了一个名为 Agent Lightning 的框架,它使任何人工智能(AI)智能体都能通过强化学习进行训练。 图片这个框架的核心突破在于,它实现了智能体执行与强化学习(RL)训练过程的完全解耦。 这一设计允许开发者将该框架无缝集成到他们现有的智能体中,并且几乎不需要修改任何代码。
炸裂!Spring Boot 3 搭配 AI 实现智能弹幕审核 + Redis 热点缓存 + 上下文识别
我们用 Spring Boot 3 WebSocket 打造了一个实时弹幕系统。
“完美候选人”可能啥都不会?AI造假攻陷远程面试!
Gartner预测,到2028年,每四份候选人资料中,就会有一份是假的。 这是一个让人瞠目的结论,却不是空穴来风。 Gartner对3000名求职者的调研显示,6%的人承认在面试中动过手脚,要么冒充别人,要么找人替自己出镜。
刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
Genie 3是有史以来最先进的世界模型之一。 仅通过文本,它能够实时生成完全互动、高度一致的世界。 它不仅是DeepMind积累的结晶,还是通向AGI和具身智能体的关键一步。
绿动算力 超智融合
“天苍苍,野茫茫,风吹草低见牛羊”,雄浑壮阔的草原风景与“绿水青山就是金山银山”的发展智慧在鄂尔多斯交相辉映。 8月13-16日在鄂尔多斯国际会展中心举办的第21届CCF全国高性能计算学术大会(CCF HPC China 2025),让草原的辽阔与算力的澎湃、大自然的馈赠与科技的突破在此碰撞融合,书写了数智化时代自然禀赋与数字革命共生共荣的新篇章。 作为全球三大超算盛会之一,本届大会以“绿动算力 超智融合”为主题,紧扣当下行业趋势和技术热点,延续并彰显“学术引领、产业融合”的特色,汇聚众多特邀嘉宾,11位院士莅临现场,另外还包括戈登贝尔奖获得者、权威专家、资深学者、企业精英等。
奥特曼播客自曝:多次被打脸!模型下架内幕:GPT-5爽到再也不想回4o!围绕AI卖产品者死,卖服务者活!带娃是自己最有成就感的事
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)GPT-5一发布,4o就成为了无数人心中的“白月光”。 今天,一则奥特曼在GPT-5发布前夕提前录制的播客上线了。 回看当时那股无限的期待,再对照发布后的落差,味道确实有点微妙。
百度AICA第9期开课:18大行业96位首席AI架构师齐探AI产业落地
8月15日,由百度与深度学习技术及应用国家工程研究中心联合发起的AICA首席AI架构师培养计划(以下简称“AICA”)在北京举办第九期开学典礼。 经过半年的预科班课程学习、严格的项目技术评审以及面评等多重筛选,96位企业CTO、技术高管学员从近500位报名者中脱颖而出,将开展为期半年的 AI 大模型研发和应用共创学习。 茅台、麦当劳、奔驰等90余家来自18个行业的企业技术管理者将与百度一起围绕大模型、多模态、智能体和产业链协同等前沿方向,开启为期半年的共学之旅。
OpenAI华人露头就被小扎挖!95后北大校友1个月前上直播,今天已是Meta人
又来了又来了,OpenAI华人工程师,果然露脸就被小扎挖(doge)。 这一次,主角是95后北大校友孙之清,上个月刚刚参与了ChatGPT Agent的发布直播。 当时就有不少网友调侃:发布会出镜就是在给Meta提供挖角名单。
OpenAI波兰双雄:GPT不是偶然!再忆奥特曼被逐当天实况
OpenAI早期,据说午餐时大家太紧张,以至于不敢说话,现在的氛围轻松许多。 甚至OpenAI早期有个「波兰帮」,比如联合创始人Wojciech Zaremba(下图左),后来在编程竞赛击败ChatGPT的信息学奥赛金牌选手Przemysław Debiak(下图右)。 图片还有两位黄金级搭档Jakub Pachocki和Szymon Sidor:现首席科学家Jakub Pachocki,奥特曼称赞为「我们这一代最杰出的头脑之一」;OpenAI技术Fellow、前者的高中同学Szymon Sidor。
Claude Code价格翻倍背后:Anthropic的技术自信与AI编程市场的大洗牌
昨天有朋友在微信群里发了个截图,说Claude的API费用怎么突然涨了这么多。 我点开一看,确实有点意外——Claude一夜之间价格翻倍了。 说实话,AI圈最近一直在打价格战,各家都在降价。
Claude Code 史诗级更新!AI 编程进入“反向教学”模式,写到一半会停下考你:这行代码你来写
Claude code又更新了,最近claude几乎一天一更新,今天,Claude Code 和 Claude App 推出了学习模式,感觉Claude Code正在朝着万能Agent发展先说 Claude Code:现在支持用 /output-style 来定制沟通风格,Output styles允许你把 Claude Code 调整为任意类型的Agent来配合你的工作流程,同时保留它的核心能力(运行本地脚本、读写文件、维护 TODO)这次主打两种风格,专为学生和开发者提升技能而来:Explanatory(解释)——Claude 会把它的思考过程摊开说,为什么这么设计、有哪些权衡、最佳实践是什么,一边写代码一边讲门道Learning(学习)——更像结对编程的导师。 Claude 会不时暂停,把部分任务交给你来写,再给出指导与反馈,边做边学实操上,如果你想更深入理解它在做什么、为什么这么做,选 Explanatory;如果你想通过亲手编码快速进步,选 Learning,把 Claude 当成带你升级打怪的搭档就好。 更多细节可看官方文档:,对所有 Claude App 用户也有好消息:此前在 Claude for Education首发的 Learning 风格,现在全面开放。
Meta刚刚开源DINOv3,横扫60+任务,无标注封神!
今天凌晨,全球社交、科技巨头Meta开源了,最新视觉大模型DINOv3。 DINOv3的主要创新使用了自我监督学习,无需标注数据就能大幅度降低训练所需要的时间和算力资源。 并且与前一代相比,DINOv3的训练数据大12倍扩大至17亿张图像以及大7倍的70亿参数。
链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
思维链 (CoT) 提示技术常被认为是让大模型分步思考的关键手段,通过在输入中加入「Let’s think step by step」等提示,模型会生成类似人类的中间推理步骤,显著提升复杂任务的表现。 然而,这些流畅的推理链条是否真的反映了模型的推理能力? 亚利桑那州立大学的一项最新研究却发现,CoT 推理可能并不是真正的推理,而更像是对训练数据分布内模式的复现。
混合数学编程逻辑数据,一次性提升AI多领域强化学习能力 | 上海AI Lab
近年来,AI大模型在数学计算、逻辑推理和代码生成领域的推理能力取得了显著突破。 特别是DeepSeek-R1等先进模型的出现,可验证强化学习(RLVR)技术展现出强大的性能提升潜力。 然而,现有关于强化学习和模型的研究多聚焦于单一领域优化,缺乏对跨领域知识迁移和协同推理能力的系统性探索,让模型能够在多领域协同工作,发挥更好的推理能力。
LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer
OpenAI 在 AI 领域引领了一波又一波浪潮,想必很多人好奇,这些创新背后的研究人员是如何通过面试的? 尤其是现在,OpenAI 已经成为全球最受瞩目的 AI 公司之一,吸引了无数顶尖人才投递简历。 想要加入这个团队,着实不容易。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉