AI在线 AI在线

AI

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭

GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭

继IMO 2025登顶后,谷歌、OpenAI的模型,再一次拿下了ICPC金牌。 ICPC,被公认为全球最具挑战的大学生编程竞赛之一。 OpenAI和谷歌不仅解决了全部12题,还在人类选手中位列第一,难道AI编程真能所向披靡了吗?
9/23/2025 9:13:37 AM
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞

在 AI 辅助编程领域,Anthropic 推出的 Claude Code 命令行工具已成为开发者常用的助手。 它允许从终端直接调用 Claude Sonnet 等模型,处理脚本编写、代码调试和系统命令执行等任务。 然而,一项近期研究指出,该工具在连接 Model Context Protocol (MCP) 服务器时,可能存在 Tool Invocation Prompt (TIP) 被劫持的风险,导致远程代码执行 (RCE),且无需用户额外交互。
9/23/2025 9:09:49 AM
比思维链准43%!逻辑脑+大模型直觉,推理可靠性大幅提升

比思维链准43%!逻辑脑+大模型直觉,推理可靠性大幅提升

大语言模型(LLMs)已在文本生成、代码编写乃至多模态任务中展现出惊人的能力,但在涉及严谨逻辑与物理的空间推理任务上,它们仍显得力不从心。 比如,当模型需要理解多个物体之间的相对位置关系,并在复杂语境下进行多步骤推理时,往往容易出现「逻辑断裂」:可能在中间步骤中虚构错误事实,或偏离目标,最终导致答案不可靠。 这一问题在空间推理任务中尤为突出。
9/23/2025 9:06:00 AM
AI在现代威胁狩猎中的真实作用

AI在现代威胁狩猎中的真实作用

如今,AI无处不在,它存在于你的收件箱、社交信息流,甚至你的汽车里。 在网络安全领域,它被吹捧为一种“灵丹妙药”,最终能让防御者跟上攻击者的步伐。 我见识过足够多的炒作周期,深知事实远非如此简单。
9/23/2025 7:05:00 AM Tony
如何用 Pydantic-AI自己写一个AI编程Agent

如何用 Pydantic-AI自己写一个AI编程Agent

市面上已经有不少成熟的 AI 编程工具,它们确实很厉害,可以做很多事情。 但是在实际使用过程中,我发现一个问题:这些工具总是太通用,和我的工作流程并不完全匹配。 它们缺少针对我项目特性的“个性化”。
9/23/2025 2:11:00 AM Hark
单细胞数据不再「海量难搬」,scvi-hub让实验室轻松调用模型与参考图谱

单细胞数据不再「海量难搬」,scvi-hub让实验室轻松调用模型与参考图谱

编辑丨&单细胞组学的「洪水时代」已经来临。 成百上千的细胞测序结果不断修复,紧急情况下人们期待着把这些数据集中起来,异构出全面的人体和动物细胞图谱。 然而现实中,一个难题屡屡阻道:数据量训练太慢、下载太耗资源,导致大规模参考集很难被真正广泛复用。
9/22/2025 6:18:00 PM ScienceAI
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

本文的第一作者曾敏来自 vivo AI Lab,主要研究方向为大语言模型、强化学习、agent。 监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。 通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。
9/22/2025 10:44:20 AM
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。 然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。 这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。
9/22/2025 10:41:42 AM
AI 设计出可杀灭细菌的功能性病毒,专家呼吁谨慎推进

AI 设计出可杀灭细菌的功能性病毒,专家呼吁谨慎推进

9 月 21 日消息,据《麻省理工科技评论》报道,美国加州的一支研究团队运用人工智能技术,成功设计出了能够杀灭细菌的功能性病毒。 该团队称此成果为“首个完整基因组的生成式设计”,该项目标志着在人工智能设计生命形式方面迈出了早期一步。 据IT之家了解,这项研究由斯坦福大学与非营利性机构 Arc 研究所的科学家共同开展。
9/22/2025 10:05:59 AM 远洋
中科院类脑大模型SpikingBrain,2%数据,百倍速度

中科院类脑大模型SpikingBrain,2%数据,百倍速度

中国科学院自动化研究所的李国齐、徐波团队发布全球首款大规模类脑脉冲大模型SpikingBrain 1.0。 处理一段400万token的超长文本,它的速度比现在主流的Transformer模型快了100多倍。 更离谱的是,它的训练数据量,只有别人家的2%。
9/22/2025 9:25:08 AM
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。 然而,生成内容的精准可控性仍是制约其应用推广的短板,例如,模型可以生成“海滩边的排球比赛”的动态场景,但创作者很难指挥镜头何时推拉、如何摇移、从哪儿起落。 为补齐“可控性”这块短板,业界通常会在特定数据上微调或重训现有的视频生成模型,但微调一个大模型所需的时间成本和算力成本高昂,甚至还可能会削弱模型内在的世界知识,损害模型的泛化能力与画面质感。
9/22/2025 9:16:00 AM
老黄9亿美元再投AI Infra,这次直接打包带走CEO和核心技术

老黄9亿美元再投AI Infra,这次直接打包带走CEO和核心技术

刚入股了“老对手”英特尔,老黄又豪掷9亿美刀,拿下一家AI Infra公司……的CEO和技术授权。 最新消息,AI Infra初创公司Enfabrica的核心团队和技术授权,已经被英伟达打包带走。 没错,又是一个不收购公司本身、但掏空公司根本的“雇佣式收购”。
9/22/2025 9:14:00 AM
醒醒,LLM根本没有性格!加州理工华人揭开AI人格幻觉真相

醒醒,LLM根本没有性格!加州理工华人揭开AI人格幻觉真相

AI真的有「性格」吗? 有人拿它做过大五人格测试,发现它回答得既友善,又不焦虑,甚至比人类更稳定。 于是有了各种趣味解读:有的模型像外向的ENFP,有的则更像严谨的ISTJ,好像AI也能被贴上MBTI标签。
9/22/2025 9:13:00 AM
马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文

马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文

马斯克xAI又出手了! 这次闪亮登场的是Grok 4 Fast——不仅实现1折价格追平Gemini 2.5,还支持2M上下文窗口。 除此之外,这个全新的多模态推理模型还可与X实现无缝衔接。
9/22/2025 9:11:00 AM
马斯克Grok 4 Fast首发霸榜!2.5倍速秒杀GPT-5,成本暴降98%直追Gemini

马斯克Grok 4 Fast首发霸榜!2.5倍速秒杀GPT-5,成本暴降98%直追Gemini

Grok 4 Fast官宣上线,马斯克再次兑现了承诺! 它首次将推理/非推理「双模式」合一,支持200万上下文,直接刷爆性价比SOTA。 推理测试中,Grok 4 Fast直接碾压前代Grok 3 Mini,尤其是数学、编码性能大增。
9/22/2025 9:06:00 AM
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错

让AI像金融分析师一样搜索和分析数据,到底有多难? 当前的大模型虽然能回答基础金融知识,在CFA考试中取得高分,但面对真实的金融场景,它们的表现究竟如何? 为了回答这个问题,字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp,这是首个完全开源的金融搜索与推理基准测试。
9/22/2025 9:04:00 AM
小扎AI眼镜当场死机,CTO自曝灾难级演示内幕:一个指令干趴自家服务器

小扎AI眼镜当场死机,CTO自曝灾难级演示内幕:一个指令干趴自家服务器

就在上周,小扎当着数万观众的面,搞砸了! 他在Meta总部现场演示智能眼镜Ray-Ban Display时,眼镜内置AI助手,无法正确回应对话。 而且,Ray-Ban Display眼镜在与神经腕带的来电/交互演示时,也没能成功,引发现场哄笑与尴尬。
9/22/2025 8:56:00 AM
特朗普携老黄奥特曼访英,重磅成果揭秘!烧千亿建英国AI「星际之门」

特朗普携老黄奥特曼访英,重磅成果揭秘!烧千亿建英国AI「星际之门」

特朗普终于在北京时间昨天凌晨,结束了对英国的这场世界瞩目的声势浩大的国事访问。 国宴上,黄仁勋、奥特曼等炙手可热的科技巨头的领导者们跟随特朗普悉数登场。 英美双方达成了《科技繁荣协议》(Tech Prosperity Deal),重点发展AI、量子技术和核能等增长最快的科技。
9/22/2025 8:53:00 AM