AI

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

继IMO 2025登顶后，谷歌、OpenAI的模型，再一次拿下了ICPC金牌。 ICPC，被公认为全球最具挑战的大学生编程竞赛之一。 OpenAI和谷歌不仅解决了全部12题，还在人类选手中位列第一，难道AI编程真能所向披靡了吗？

9/23/2025 9:13:37 AM

Claude Code被攻破「后门」，港科大&复旦研究曝出TIP漏洞

在 AI 辅助编程领域，Anthropic 推出的 Claude Code 命令行工具已成为开发者常用的助手。它允许从终端直接调用 Claude Sonnet 等模型，处理脚本编写、代码调试和系统命令执行等任务。然而，一项近期研究指出，该工具在连接 Model Context Protocol (MCP) 服务器时，可能存在 Tool Invocation Prompt (TIP) 被劫持的风险，导致远程代码执行 (RCE)，且无需用户额外交互。

9/23/2025 9:09:49 AM

比思维链准43%！逻辑脑+大模型直觉，推理可靠性大幅提升

大语言模型（LLMs）已在文本生成、代码编写乃至多模态任务中展现出惊人的能力，但在涉及严谨逻辑与物理的空间推理任务上，它们仍显得力不从心。比如，当模型需要理解多个物体之间的相对位置关系，并在复杂语境下进行多步骤推理时，往往容易出现「逻辑断裂」：可能在中间步骤中虚构错误事实，或偏离目标，最终导致答案不可靠。这一问题在空间推理任务中尤为突出。

9/23/2025 9:06:00 AM

AI在现代威胁狩猎中的真实作用

如今，AI无处不在，它存在于你的收件箱、社交信息流，甚至你的汽车里。在网络安全领域，它被吹捧为一种“灵丹妙药”，最终能让防御者跟上攻击者的步伐。我见识过足够多的炒作周期，深知事实远非如此简单。

9/23/2025 7:05:00 AM Tony

如何用 Pydantic-AI自己写一个AI编程Agent

市面上已经有不少成熟的 AI 编程工具，它们确实很厉害，可以做很多事情。但是在实际使用过程中，我发现一个问题：这些工具总是太通用，和我的工作流程并不完全匹配。它们缺少针对我项目特性的“个性化”。

9/23/2025 2:11:00 AM Hark

单细胞数据不再「海量难搬」，scvi-hub让实验室轻松调用模型与参考图谱

编辑丨&单细胞组学的「洪水时代」已经来临。成百上千的细胞测序结果不断修复，紧急情况下人们期待着把这些数据集中起来，异构出全面的人体和动物细胞图谱。然而现实中，一个难题屡屡阻道：数据量训练太慢、下载太耗资源，导致大规模参考集很难被真正广泛复用。

9/22/2025 6:18:00 PM ScienceAI

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

本文的第一作者曾敏来自 vivo AI Lab，主要研究方向为大语言模型、强化学习、agent。监督微调（SFT）和强化学习（RL）微调是大模型后训练常见的两种手段。通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展，但是在文本分类场景，强化学习未取得较大的进展，其表现往往不如监督学习。

9/22/2025 10:44:20 AM

突破后训练瓶颈？Meta超级智能实验室又一力作：CaT解决RL监督难题

在 AI 领域，大家通常采取后训练方式来让模型获取专项技能。然而后训练一般依赖带有标注参考的监督微调，或通过可验证的程序化检查器提供奖励。这就带来一些问题，目前许多有价值的任务可能同时缺乏这两种资源。

9/22/2025 10:41:42 AM

AI 设计出可杀灭细菌的功能性病毒，专家呼吁谨慎推进

9 月 21 日消息，据《麻省理工科技评论》报道，美国加州的一支研究团队运用人工智能技术，成功设计出了能够杀灭细菌的功能性病毒。该团队称此成果为“首个完整基因组的生成式设计”，该项目标志着在人工智能设计生命形式方面迈出了早期一步。据IT之家了解，这项研究由斯坦福大学与非营利性机构 Arc 研究所的科学家共同开展。

9/22/2025 10:05:59 AM 远洋

中科院类脑大模型SpikingBrain，2%数据，百倍速度

中国科学院自动化研究所的李国齐、徐波团队发布全球首款大规模类脑脉冲大模型SpikingBrain 1.0。处理一段400万token的超长文本，它的速度比现在主流的Transformer模型快了100多倍。更离谱的是，它的训练数据量，只有别人家的2%。

9/22/2025 9:25:08 AM

无需训练的世界模型？西湖大学WorldForge开启空间智能新路径，让AI读懂3D世界

近来，由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网，视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。然而，生成内容的精准可控性仍是制约其应用推广的短板，例如，模型可以生成“海滩边的排球比赛”的动态场景，但创作者很难指挥镜头何时推拉、如何摇移、从哪儿起落。为补齐“可控性”这块短板，业界通常会在特定数据上微调或重训现有的视频生成模型，但微调一个大模型所需的时间成本和算力成本高昂，甚至还可能会削弱模型内在的世界知识，损害模型的泛化能力与画面质感。

9/22/2025 9:16:00 AM

老黄9亿美元再投AI Infra，这次直接打包带走CEO和核心技术

刚入股了“老对手”英特尔，老黄又豪掷9亿美刀，拿下一家AI Infra公司……的CEO和技术授权。最新消息，AI Infra初创公司Enfabrica的核心团队和技术授权，已经被英伟达打包带走。没错，又是一个不收购公司本身、但掏空公司根本的“雇佣式收购”。

9/22/2025 9:14:00 AM

醒醒，LLM根本没有性格！加州理工华人揭开AI人格幻觉真相

AI真的有「性格」吗？有人拿它做过大五人格测试，发现它回答得既友善，又不焦虑，甚至比人类更稳定。于是有了各种趣味解读：有的模型像外向的ENFP，有的则更像严谨的ISTJ，好像AI也能被贴上MBTI标签。

9/22/2025 9:13:00 AM

马斯克新模型性价比拉满：1折价格实现Gemini 2.5性能，支持2M上下文

马斯克xAI又出手了！这次闪亮登场的是Grok 4 Fast——不仅实现1折价格追平Gemini 2.5，还支持2M上下文窗口。除此之外，这个全新的多模态推理模型还可与X实现无缝衔接。

9/22/2025 9:11:00 AM

马斯克Grok 4 Fast首发霸榜！2.5倍速秒杀GPT-5，成本暴降98%直追Gemini

Grok 4 Fast官宣上线，马斯克再次兑现了承诺！它首次将推理/非推理「双模式」合一，支持200万上下文，直接刷爆性价比SOTA。推理测试中，Grok 4 Fast直接碾压前代Grok 3 Mini，尤其是数学、编码性能大增。

9/22/2025 9:06:00 AM

马斯克转发字节Seed&哥大商学院新基准：大模型搞金融，连查个股价都能出错

让AI像金融分析师一样搜索和分析数据，到底有多难？当前的大模型虽然能回答基础金融知识，在CFA考试中取得高分，但面对真实的金融场景，它们的表现究竟如何？为了回答这个问题，字节跳动Seed团队联合哥伦比亚大学商学院推出了FinSearchComp，这是首个完全开源的金融搜索与推理基准测试。

9/22/2025 9:04:00 AM

小扎AI眼镜当场死机，CTO自曝灾难级演示内幕：一个指令干趴自家服务器

就在上周，小扎当着数万观众的面，搞砸了！他在Meta总部现场演示智能眼镜Ray-Ban Display时，眼镜内置AI助手，无法正确回应对话。而且，Ray-Ban Display眼镜在与神经腕带的来电/交互演示时，也没能成功，引发现场哄笑与尴尬。

9/22/2025 8:56:00 AM

特朗普携老黄奥特曼访英，重磅成果揭秘！烧千亿建英国AI「星际之门」

特朗普终于在北京时间昨天凌晨，结束了对英国的这场世界瞩目的声势浩大的国事访问。国宴上，黄仁勋、奥特曼等炙手可热的科技巨头的领导者们跟随特朗普悉数登场。英美双方达成了《科技繁荣协议》（Tech Prosperity Deal），重点发展AI、量子技术和核能等增长最快的科技。

9/22/2025 8:53:00 AM

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

AI

GPT-5仅23.3%，全球AI集体挂科！地狱级编程考试，夺金神话破灭

Claude Code被攻破「后门」，港科大&amp;复旦研究曝出TIP漏洞

比思维链准43%！逻辑脑+大模型直觉，推理可靠性大幅提升

AI在现代威胁狩猎中的真实作用

如何用 Pydantic-AI自己写一个AI编程Agent

单细胞数据不再「海量难搬」，scvi-hub让实验室轻松调用模型与参考图谱

EMNLP2025 | SFT与RL的结合，vivo AI Lab提出新的后训练方法

突破后训练瓶颈？Meta超级智能实验室又一力作：CaT解决RL监督难题

AI 设计出可杀灭细菌的功能性病毒，专家呼吁谨慎推进

中科院类脑大模型SpikingBrain，2%数据，百倍速度

无需训练的世界模型？西湖大学WorldForge开启空间智能新路径，让AI读懂3D世界

老黄9亿美元再投AI Infra，这次直接打包带走CEO和核心技术

醒醒，LLM根本没有性格！加州理工华人揭开AI人格幻觉真相

马斯克新模型性价比拉满：1折价格实现Gemini 2.5性能，支持2M上下文

马斯克Grok 4 Fast首发霸榜！2.5倍速秒杀GPT-5，成本暴降98%直追Gemini

马斯克转发字节Seed&amp;哥大商学院新基准：大模型搞金融，连查个股价都能出错

小扎AI眼镜当场死机，CTO自曝灾难级演示内幕：一个指令干趴自家服务器

特朗普携老黄奥特曼访英，重磅成果揭秘！烧千亿建英国AI「星际之门」

Claude Code被攻破「后门」，港科大&复旦研究曝出TIP漏洞

马斯克转发字节Seed&哥大商学院新基准：大模型搞金融，连查个股价都能出错