AI
AI为啥总“一本正经胡说八道”?OpenAI发长篇论文解释了
相信很多同学都遇到过——问大模型一个冷门知识,它会一本正经地给出完全错误的答案。 比如:复制OpenAI(2025a)三次回答分别是 03-07、15-06、01-01,没一次对。 这就是典型的 Hallucination(幻觉)——语言模型生成看起来合理,实则错误离谱。
Qwen重磅发布:首个端到端全模态AI模型Qwen3-Omni登场
阿里杀疯了,Qwen团队刚刚接连发布了两款重要模型:Qwen3-Omni,业界首个原生端到端全模态AI模型;以及Qwen-Image-Edit-2509,对标谷歌nano banana 图像编辑工具,根据预告,明天还有“大的”要发布。 Qwen3-Omni:真正的一体化AIQwen3-Omni的问世,旨在解决长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。 它是一款真正意义上的全能选手,在同一个模型中无缝统一了文本、图像、音频和视频的处理能力。
马斯克xAI价格屠夫来了!Grok 4 Fast暴降98%,OpenAI慌了?
AI价格战这把火,终于要烧到ChatGPT身上了。 昨天马斯克的xAI悄悄发布了Grok 4 Fast,当我看到定价的时候差点以为自己看错了。 同样的推理能力,价格直接砍了98%。
陶哲轩官宣AI数学基金首轮名单:29个项目瓜分1.3亿,数学界沸腾!
近日,陶哲轩表示,自己所担任顾问的AI数学基金,刚刚公布第一批获得资助的项目:由于收到大量高质量提案,基金已将总资助金额从900万美元翻倍至1800万美元。 预计2025年晚些时候还将再开放一轮申请。 去年12月,陶哲轩表示同意加入AI数学基金(AI for Math Fund)顾问委员会。
GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭
继IMO 2025登顶后,谷歌、OpenAI的模型,再一次拿下了ICPC金牌。 ICPC,被公认为全球最具挑战的大学生编程竞赛之一。 OpenAI和谷歌不仅解决了全部12题,还在人类选手中位列第一,难道AI编程真能所向披靡了吗?
Claude Code被攻破「后门」,港科大&复旦研究曝出TIP漏洞
在 AI 辅助编程领域,Anthropic 推出的 Claude Code 命令行工具已成为开发者常用的助手。 它允许从终端直接调用 Claude Sonnet 等模型,处理脚本编写、代码调试和系统命令执行等任务。 然而,一项近期研究指出,该工具在连接 Model Context Protocol (MCP) 服务器时,可能存在 Tool Invocation Prompt (TIP) 被劫持的风险,导致远程代码执行 (RCE),且无需用户额外交互。
比思维链准43%!逻辑脑+大模型直觉,推理可靠性大幅提升
大语言模型(LLMs)已在文本生成、代码编写乃至多模态任务中展现出惊人的能力,但在涉及严谨逻辑与物理的空间推理任务上,它们仍显得力不从心。 比如,当模型需要理解多个物体之间的相对位置关系,并在复杂语境下进行多步骤推理时,往往容易出现「逻辑断裂」:可能在中间步骤中虚构错误事实,或偏离目标,最终导致答案不可靠。 这一问题在空间推理任务中尤为突出。
AI在现代威胁狩猎中的真实作用
如今,AI无处不在,它存在于你的收件箱、社交信息流,甚至你的汽车里。 在网络安全领域,它被吹捧为一种“灵丹妙药”,最终能让防御者跟上攻击者的步伐。 我见识过足够多的炒作周期,深知事实远非如此简单。
如何用 Pydantic-AI自己写一个AI编程Agent
市面上已经有不少成熟的 AI 编程工具,它们确实很厉害,可以做很多事情。 但是在实际使用过程中,我发现一个问题:这些工具总是太通用,和我的工作流程并不完全匹配。 它们缺少针对我项目特性的“个性化”。
单细胞数据不再「海量难搬」,scvi-hub让实验室轻松调用模型与参考图谱
编辑丨&单细胞组学的「洪水时代」已经来临。 成百上千的细胞测序结果不断修复,紧急情况下人们期待着把这些数据集中起来,异构出全面的人体和动物细胞图谱。 然而现实中,一个难题屡屡阻道:数据量训练太慢、下载太耗资源,导致大规模参考集很难被真正广泛复用。
EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法
本文的第一作者曾敏来自 vivo AI Lab,主要研究方向为大语言模型、强化学习、agent。 监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。 通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。
突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题
在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。 然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。 这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。
AI 设计出可杀灭细菌的功能性病毒,专家呼吁谨慎推进
9 月 21 日消息,据《麻省理工科技评论》报道,美国加州的一支研究团队运用人工智能技术,成功设计出了能够杀灭细菌的功能性病毒。 该团队称此成果为“首个完整基因组的生成式设计”,该项目标志着在人工智能设计生命形式方面迈出了早期一步。 据IT之家了解,这项研究由斯坦福大学与非营利性机构 Arc 研究所的科学家共同开展。
中科院类脑大模型SpikingBrain,2%数据,百倍速度
中国科学院自动化研究所的李国齐、徐波团队发布全球首款大规模类脑脉冲大模型SpikingBrain 1.0。 处理一段400万token的超长文本,它的速度比现在主流的Transformer模型快了100多倍。 更离谱的是,它的训练数据量,只有别人家的2%。
无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界
近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。 然而,生成内容的精准可控性仍是制约其应用推广的短板,例如,模型可以生成“海滩边的排球比赛”的动态场景,但创作者很难指挥镜头何时推拉、如何摇移、从哪儿起落。 为补齐“可控性”这块短板,业界通常会在特定数据上微调或重训现有的视频生成模型,但微调一个大模型所需的时间成本和算力成本高昂,甚至还可能会削弱模型内在的世界知识,损害模型的泛化能力与画面质感。
老黄9亿美元再投AI Infra,这次直接打包带走CEO和核心技术
刚入股了“老对手”英特尔,老黄又豪掷9亿美刀,拿下一家AI Infra公司……的CEO和技术授权。 最新消息,AI Infra初创公司Enfabrica的核心团队和技术授权,已经被英伟达打包带走。 没错,又是一个不收购公司本身、但掏空公司根本的“雇佣式收购”。
醒醒,LLM根本没有性格!加州理工华人揭开AI人格幻觉真相
AI真的有「性格」吗? 有人拿它做过大五人格测试,发现它回答得既友善,又不焦虑,甚至比人类更稳定。 于是有了各种趣味解读:有的模型像外向的ENFP,有的则更像严谨的ISTJ,好像AI也能被贴上MBTI标签。
马斯克新模型性价比拉满:1折价格实现Gemini 2.5性能,支持2M上下文
马斯克xAI又出手了! 这次闪亮登场的是Grok 4 Fast——不仅实现1折价格追平Gemini 2.5,还支持2M上下文窗口。 除此之外,这个全新的多模态推理模型还可与X实现无缝衔接。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉