AI在线 AI在线

理论

如何用 Pydantic-AI自己写一个AI编程Agent

市面上已经有不少成熟的 AI 编程工具,它们确实很厉害,可以做很多事情。 但是在实际使用过程中,我发现一个问题:这些工具总是太通用,和我的工作流程并不完全匹配。 它们缺少针对我项目特性的“个性化”。
9/23/2025 2:11:00 AM
Hark

图灵得主Yoshua Bengio,开始警惕AI有意识了

设计出具有意识(conscious)的 AI 系统是否可行? 一直以来,这个问题就存在分歧。 一些人认为意识是大脑特有的生物特性,这似乎排除了 AI 存在意识的可能性。
9/22/2025 6:44:00 PM
机器之心

GPT-5编程测评大反转!表面不及格,实际63.1%的任务没交卷,全算上成绩比Claude高一倍

Scale AI的新软件工程基准SWE-BENCH PRO,出现反转! 表面上看,“御三家”集体翻车,没一家的解决率超过25%:GPT-5、Claude Opus 4.1、Gemini 2.5分别以23.3%、22.7%、13.5%的解决率“荣”登前三。 但深入数据背后,则暗藏玄机。
9/22/2025 5:07:31 PM

27亿美元天价回归!谷歌最贵「叛徒」、Transformer作者揭秘AGI下一步

大模型需要什么? 在硅谷举行的科技盛会Hot Chips 2025首日的主题演讲上,谷歌DeepMind的Noam Shazeer回答了这一问题,发表了题为《下一阶段AI的预测》的主题演讲。 图片除了是Transformer论文《Attention Is All You Need》的作者之一,他还推动了许多技术创新,例如显著提升谷歌搜索中的拼写校正功能。
9/22/2025 3:37:23 PM
新智元

性价比之王!马斯克发布Grok 4 Fast!200万上下文窗口,输出百万token价格仅3块5!附生成环境评估建议

昨天,马斯克的 xAI 发布了新模型 Grok 4 Fast。 作为 Grok 4 的“兄弟型号”,它更便宜、更快、可大规模扩展,目标是在长上下文推理和智能体工具使用上进一步突破。 🚀 核心看点Grok 4 Fast 是 xAI 的 Grok 4 的一个变体,强调效率和可用性,同时不牺牲性能。
9/22/2025 11:36:10 AM

云上话 AI 安全——安全必修课:大模型防护指南与行业实践圆满落幕!

随着人工智能技术的快速发展,大模型正在重塑金融行业的服务模式与运营效率。 然而,技术与应用越深入,安全问题也越凸显。 提示词注入、数据泄露、算力滥用等新型风险正在成为金融企业规模化应用大模型过程中必须直面的话题。
9/22/2025 11:00:47 AM
何思思

EMNLP2025 | SFT与RL的结合,vivo AI Lab提出新的后训练方法

本文的第一作者曾敏来自 vivo AI Lab,主要研究方向为大语言模型、强化学习、agent。 监督微调(SFT)和强化学习(RL)微调是大模型后训练常见的两种手段。 通过强化学习微调大模型在众多 NLP 场景都取得了较好的进展,但是在文本分类场景,强化学习未取得较大的进展,其表现往往不如监督学习。
9/22/2025 10:44:20 AM

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

在 AI 领域,大家通常采取后训练方式来让模型获取专项技能。 然而后训练一般依赖带有标注参考的监督微调,或通过可验证的程序化检查器提供奖励。 这就带来一些问题,目前许多有价值的任务可能同时缺乏这两种资源。
9/22/2025 10:41:42 AM

华为坤灵以“4+10+N”智能化方案,助力中小企业在AI时代破局前行

在人工智能浪潮席卷全球的今天,智能化已不再只是大型企业的专属利器,更是广大中小企业实现降本增效、突破增长瓶颈的核心引擎。 然而,受技术人才匮乏、预算有限、方案复杂等各种因素的影响,中小企业在迈向智能世界的进程中往往面临着更多的挑战和难题,怎样应对? 如何破局?
9/22/2025 10:35:22 AM
张诚

AI 设计出可杀灭细菌的功能性病毒,专家呼吁谨慎推进

9 月 21 日消息,据《麻省理工科技评论》报道,美国加州的一支研究团队运用人工智能技术,成功设计出了能够杀灭细菌的功能性病毒。 该团队称此成果为“首个完整基因组的生成式设计”,该项目标志着在人工智能设计生命形式方面迈出了早期一步。 据IT之家了解,这项研究由斯坦福大学与非营利性机构 Arc 研究所的科学家共同开展。
9/22/2025 10:05:59 AM
远洋

多模态“啊哈时刻”:自编码器如何让理解与生成真正相爱相杀

大家好,我是肆〇柒。 今天这篇论文是一项来自北京大学与百度ERNIE团队的研究。 面对当前多模态模型“理解”与“生成”模块貌合神离、甚至相互拖后腿的行业困局,这支研究团队另辟蹊径,提出了一种名为UAE的全新框架,不仅让二者真正“统一”,更催生了令人振奋的“啊哈时刻”。
9/22/2025 9:43:04 AM
肆零柒

中科院类脑大模型SpikingBrain,2%数据,百倍速度

中国科学院自动化研究所的李国齐、徐波团队发布全球首款大规模类脑脉冲大模型SpikingBrain 1.0。 处理一段400万token的超长文本,它的速度比现在主流的Transformer模型快了100多倍。 更离谱的是,它的训练数据量,只有别人家的2%。
9/22/2025 9:25:08 AM

HANRAG:用“启发式”决策终结多跳问答的噪声与低效困局

大家好,我是肆〇柒。 今天一起了解一篇来自蚂蚁集团(Ant Group)的研究力作——HANRAG。 这项工作从根本上重新思考了RAG系统的决策逻辑。
9/22/2025 9:23:24 AM
肆零柒

腾讯Youtu Lab新突破:HiChunk如何用“分层分块”让RAG更聪明?

在AI领域,RAG(检索增强生成)早已不是新鲜词——它就像给大模型装了一个“外部知识库”,通过检索真实文档来回答问题,避免“瞎编乱造”。 但很多人不知道,RAG的效果好坏,很多时候卡在一个看似基础的环节上:文档分块,对于在实际落地中,文档分块也是一个令人非常头疼的难题。 简单说,“分块”就是把长文档切成小片段(比如每200词一段),方便后续检索。
9/22/2025 9:17:48 AM
Goldma

无需训练的世界模型?西湖大学WorldForge开启空间智能新路径,让AI读懂3D世界

近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。 然而,生成内容的精准可控性仍是制约其应用推广的短板,例如,模型可以生成“海滩边的排球比赛”的动态场景,但创作者很难指挥镜头何时推拉、如何摇移、从哪儿起落。 为补齐“可控性”这块短板,业界通常会在特定数据上微调或重训现有的视频生成模型,但微调一个大模型所需的时间成本和算力成本高昂,甚至还可能会削弱模型内在的世界知识,损害模型的泛化能力与画面质感。
9/22/2025 9:16:00 AM

老黄9亿美元再投AI Infra,这次直接打包带走CEO和核心技术

刚入股了“老对手”英特尔,老黄又豪掷9亿美刀,拿下一家AI Infra公司……的CEO和技术授权。 最新消息,AI Infra初创公司Enfabrica的核心团队和技术授权,已经被英伟达打包带走。 没错,又是一个不收购公司本身、但掏空公司根本的“雇佣式收购”。
9/22/2025 9:14:00 AM

醒醒,LLM根本没有性格!加州理工华人揭开AI人格幻觉真相

AI真的有「性格」吗? 有人拿它做过大五人格测试,发现它回答得既友善,又不焦虑,甚至比人类更稳定。 于是有了各种趣味解读:有的模型像外向的ENFP,有的则更像严谨的ISTJ,好像AI也能被贴上MBTI标签。
9/22/2025 9:13:00 AM

哈佛大佬都哭了!H-1B签证飙至10万刀,微软谷歌连夜召回全球员工

H-1B签证申请费直飙10万美元! 特朗普重磅出手,拟重塑H-1B签证体系。 美国总统特朗普在本周五签署公告,核心措施之一:每份新申请需支付10万美元高额费用,新规将在一周后生效。
9/22/2025 9:12:00 AM