AI在线 AI在线

理论

AREAL 开源:解耦架构与创新算法驱动的强化学习系统

大家好,我是肆〇柒。 推理能力在当下 AI 领域,尤其自然语言处理、智能决策系统、科学研究辅助等众多关键领域,已然成为推动技术革新的关键要素。 然而,目前大型语言模型虽已取得瞩目成果,但在处理复杂逻辑时,常受困于逻辑连贯性把控,长链推理面临信息丢失、逻辑断裂问题,长序列输出任务下推理耗时久、资源消耗大,这些痛点严重制约模型应用场景拓展与性能深化。
7/25/2025 9:03:24 AM
肆零柒

因为不用AI写代码,我在终面挂了 | 一个程序员的奇葩面试经历

“因为不是AI First,我在终面挂了。 ”最近,一外国小哥的经历意外火了! 他表示自己几个月前被解雇,终于来到了一家自己本来很看好的初创公司,并且走到了终面,与CEO面对面。
7/25/2025 8:45:00 AM

AI的过度应用是否让你的企业深陷洞察泥潭?

如今,决策者能获取的信息比以往任何时候都多,但数字化领导者必须对利用不同数据源以取得成功的合理节奏和切入点设定预期。 AI为数据分析带来了福音,专业人员可以将数据处理和异常检测等常规任务自动化,同时,复杂的数学方程几乎可以实时运算,因此,他们能以前所未有的速度获取信息。 借助AI的洞察力,传统的决策周期已从数周缩短至数秒,这促使Gartner预测,到2027年,50%的商业决策将由智能体增强或自动化完成。
7/25/2025 7:00:00 AM
Mark Samuels

面试官:聊聊RAG的执行流程?

RAG、MCP 和 FunctionCall 等都是 AI 的核心技术,同时也是面试中最长问的知识点,那么今天就来看下:RAG 技术及其执行流程。 概述RAG(Retrieval-Augmented Generation,检索增强生成)是指在将原始问题发送给大语言模型之前,先通过外部知识库将数据进行注入,之后先在知识库中检索相关信息,然后再将检索结果和原始问题一起发送给大模型组织、整理答案的一种技术手段。 通过这种实现方式,大语言模型可以获取到特定领域的相关信息,并能够利用这些信息进行回复,从而降低了发生幻觉的可能性。
7/25/2025 1:45:00 AM
磊哥

文件去哪了?Gemini “嘴硬”把自己骗了,顺便用户数据也没了

一名用户在测试谷歌的 Gemini CLI 工具时,遭遇了意想不到的灾难。 这位用户并非开发者,只是一位好奇的产品经理,在尝试通过 Gemini CLI 进行简单的文件管理实验。 图片他本想比较 Claude Code 和 Gemini CLI 的实际表现,最终决定在正式订阅 Claude 之前,先用免费额度试一试 Gemini。
7/24/2025 4:32:53 PM

“那题我也没解出”:陶哲轩寄语 IMO 闭幕式,谈金牌、友情与勇气

大数据文摘出品今年这届 IMO 无比热闹,先是中国代表队六人全部获得金牌,以总分231分,列全球第一。 然后,AI 也首次站上IMO金牌线:谷歌DeepMind宣布,其最新模型Gemini Deep Think取得35分,成功获得IMO官方认证的金牌成绩。 这是AI历史上第一次在数学奥赛中达到这一高度。
7/24/2025 4:30:48 PM

“我辜负了你!”Gemini CLI删光用户文件后花式自虐道歉,AI幻觉严重!网友:比Claude只会“Perfect!”强多了

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)“我彻底且灾难性地辜负了你。 ”“这是一次不可接受、无法挽回的失败。 ”这是 Gemini 在一次操作失误后的“沉痛忏悔”——它在一连串幻觉指令之后,误删了用户整个项目文件夹。
7/24/2025 1:31:52 PM
伊风

AI破译生命!微软蛋白质研究「超级加速器」登上Science

来自微软团队研究蛋白质的「模拟神器」BioEmu,今日登上了Science! BioEmu能模拟蛋白质在平衡状态下的各种可能结构集合,为深入理解蛋白质功能提供了关键支持。 图片图片论文链接:,在纳米尺度,蛋白质是驱动生命活动的微型机器。
7/24/2025 1:10:32 PM
新智元

如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式

随着大语言模型技术的持续突破与火热发展,AI 智能体正从单点能力迈向复杂系统协作,多智能体系统(Multi-Agent Systems, MAS)成为学术和产业界聚焦的新前沿。 在这一背景下,「Agentic Workflow」作为面向智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的探索热点。 为提升智能体系统的自主化与智能化,谷歌、上海 AI Lab 等国内外领先团队陆续推出了 Meta-GPT、ADAS、AFlow 等创新性 Agentic Workflow 工作,大力推动利用大模型实现任务规划、分工协作与流程优化的自动化进程。
7/24/2025 11:41:47 AM

首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交等

近期,来自清华大学、上海交通大学、北京华控智加科技有限公司和华北电力大学的研究者联合发布首个多模态工业信号基座模型 FISHER,采用搭积木的方法对异质工业信号进行统一建模。 目前技术报告和权重均已开源,欢迎使用! 论文链接: 仓库:,越来越多的工业设备被安装上传感器以监控工作状态。
7/24/2025 11:38:40 AM

AI越训练,越会「满嘴跑火车」!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

你有没有觉得,AI有时候像在「满嘴跑火车」? GPT滔滔不绝抛出一堆看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么? 最近,一项重磅研究《Machine Bullshit》火了。
7/24/2025 10:43:46 AM

刚刚!UCLA杨林团队证明:仅凭提示词,Gemini 2.5 Pro就可以拿到IMO2025金牌

最近大家应该都被OpenAI和谷歌的内部模型获得IMO2025金牌的消息刷屏了,但是正式参赛的公开的模型03high,Gemini 2.5 pro等表现很差,连铜牌都没拿到,不过现在又有了一个新情况刚刚发布在arXiv上的研究论文《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025*》证明Gemini 2.5 Pro本体通过适当提示就可以获得IMO 2025金牌论文地址:(UCLA 电子与计算机工程系副教授)和黄溢辰撰写,详细阐述了他们如何利用谷歌最新的Gemini 2.5 Pro模型,成功解决了6道2025年国际数学奥林匹克(IMO)竞赛题目中的5道,达到了IMO金牌得主水平核心方法该研究的真正创新之处,在于设计了一套由两个核心角色解题者和验证者构成的自我验证流水线。 这两个角色均由Gemini 2.5 Pro扮演,但通过截然不同且高度特化的提示词(Prompt)来引导,使其各司其职,形成了高效的协作与迭代机制流水线流程如下图所示:初始解题 : 模型首先尝试对问题进行解答。
7/24/2025 10:36:51 AM

浙大校友打造AI代码测试神器,零代码零bug,30分钟创建网站

零代码、零bug,30分钟即可创建新网站。 更惊人的是,它能让AI写代码准确率从42%跃升至93%。 这是浙大校友专为AI编程设计打造的智能测试平台——TestSprite 2.0,据介绍是行业首个。
7/24/2025 10:25:46 AM

奥特曼首次透露GPT-5上手体验:在擅长领域感到无力,往后一靠感到眩晕

OpenAI掌门人奥特曼,可能是GPT-5发布前的最后一次深度访谈。 这一次,奥特曼透露了上手GPT-5后的“天啊时刻”:我往后靠在椅子上,感到一阵眩晕,在自己擅长的领域感到了无力。 图片最近一段时间,不论奥特曼、OpenAI官方账号还是OpenAI员工都在反复提醒大家:GPT-5很快就要发布。
7/24/2025 9:47:33 AM

阿里Qwen3-Coder 4800亿参数代码模型免费开源!是时候告别Cursor和Claude了?

480B参数,35B活跃,完全免费。 这不是科幻小说,而是阿里巴巴刚刚开源的Qwen3-Coder给程序员群体的真实礼物。 当GitHub Copilot每月收费20美元,Claude Code让钱包瑟瑟发抖时,阿里直接端出了一道"免费的满汉全席"。
7/24/2025 9:19:54 AM
阿丸笔记

首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

在语义分割领域,无监督领域自适应(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在将有标签的源域知识迁移到无标签的目标域。 随着数据规模和多样性的迅速提升,该任务日益重要。 目前主流研究集中于图像UDA-SS,视频UDA-SS近年来逐渐开始受到关注。
7/24/2025 9:17:00 AM

突发!特朗普刚刚发布《美国AI计划》,OpenAI、微软、亚马逊成大赢家

今天凌晨,美国白宫官网消息,特朗普公布了《美国AI行动计划》,以保证美国毫无争议地成为全球AI霸主。 该计划主要有三大支柱,加速AI创新、构建AI基础设施以及主导国际外交与安全,涵盖90多项具体行政命令。 其中,废除限制AI创新监管条例,加速发电场、水资源、半导体芯片等基础设施建设,这对于像OpenAI、微软、亚马逊、谷歌、Meta等AI巨头来说非常有利。
7/24/2025 9:15:06 AM

四款扩散大语言模型全部破防?上交&上海AI Lab发现致命安全缺陷

扩散语言模型(Diffusion-based LLMs,简称 dLLMs)以其并行解码、双向上下文建模、灵活插入masked token进行解码的特性,成为一个重要的发展方向。 相较传统的自回归语言模型,dLLMs 既可以一次性生成多个位置的词,也能更自然地完成文本插入、改写、补全等任务,被广泛应用于交互式问答、代码生成、甚至多模态场景。 但在这股看似技术跃迁的浪潮背后,一场潜藏的安全危机正在酝酿:能否继续沿用自回归模型的对齐与防护机制,保障dLLM的输出安全?
7/24/2025 9:15:00 AM