AI在线 AI在线

理论

“数据产品”究竟是什么以及它为何对AI代理至关重要

深陷数据泥潭,渴望洞察如今,许多组织都深陷数据洪流。 信息从销售系统、营销工具、运营数据库、网站以及无数其他来源涌入。 然而,尽管信息浩如烟海,要获得清晰可靠的业务答案却异常困难。
7/11/2025 10:00:03 AM
晓晓

一文搞懂 | 大模型为什么出现幻觉?从成因到缓解方案

1、前言随着大模型(Large Language Models, 以下简称LLM)迅猛发展的浪潮中,幻觉(Hallucination)问题逐渐成为业界和学术界关注的焦点。 所谓模型幻觉,指的是模型在生成内容时产生与事实不符、虚构或误导性的信息。 比如,当你询问“世界上最长的河流是哪条?
7/11/2025 9:50:52 AM
火山引擎云安全

AI+数据血缘的三重境界(建议收藏)

凌晨两点,你被一通电话吵醒。  "报表有问题! 销售额对不上!
7/11/2025 9:38:47 AM
大数据AI智能圈

AI 15分钟"逆向工程"桌面软件:79美元/月的"专有技术"竟然是这样...

用了Claude Code几天之后,我决定测试一下它的逆向工程能力。 结果让我彻底震惊了。 一个收费79美元/月的"专有"桌面软件,Claude Code用15分钟就完全拆解了。
7/11/2025 9:16:49 AM
阿丸笔记

AB实验新突破:携程提出图贪心分流算法,解决两大核心难题

作者简介小白,携程算法工程师,关注营销定价领域。 携程火车票部门为解决智行酒店商户侧AB实验中,预实验分流中遇到的分流不均、分流组流量交叉问题,提出了一种用于非用户端AB实验的分流算法,该算法通过优化的随机抽样模块与贪心交换模块,保证实验组之间多指标的相似性;通过图算法模块,降低实验组之间的流量交叉。 通过实证分析,该算法一方面有效的提升了商户端实验在多指标下的分流效率;另一方面,相比于使用先验知识进行分流,显著降低了实验组之间的流量交叉。
7/11/2025 9:16:00 AM

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:由于多模态输入(图像 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。
7/11/2025 9:15:00 AM

Manus跑路了吗?

Manus,真的从国内撤了? ! 4个月前一夜蹿红起飞的AI Agent产品Manus,刚被曝出背后公司一举裁掉国内七成团队。
7/11/2025 9:13:00 AM

单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器

预训练的视觉语言模型(VLM)因其强大的图文联合建模能力,在多种任务上展现出巨大潜力,也成为了许多目前广泛使用的多模态嵌入模型的基础。 然而,这些使用因果注意力机制的多模态嵌入模型在多模态嵌入任务中存在三个关键限制:表示能力弱:因果注意力机制单向预测的特性,限制了模型充分捕获双向跨模态的深层语义。 泛化性差:传统模型多依赖于简单的图文对训练数据,缺乏更广泛、更丰富的数据源,难以在新任务或新领域快速泛化。
7/11/2025 9:10:00 AM

编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型

今天是 xAI 的大日子,伊隆・马斯克早早就宣布了会在今天发布 Grok 4 大模型,AI 社区的眼球也已经向其聚拢,就等着看他的直播(等了挺久)。 当然,考虑到 Grok 这些天的「失控」表现,自然也有不少人是在等着看笑话。 尽管如此,谷歌似乎也并不在意被夺走的目光,接连对 Gemma 系列模型进行了更新。
7/11/2025 9:02:00 AM

AI 系统架构的演进:LLM → RAG → AI Workflow → AI Agent

AI Agent 是当前的一个热门话题,但并非所有 AI 系统都需要采用这种架构。 虽然 Agent 具有自主决策能力,但更简单、更具成本效益的解决方案往往更适合实际业务场景。 关键在于根据具体需求选择恰当的架构方案。
7/11/2025 3:10:00 AM
Baihai IDP

多模态大模型的“安全锁”:SAPT 软提示调优技术

引言:多模态大模型的安全困境在人工智能技术飞速发展的当下,多模态大模型(VLM)正以前所未有的速度融入我们的生活,从智能助手到图像识别,从文本生成到跨模态任务处理,它们展现出了令人惊叹的能力。 然而,随着 VLM 在实际应用中的广泛部署,一个不容忽视的问题逐渐浮出水面——其安全性漏洞正成为潜在的“ ticking bomb”。 近期,一篇题为《The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models》的论文,为我们揭开了 VLM 安全性研究的新篇章。
7/11/2025 1:23:00 AM
果冻布丁兔

刚刚,马斯克发布Grok 4!全榜第一,年费飚到2万+

所有学科都是博士后水平。 酝酿良久的 xAI 下一代大模型——Grok 4 终于发布了! 能力超乎我们想象。
7/10/2025 4:58:04 PM

基于工作记忆的认知测试显示LLM的检索局限:100%混淆无效信息与正确答案

本文发现一个影响所有大型语言模型(LLMs)的信息检索问题。 该任务对人类没有难度,但是所有 LLM 均出现显著错误。 并对全局记忆(memory)和长推理任务(long reasoning)造成显著损害。
7/10/2025 4:11:00 PM
机器之心

订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!网友:地表最强AI回来了!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)马斯克,又双叒叕意料之中地迟到了。 Grok 4 原定的直播足足晚了一个小时,马老板终于姗姗来迟,开始了这场发布会。 图片更加推迟上线的,则是大家原以为会同步上线的编程模型 Grok 4 Code —— 直接鸽到下个月发布,让人有些小失望。
7/10/2025 3:53:45 PM
伊风

开发神器 Cursor 最全配置指南:从入门到高效工作流!

想让 Cursor 真正好用? 试试这套实战配置方案! 在 2025 年,AI 编程工具正彻底改变开发者的生产力,而 Cursor 绝对是其中的佼佼者。
7/10/2025 3:38:00 PM
AI拍档

科普:AI 是如何理解问题的?它能像人类一样思考吗?

现有的AI推理的局限性在人类的日常生活中,我们并不需要把思维的每一步说出口或画出来才能思考。  比如:你在脑子里可以默默思考一篇文章的结构,或者在脑海中想象一下你家房间的布局。  思考这些都不需要真正动笔或动手去画。
7/10/2025 3:29:10 PM
AI拍档

推理与操控能力双提升!具身机器人双系统VLA模型新突破

让机器人学会聪明且快速精准执行,一直是机器人操控领域的难题。 为了解决这个问题,香港中文大学、北京大学、智平方和北京智源研究院联合创新性地提出了Fast-in-Slow(FiS-VLA),即一个统一的双系统VLA模型。 它通过将慢系统2最后几层的Transformer模块重新构建为一个高效的执行模块,用作快系统1,从而在一个模型中实现了快慢系统融合。
7/10/2025 2:55:12 PM

扩散语言模型写代码!速度比自回归快10倍

谁说扩散模型只能生成图像和视频? 现在它们能高质量地写代码了,速度还比传统大模型更快! Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。
7/10/2025 2:54:13 PM