AI
一文搞懂 | 大模型为什么出现幻觉?从成因到缓解方案
1、前言随着大模型(Large Language Models, 以下简称LLM)迅猛发展的浪潮中,幻觉(Hallucination)问题逐渐成为业界和学术界关注的焦点。 所谓模型幻觉,指的是模型在生成内容时产生与事实不符、虚构或误导性的信息。 比如,当你询问“世界上最长的河流是哪条?
7/11/2025 9:50:52 AM
火山引擎云安全
AI 15分钟"逆向工程"桌面软件:79美元/月的"专有技术"竟然是这样...
用了Claude Code几天之后,我决定测试一下它的逆向工程能力。 结果让我彻底震惊了。 一个收费79美元/月的"专有"桌面软件,Claude Code用15分钟就完全拆解了。
7/11/2025 9:16:49 AM
阿丸笔记
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
DreamPRM 由加州大学圣地亚哥分校的研究团队开发,在数学推理权威测评榜MathVista上获得了第一名。 第一作者为博士生 Qi Cao,通讯作者为该校副教授 Pengtao Xie,团队其他成员还包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。 使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:由于多模态输入(图像 文本)构成高维连续与离散信号的混合空间,训练数据与测试数据的分布偏移(Distribution Shift)远超纯文本场景,导致一般过程奖励模型泛化能力显著下降。
7/11/2025 9:15:00 AM
单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器
预训练的视觉语言模型(VLM)因其强大的图文联合建模能力,在多种任务上展现出巨大潜力,也成为了许多目前广泛使用的多模态嵌入模型的基础。 然而,这些使用因果注意力机制的多模态嵌入模型在多模态嵌入任务中存在三个关键限制:表示能力弱:因果注意力机制单向预测的特性,限制了模型充分捕获双向跨模态的深层语义。 泛化性差:传统模型多依赖于简单的图文对训练数据,缺乏更广泛、更丰富的数据源,难以在新任务或新领域快速泛化。
7/11/2025 9:10:00 AM
编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型
今天是 xAI 的大日子,伊隆・马斯克早早就宣布了会在今天发布 Grok 4 大模型,AI 社区的眼球也已经向其聚拢,就等着看他的直播(等了挺久)。 当然,考虑到 Grok 这些天的「失控」表现,自然也有不少人是在等着看笑话。 尽管如此,谷歌似乎也并不在意被夺走的目光,接连对 Gemma 系列模型进行了更新。
7/11/2025 9:02:00 AM
AI 系统架构的演进:LLM → RAG → AI Workflow → AI Agent
AI Agent 是当前的一个热门话题,但并非所有 AI 系统都需要采用这种架构。 虽然 Agent 具有自主决策能力,但更简单、更具成本效益的解决方案往往更适合实际业务场景。 关键在于根据具体需求选择恰当的架构方案。
7/11/2025 3:10:00 AM
Baihai IDP
裁员 9000 人后微软高管表态:想留下,就得学会 AI
7 月 10 日消息,据 The Information 报道,在微软上周宣布将裁员 9000 人,启动今年第二次大规模裁员后,该公司便要求剩余的销售人员借助人工智能提高工作效率。 据与会者透露,微软美洲地区中小企业销售业务主管特拉维斯・沃尔特(Travis Walter)在周一的员工会议上表示:“我们都需要使用 AI 工具。 ”沃尔特向员工推荐了微软内部的人工智能工具,旨在帮助销售人员更快地掌握客户账户信息,并自动生成销售方案。
7/10/2025 11:15:05 PM
小小
AI 医疗建议可靠性存疑:MIT 研究揭示用户提问方式影响 AI 判断
AI在线 7 月 10 日消息,随着生成式人工智能(AI)技术不断演进,其应用场景已从早期的简单问答扩展到更复杂的任务。 然而,对于缺乏技术背景的用户而言,如何高效、准确地使用这些 AI 工具,正变得越来越具有挑战性。 一份独立报告显示,微软 AI 部门收到的用户投诉中,最常见的一条是“Copilot 不如 ChatGPT 好用”。
7/10/2025 8:06:26 PM
远洋
刚刚,马斯克发布Grok 4!全榜第一,年费飚到2万+
所有学科都是博士后水平。 酝酿良久的 xAI 下一代大模型——Grok 4 终于发布了! 能力超乎我们想象。
7/10/2025 4:58:04 PM
订阅费300刀,值吗?马斯克发布Grok 4登顶SOTA!一项突破上大分:训练阶段就教AI用工具!网友:地表最强AI回来了!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)马斯克,又双叒叕意料之中地迟到了。 Grok 4 原定的直播足足晚了一个小时,马老板终于姗姗来迟,开始了这场发布会。 图片更加推迟上线的,则是大家原以为会同步上线的编程模型 Grok 4 Code —— 直接鸽到下个月发布,让人有些小失望。
7/10/2025 3:53:45 PM
伊风
科普:AI 是如何理解问题的?它能像人类一样思考吗?
现有的AI推理的局限性在人类的日常生活中,我们并不需要把思维的每一步说出口或画出来才能思考。 比如:你在脑子里可以默默思考一篇文章的结构,或者在脑海中想象一下你家房间的布局。 思考这些都不需要真正动笔或动手去画。
7/10/2025 3:29:10 PM
AI拍档
YouTube 将更新政策,打击 AI 批量生成低质内容牟利行为
AI在线 7 月 10 日消息,YouTube 正准备更新其平台政策,进一步限制创作者通过“非真实”内容获取收益的能力。 这类内容包括批量生产的视频和其他重复性内容,随着人工智能技术的发展,此类内容的制作门槛大幅降低,数量也迅速增长。 根据 YouTube 官方帮助页面的说明,新的政策将于 7 月 15 日正式生效,届时 YouTube 合作伙伴计划(YouTube Partner Program, YPP)的变现规则将加入更明确的内容规范,帮助创作者更清楚地了解哪些内容可以变现,哪些则不符合标准。
7/10/2025 3:19:39 PM
远洋
AI 机器人自主完成复杂胆囊切除手术,准确率 100%
AI在线 7 月 10 日消息,美国约翰斯・霍普金斯大学研究人员称,他们训练出一个能利用人工智能(AI)自主完成胆囊切除手术的机器人。 这标志着人类向自动化医疗迈出一大步。 这一系统不仅能完成特定手术任务,更能“理解”手术流程,具备自主决策和应变能力。
7/10/2025 3:00:26 PM
远洋
推理与操控能力双提升!具身机器人双系统VLA模型新突破
让机器人学会聪明且快速精准执行,一直是机器人操控领域的难题。 为了解决这个问题,香港中文大学、北京大学、智平方和北京智源研究院联合创新性地提出了Fast-in-Slow(FiS-VLA),即一个统一的双系统VLA模型。 它通过将慢系统2最后几层的Transformer模块重新构建为一个高效的执行模块,用作快系统1,从而在一个模型中实现了快慢系统融合。
7/10/2025 2:55:12 PM
扩散语言模型写代码!速度比自回归快10倍
谁说扩散模型只能生成图像和视频? 现在它们能高质量地写代码了,速度还比传统大模型更快! Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。
7/10/2025 2:54:13 PM
Meta发布40页报告,具身智能的下一步是「心智世界模型」:能听,能看,能理解,会共情
最近Meta动作频频。 一边是老板小扎亲自下场,豪掷一亿美金挖人。 另一边,自家具身智能研究同样也憋了个大的,40页长文报告。
7/10/2025 2:53:12 PM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
芯片
Claude
腾讯
Stable Diffusion
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
AI视频
研究
大语言模型
具身智能
生成
百度
Sora
工具
GPU
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
架构
DeepMind
亚马逊
编程
特斯拉
视觉
Transformer
AI模型
预测
MCP