AI在线 AI在线

理论

LLM的 “自信陷阱”:上下文幻觉如何侵蚀 AI 信任?

一、当AI自信地给出错误答案在数字技术飞速发展的今天,大语言模型(LLMs)正以前所未有的速度渗透到我们生活的方方面面。 从智能客服到医疗诊断,从金融分析到法律文书,这些模型凭借其强大的语言理解和生成能力,似乎正在重塑人类与信息交互的方式。 然而,在其光鲜亮丽的表现背后,一个隐蔽而危险的问题正悄然浮现——上下文幻觉(Contextual Hallucination)。
5/26/2025 1:45:00 AM
大模型之路

AI搜索大战爆发,苹果要"斩断"谷歌200亿美元生命线?

又有大瓜可以吃了! 刚刚,苹果公司放了一颗重磅炸弹,让谷歌瞬间慌了神! 5月份,苹果服务高级副总裁埃迪·库透露,苹果正在积极探索将AI搜索引擎集成到Safari浏览器中,甚至明确表示,OpenAI、Perplexity AI和Anthropic的Claude AI等工具,最终可能会取代谷歌搜索。
5/26/2025 1:30:00 AM
小李哥

巨头竞逐 AI 代理市场!会诞生新的平台型玩家么?

随着英伟达、谷歌、微软、苹果、Meta、Salesforce 等科技巨头开始押注 AI 代理(AI agent),2025 年被称为“AI 代理元年”——AI 正从“工具”升级为“助手”,甚至“代理人”。 对中小企业而言,构建 AI 代理需要集成多个复杂技术要素,包括大语言模型调用、API 编排、记忆机制、工具执行链、状态管理、安全控制等等….为了降低企业应用 AI 代理的门槛,AI 代理市场 (AI Agent Marketplace) 正在兴起。 AI 代理市场可以视作一个平台,允许开发者发布、分发、集成和交易 AI 代理,企业或用户可以按需选择和部署不同类型的代理,实现复杂的自动化任务。
5/26/2025 1:22:55 AM
Sophia

AI生态系统如何改变商业应用

企业被战略优势、风险缓解、最大化AI投资价值、改善数据本地化以及降低延迟所驱动——同时优先优化成本和运营性能。 独立软件供应商(ISV)则被一套独特的业务和战略目标所驱动,这些目标聚焦于建立信任、满足客户需求,同时保护他们的知识产权(IP)和市场份额。 对于受监管行业而言,由于这些生态系统往往涉及第三方供应商和云平台,因此对AI合作伙伴和解决方案的审查需要更高的严格性。
5/26/2025 1:00:00 AM
Linda

Google I/O 2025:开发者必须了解的下一代 AI 革命

Google I/O 2025 大会结束了,这场发布会不仅是一场简单的技术更新,而更像是人工智能领域的一次全面进化。 从颠覆性的 Gemini 2.5 模型,到真正意义上的 AI 智能助手 Project Astra,再到文本生成视频工具 Veo 3,开发者工具与生态迎来了全方位的变革。 以下是最值得开发者关注的技术革新。
5/26/2025 12:00:00 AM
前端小智

初级程序员的复仇!硅谷科技圈技术大佬神作:之前说的vibe coding都是放屁!代理军团来了!2025年底手动编码就会消失!

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)前天 Claude4 刷屏了,但不知道大家有没有注意到,Anthropic 的老大,Dario,时不时就会在keynote中就会引用一篇文章:《Revenge of the Junior Developer》,很有对抗感的一个名字,初期程序员的复仇! 本着刨根问底的精神,小编自然不会放过这篇能影响世界顶尖AI大佬的文章。 《Revenge of the Junior Developer》是Sourcegraph大佬、硅谷科技圈技术大佬、知名博主 Steve Yegge 在 2025 年 3 月发表的一篇深具洞察力的、有关 AI 编程进程的文章。
5/25/2025 10:25:49 AM
云昭

AI是否知道什么时候该"思考"?Thinkless教会大模型何时该动脑筋

你是否曾经问过简单问题,却得到AI长篇大论的回答? 或者问复杂问题时,AI却草草了事? 今天我要和大家分享一项突破性研究,它让AI学会了"什么时候该思考,什么时候该直接回答"。
5/23/2025 6:47:33 PM
无影寺

AI实战派:解密DeepSeek企业级项目!AI不是炫技,而是回归需求的必然答案

嘉宾 | 陈亮、张云波主持人 | 薛彦泽撰稿 | 李美涵在AI创业的浪潮里,最迷人的地方莫过于人人都知道这里是风口,却仍然能够各自找到属于自己的机会点。 在众多试图乘上AI风口的创业者中,亨宝科技的CEO张云波和AI创智坊的主理人陈亮无疑是特别的存在。 张云波早年投身于鸿蒙生态,今年年初就敏锐捕捉到DeepSeek大模型兴起的契机,迅速将注意力投向AI领域的应用开发。
5/23/2025 6:28:04 PM
李美涵

曝Claude 4胆儿肥变“勇”了,竟敢举报用户!但Cursor、Manus反而更爱用它了!

编辑 | 云昭近期大模型竞赛又开始热闹起来了。 上周谷歌刚放出来 Gemini 2.5 Pro 在榜单上大杀四方,今天 Anthropic 就深夜放出新模型来屠榜了。 关于 Claude4,一大早不少媒体都进行了报道,这里不再浪费篇幅,就像Anthropic 的 CEO Dario 在开场时就对台下观众所说的,自己不喜欢炒作。
5/23/2025 6:19:45 PM
云昭

英伟达再破世界纪录,每秒1000 token!刚刚,全球最快Llama 4诞生

你以为,AI推理的速度已经够快了? 不,英伟达还能再次颠覆你的想象——就在刚刚,他们用Blackwell创下了AI推理的新纪录。 仅仅采用单节点(8颗Blackwell GPU)的DGX B200服务器,英伟达就实现了Llama 4 Maverick模型每秒单用户生成1000个token(TPS/user)的惊人成绩!
5/23/2025 1:50:39 PM

耶鲁大学联合Adobe提出SynthLight:智能重塑人像照明,打造完美光影!

耶鲁大学和Adobe提出一种用于人像重新照明的扩散模型SynthLight,该方法将图像重新照明视为重新渲染问题,其中像素会根据环境照明条件的变化而变化。 在真实肖像照片上可以产生逼真的照明效果,包括颈部的明显投射阴影和皮肤上的自然镜面高光。 相关链接论文:: 是一种用于人像重新照明的扩散模型。
5/23/2025 11:07:54 AM

Windsurf 发 SWE-1:以数据+智能飞轮驱动软件工程 AI 进化

大家好,我是肆〇柒。 软件开发行业正经历一场前所未有的AI变革。 AI 辅助编程从曾经的新兴尝试,迅速成长为开发领域不可或缺的关键力量。
5/23/2025 9:45:01 AM
肆零柒

谷歌黑科技炸场!LightLab:只需一张图+AI,光影编辑像呼吸一样简单,废片秒变电影级大片!

在之前的文章中以及和大家介绍过需要关于图像&视频重打光的方法,在今天的推送文章中,已经帮大家重新整理好了,欢迎大家点击阅读~今天给大家介绍谷歌提出的一种基于扩散模型的方法LightLab,可以实现对单张图像中光源的细粒度、参数化控制。 该方法能够调整可见光源的强度和颜色、环境光照的强度,并可在场景中插入虚拟光源。 LightLab方法能够对图像中的光源进行显式的参数化控制,同时生成物理上合理的阴影和环境光效应。
5/23/2025 9:36:53 AM

突发!美国新法案,10年内禁止监管AI

今天凌晨,TechPolicy消息,美国众议院通过了《HR1》法案,将禁止美国各州在未来10年内监管AI。 在禁止期间,任何州或其政治分支机构不得执行任何监管AI模型、AI系统或自动决策系统的法律或法规。 这个法案的对于微软、OpenAI、谷歌、亚马逊等科技巨头非常重要,彻底打开了枷锁,可以进行更多的AI技术创新尝试了。
5/23/2025 9:26:30 AM

2030年前必须实现AGI!谷歌祖师爷现场「催更」DeepMind CEO

谷歌的I/O大会证明蓝星的科技正统还在谷歌。 除了发布Gemini 2.5最新版本继续遥遥领先OpenAI的奥特曼以外,还掏出两幅眼镜来拳打苹果,脚踢Meta。 会后还把谷歌的「开山老祖」谢尔盖·布林(Sergey Brin)请了出来,逼Demis Hassabis赶紧在2030年前(也就5年内了)实现AGI。
5/23/2025 9:08:00 AM

字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR!

字节跳动刚刚开源一款全新文档解析模型——Dolphin。 与目前市面上各类大模型相比,这款轻量级模型不仅体积小、速度快,并且取得了令人惊艳的性能突破,解析效率提升近2倍。 测试结果显示,Dolphin在文档解析任务上解析准确率超越了GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro、Qwen2.5-VL等通用多模态大模型,以及最近推出的号称最强OCR大模型的Mistral-OCR等垂类大模型。
5/23/2025 9:03:00 AM

小学数学题,大模型集体不及格!达摩院推出新基准VCBench

大模型做数学题的能力很强,可是它们真的能够理解基本的数学原理吗? 拿小学生的数学题进行测试,人类平均得分为93.30%,而大模型的表现让人意外:闭源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的综合表现最佳,但仍未突破50%准确率。 因为大模型可能并不能真正理解基本数学元素和视觉概念。
5/23/2025 8:47:00 AM

最强编码模型Claude 4!7小时不间断写代码,连玩24小时宝可梦,GitHub已选为Copilot底层模型

AI圈子好热闹。 今天凌晨,Claude终于迎来了它的重大版本升级——Claude 4来了! 此次主要发布的有两个模型:Claude Opus 4和Claude Sonnet 4。
5/23/2025 8:34:30 AM
量子位