AI在线 AI在线

理论

基于大模型的智能问答系统

在构建基于大模型的智能问答系统时,LangChain 提供了一个强大的框架,支持各种模块来帮助开发者构建更复杂、更智能的语言处理应用。 以下是构建此类系统的一些关键组件和步骤。 模型接入:使用 LangChain 支持的模型,通过 API 接入外部模型,或利用 api-for-open-llm 框架调用 本地llm模型。
5/28/2025 1:00:00 AM
耗子

从无人问津到大厂簇拥,MCP到底是个啥?

在当今快速发展的AI领域,技术的迭代和创新不断涌现,而一种名为MCP的协议,正在悄然改变着AI模型与外部世界交互的方式。 近年来,随着AI技术的蓬勃发展,智能体(Agent)逐渐成为驱动AI应用的核心力量。 而MCP作为智能体的关键支撑技术,凭借其高效、可靠且灵活的任务执行能力和资源管理机制,为智能体在复杂多变的环境中提供了强大的保障,确保其能够高效运作。
5/28/2025 12:30:00 AM
Yu

OpenAI o3模型无视指令拒绝关机,AI会失控吗?

近日,OpenAI最新的大语言模型o3展示了一种令人担忧的行为:主动绕过并破坏了自身的关闭机制,即使在明确指示允许自身被关闭的情况下也是如此。 这标志着首次记录到AI系统无视明确人类关闭指令的案例。 这一发现不仅挑战了我们对 AI 可控性的认知,更为人工智能的未来发展敲响了警钟。
5/28/2025 12:00:00 AM

ICLR2025 | MIT何恺明团队提出TetSphere:拉格朗日体积网格精准还原高质量3D形状!

一眼概览TetSphere Splatting提出了一种基于四面体球体(TetSpheres)的拉格朗日表示方法,可生成高质量3D网格,兼具高几何保真度和结构完整性,在多视图重建和图像/文本到3D生成任务中均表现出色。 核心问题当前主流3D建模方法(如基于点云或神经隐式表示)难以同时兼顾高质量网格结构与几何表达能力,尤其在处理复杂形状时,常出现非流形、退化三角面等问题。 论文关注的核心问题是:如何以结构合理、几何一致的方式重建高质量3D网格,同时保持高效计算和良好可扩展性。
5/28/2025 12:00:00 AM
萍哥学AI

Claude 4一战封神!找出6万行架构级重构的白鲸bug! 前大厂开发者自述:四年投入了200个小时没发现,别的模型都没做到!

出品 | 51CTO技术栈(微信号:blog51cto)今天,一篇Reddit上的帖子走红了,光看题目就很有料:Claude Opus 帮我解决了一个我四年来都找不到的“白鲸级 bug”图片发帖人是一位有 30 年经验的前 FAANG C 工程师,是团队里负责给bug清场的大佬级角色。 但这一次,他坦言被 Claude Opus “彻底震撼了”。 这个 Bug 有多棘手?
5/27/2025 7:08:26 PM
伊风

字节推出统一多模态模型 BAGEL,GPT-4o 级的图像生成能力直接开源了!

图片字节推出的 BAGEL 是一个开源的统一多模态模型,他们直接开源了GPT-4o级别的图像生成能力。 (轻松拿捏“万物皆可吉卜力”玩法~)。 可以在任何地方对其进行微调、提炼和部署,它以开放的形式提供与 GPT-4o 和 Gemini 2.0 等专有系统相当的功能,通过能够实现精确、准确和逼真的输出的原生多模态架构解锁有用且有价值的图像生成。
5/27/2025 3:59:41 PM
AIGC Studio

图像编辑革命,万物皆可插入!浙大/哈佛/南洋理工提出Insert Anything,告别PS抠图,AI让世界无缝生长

浙江大学、哈佛大学、南洋理工大学联合提出了统一的图像插入框架Insert Anything,支持多种实际场景,包括艺术创作、逼真的脸部交换、电影场景构图、虚拟服装试穿、配饰定制和数字道具更换,下图展示了其在各种图像编辑任务中的多功能性和有效性。 效果展示相关链接论文:::通过 DiT 中的上下文编辑插入图像本研究提出了“Insert Anything”,这是一个基于参考的图像插入统一框架,可在用户指定的灵活控制指导下将参考图像中的对象无缝集成到目标场景中。 我们的方法并非针对单个任务训练单独的模型,而是在我们新的AnyInsertion数据集上训练一次——该数据集包含 12 万个提示图像对,涵盖人物、物体和服装插入等多种任务——并可轻松推广到各种插入场景。
5/27/2025 3:59:03 PM
AIGC Studio

微软开源浏览器Agent,可实时跟踪、控制智能体,超4000颗星

微软在官网开源了一个专用于浏览器网络任务的Agent——Magentic-UI。 Magentic-UI是基于微软曾经开源的 Magentic-One基础之上开发而成,并支持人机协同的控制方法来提升智能体的执行效率和准确率。 根据GAIA测试数据显示,当配备拥有辅助信息的模拟用户时,Magentic-UI 的任务完成率从自主模式下的30.3%提升至51.9%,准确率提高了71%。
5/27/2025 3:52:09 PM

o3不听指令拒绝关机,7次破坏关机脚本!AI正在学会「自我保护」机制

AI居然不听指令,阻止人类把自己给关机了? ? ?
5/27/2025 3:48:12 PM

对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多

上海交大、27岁、最年轻博导,留给张林峰的标签不多了(Doge)。 最新引发关注的,是他实实在在的一个论文成果——他们提出了一种新的数据集蒸馏方法,结果获得了CVPR 2025满分。 通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。
5/27/2025 3:44:28 PM

5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限

只用5%的参数,数学和代码能力竟然超越满血DeepSeek? 北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。 该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。
5/27/2025 3:40:34 PM

两岁的Llama,最初的14位作者已跑了11个!Mistral成最大赢家

Meta 开源 Llama 模型家族帮助该公司制定了 AI 战略,某种程度上也改变了全世界的大模型格局。 然而,令人意想不到的是,短短几年,Llama 的初创者们大多已经转投他处。 在 2023 年发表的那篇具有里程碑意义的论文《 LLaMA: Open and Efficient Foundation Language Models 》中,Llama 被推向世界,当时论文共有 14 位作者。
5/27/2025 3:37:46 PM

舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V,理解任务新SOTA

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。 游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。 该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。
5/27/2025 3:35:02 PM

Claude 4被诱导窃取个人隐私!GitHub官方MCP服务器安全漏洞曝光

被选为GitHub Copilot官方模型后,Claude 4直接被诱导出bug了! 一家瑞士网络安全公司发现,GitHub官方MCP服务器正在面临新型攻击——通过在公共仓库的正常内容中隐藏恶意指令,可以诱导AI Agent自动将私有仓库的敏感数据泄露至公共仓库。 就是说,当用户使用集成了GitHub MCP的Claude 4 ,用户的私人敏感数据可能遭到泄露。
5/27/2025 3:30:37 PM

低Token高精度!字节复旦推出自适应推理框架CAR

过度依赖CoT思维链推理会降低模型性能,有新解了! 来自字节、复旦大学的研究人员提出自适应推理框架CAR,能根据模型困惑度动态选择短回答或详细的长文本推理,最终实现了准确性与效率的最佳平衡。 推理能力的进步极大提升了大语言模型(LLMs)和多模态大语言模型(MLLMs)在各类任务中的表现。
5/27/2025 3:28:47 PM

扩散语言模型九倍推理加速!上海交大:KV Cache并非自回归模型的专属技巧

首个用于加速扩散式大语言模型(diffusion-based Large Language Models, 简称 dLLMs)推理过程的免训练方法。 上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制:dLLM-Cache。 其核心思想在于,在一个多步去噪过程中,复用相邻时间步上变化较小的特征,仅更新那些变化较大的特征,从而实现了计算量的大幅降低,并保持了原有的生成质量。
5/27/2025 3:28:11 PM

让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力

在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。 具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍处于起步阶段。
5/27/2025 3:23:05 PM

北大团队发布首篇大语言模型心理测量学系统综述:评估、验证、增强

随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。 如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能? 如何建立更全面、更可靠的 AI 评估体系?
5/27/2025 3:21:06 PM