AI在线 AI在线

理论

AI知识库的真相,你知道吗?

很多人对AI知识库的想象是这样的,他们以为只需将所有资料一股脑地拖进AI客户端,比如 Cherry Studio 内。 图片这样,AI就会认真阅读所有内容,并自动生成完美结论。 然而,实际体验后,许多人发现AI知识库的效果远没有想象中理想,经常遇到各种奇怪的问题。
4/30/2025 9:06:23 AM
程序员NEO

ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%

本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人曹绍升,以及华东师范大学林绍辉研究员。 多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。 然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。
4/30/2025 9:00:00 AM
机器之心

AI杀手级应用有苗头了,自主使用操作系统Agent智能体,开源!

最近微软开源了一个 Agent 叫 UFO,通过自然语言指令实现 Windows 操作系统上的自动化任务操作。 图片之前我们分享的 Agent 大多是自主使用浏览器,而 UFO 更进了一步,可以使用操作系统中的各种APP帮你完成任务。 下面是 UFO 的架构图UFO² architecture可以看到,它是一个多Agent系统,中间的 HostAgent 用来解析用户的自然语言,启动必要的应用程序。
4/30/2025 8:57:55 AM
渡码

OpenAI玩崩了!GPT-4o更新后变马屁精差评如潮,奥特曼:一周才能完全修复

GPT-4o更新后,有点失控了。 现在简简单单地问一句“天为什么是蓝的? ”,得到的都不是答案,而是先来一句花式夸夸:你这问题真是太有见地了——你有个美丽的心灵,我爱你。
4/30/2025 8:42:00 AM
量子位

谷歌推出 AI 语言练习工具:支持拍照识词、对话练地道口语

IT之家 4 月 30 日消息,谷歌今日宣布推出三项全新 AI 实验功能,旨在通过更个性化的方式帮助用户学习外语。 第一项实验能帮助用户快速掌握当前场景所需的表达,第二项则鼓励用户放下教科书式语言,用更地道、口语化的方式交流。 第三项实验则利用手机摄像头,让用户借助现实场景学习词汇。
4/30/2025 8:08:23 AM
清源

Google 的 A2A 与 MCP 该如何选择?还是两种都用?

1.引言:协作式人工智能的曙光想想你是如何与同事合作完成那些复杂项目的 —— 你们互相分享信息、提出问题,并整合彼此的专业知识。 现在,请想象这些 AI Agent 也能做同样的事情,它们不再各自为战,而是通过协同工作来解决问题。 这正是 Google 于 2025 年 4 月 9 日发布的 Agent-to-Agent(A2A)协议[1]所追求的目标。
4/30/2025 4:00:00 AM
Baihai IDP

开源的轻量化VLM-SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling

缩小视觉编码器的尺寸,能够有效的降低多模态大模型的参数量。 再来看一个整体的工作,从视觉侧和语言模型侧综合考量模型参数量的平衡模式,进一步降低参数量,甚至最小达256M参数量,推理时显存占用1GB。 下面来看看,仅供参考。
4/30/2025 3:20:00 AM
于俊晖

国内首个「混合推理模型」Qwen3开源,盘点它的N种对接方式!

今日凌晨,通义千问团队正式开源了 Qwen3 大模型,并且一口气发布了 8 个型号,其中包括 0.6B、1.7B、4B、8B、14B、32B 以及 30B-A3B 和 235B-A22B,使用者可以根据自己的业务情况,选择合适的版本进行使用。 更让人惊喜的是,最新的 Qwen3 系列模型具备双模推理能力(深入思考/快速响应)、支持 119 种语言及方言,并强化了 Agent 功能与代码执行能力,全面满足复杂问题处理与全球化应用需求。 “PS:Qwen3 也是国内首个「混合推理模型」,「快思考」与「慢思考」集成进同一个模型,对简单需求可低算力「秒回」答案,对复杂问题可多步骤「深度思考」,大大节省算力消耗。
4/30/2025 2:00:00 AM
磊哥

数据科学家必备:从回归到CNN,简明概述常见机器学习模型

机器学习是现代人工智能的核心,支撑着从推荐系统到自动驾驶汽车等各类应用。 但每一个智能应用背后,都离不开那些奠定基础的模型。 本文将为你简明而全面地梳理关键的机器学习模型,帮助你系统掌握核心概念与应用。
4/30/2025 1:40:00 AM
新叔

赶在Deepseek-r2之前,阿里发布全球最强开源模型Qwen3,4张H20即可部署满血版

最近几天,开源大模型是异常活跃。 从前几天有爆料deepseek-r2即将发布的消息:图片到昨天Qwen3短暂发布又撤回:图片再到今天Qwen3正式发布。 感觉就像一场军备竞赛,阿里这次终于抢在了deepseek-r2发布之前发布了Qwen3!
4/30/2025 1:10:00 AM
DD

A2A vs. MCP全方位对比(附案例实操详解)

前阵子有知识星球成员私信,想要我介绍下 Google 发布的 A2A 是啥? 我在具体研究 A2A 之前,刷到过几个视频号的博主介绍 A2A时说 A2A 完全是多此一举,现有的 MCP(大模型上下文协议 )可以直接实现 agent 之间的标准化交互功能。 但初步测试下来发现,A2A并非这么简单。
4/30/2025 1:00:00 AM
韦东东

AI聊天的尽头是带货?ChatGPT新增购物推荐,但OpenAI强调这不是广告

AI聊天的尽头是带货? 这一调侃似乎正在成为现实。 4月29日,OpenAI宣布为ChatGPT推出一项全新的内置购物功能,引发行业内外的广泛关注。
4/30/2025 12:20:00 AM

深度研究 | Agentic AI系统安全防护实施指南

在人工智能迅猛发展的今天,Agentic AI系统以其前所未有的自主性、适应性和决策能力,正在重塑企业的数字化格局。 这些具备"代理能力"的AI系统能够自主感知环境、制定决策并采取行动,为企业带来效率提升和创新机遇。 然而,随之而来的是全新的安全挑战与风险维度:当AI拥有了更大的自主权,我们如何确保它始终在可控、安全、合规的轨道上运行?
4/30/2025 12:00:00 AM
徐晓丽

OpenAI前CEO和高级用户对AI谄媚和奉承用户的情况发出警告

但对于OpenAI热门聊天机器人ChatGPT的许多用户来说,这似乎已成现实,特别是当它与底层GPT-4o大型语言多模态模型进行交互时(OpenAI还为ChatGPT用户提供了另外六种底层大型语言模型以供选择,以驱动聊天机器人的回复,每种模型都具备不同的能力和数字“性格特征”——o3、o4-mini、o4-mini-high、GPT-4.5、GPT-4omini和GPT-4)。 在过去几天里,包括前OpenAI的CEO埃米特·希尔(Emmett . Shear)——他仅在2023年11月山姆·奥特曼被解雇的风波中掌管公司72小时——以及开源AI代码共享社区Hugging .
4/29/2025 4:14:24 PM
Carl Franzen

纳米AI为4亿打工人定制「AI牛马」!可0代码手搓超级智能体

AI的未来是什么? 是能听懂你一句指令,就帮你写报告、做PPT、发爆款内容的「超级助手」。 4月23日,纳米AI重磅官宣:全面支持MCP协议,上线MCP万能工具箱。
4/29/2025 4:12:28 PM
新智元

GPT-4o一夜变身「赛博舔狗」,百万网友泪目!奥特曼紧急修复,网友:求别修

最近,全网都被GPT-4o的「赛博舔狗」行为震惊了。 这些天的GPT-4o,突变成了这个画风。 用户:「你愿意打一只马那么大的鸭子,还是打一百只鸭子那么大的小马?
4/29/2025 4:07:53 PM
新智元

OpenAI进军电商业,狙击谷歌的基本盘

大数据文摘出品近日,OpenAI宣布将在ChatGPT中上线全新的购物体验,允许用户在对话中直接进行商品搜索与比价,并通过“购买”按钮跳转至商家网站完成交易。 图片这一功能的上线,标志着OpenAI正式进入了电商行业,并与传统搜索引擎巨头如Google形成了直接竞争。 当然,OpenAI进军电商业,实际上是在正面挑战Google在搜索和信息分发领域的核心地位。
4/29/2025 12:05:41 PM
文摘菌

AI巨头的算力账:谷歌自研TPU,绕过英伟达税,成本仅为OpenAI两成!OpenAI VS 谷歌企业怎么选?盘点四大决策关键!

编译 | 伊风随着生成式 AI 技术的迅猛发展,全球科技巨头围绕 AI 平台的竞争也日益白热化。 近期,OpenAI 发布了强大的 o3 和 o4-mini 推理模型以及 GPT-4.1 系列,谷歌则迅速推出了 Gemini 2.5 Flash主打“性价比”路线,作为对稍早发布的旗舰版 Gemini 2.5 Pro 的迭代更新。 虽然模型对比测试经常成为头条新闻,但对于技术决策者而言,选择 AI 平台所涉及的内容要深远得多。
4/29/2025 11:31:16 AM
伊风