AI
会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
Caption: Rex-Thinker 的思考过程在日常生活中,我们常通过语言描述寻找特定物体:“穿蓝衬衫的人”“桌子左边的杯子”。 如何让 AI 精准理解这类指令并定位目标,一直是计算机视觉的核心挑战。 现有方法常被两大问题困扰: 决策过程不透明 (“黑箱” 预测)和 拒识能力不足 (对不存在物体输出错误结果)。
模型极简主义:为企业节省数百万的新型AI策略
大型语言模型(LLM)的出现使企业更容易构想出它们可以承担的项目类型,从而推动了试点项目向部署阶段的迅猛发展。 然而,随着这些项目的推进,企业意识到之前使用的大型语言模型不仅笨重,而且成本高昂。 于是,小型语言模型和模型蒸馏技术应运而生。
运行时攻击如何让盈利的AI变成预算黑洞
AI以其带来变革性洞察和效率提升的潜力吸引了企业界的目光,然而,随着各企业急于将其模型投入运营,一个严峻的现实正浮现出来:AI将投资转化为实时业务价值的推理阶段正受到围攻,这一关键节点正以初始商业案例未能预测到的方式推高总拥有成本。 那些因AI项目的变革性优势而批准项目的安全主管和CFO,如今正面临捍卫这些系统的隐性开支。 对手已发现,推理是AI为企业“创造价值”的环节,也正是他们能造成最大破坏的地方。
AI 智能体通信:潜力与挑战并存的未来
大家好,我是肆〇柒,大型语言模型(LLM)进步,以其卓越的自然语言理解和生成能力,催生了 LLM 驱动的 AI 智能体这一创新技术。 这些 AI 智能体,作为 LLM 的进阶应用形态,不仅具备传统 LLM 的语言处理能力,更集成了感知、推理、决策与行动执行等多元化功能,实现了从单纯的信息处理向自主任务操作的跨越。 其应用范围横跨科学研究、工业生产、社会服务等多个关键领域,展现出改变世界运行模式的巨大潜力,市场预计将以年均 40% 的速度增长,至 2035 年市场规模有望突破 2168 亿美元。
工业4.0中的人工智能应用及案例
想象一下,在一家工厂里,机器之间可以互相窃窃私语,在故障发生前预测故障,机器人实时调整任务来制造定制汽车。 这不是科幻小说,而是工业4.0的现实。 两年前,我通过VR参观了西门子的安贝格工厂,亲眼目睹机器人与人工智能协作,以99.9%的精度组装设备。
AI Agent 体如何改变我们与网页的互动方式
AI 智能体(像 OpenAI Operator 这样的)能帮你自动完成网上找产品、管理浏览器标签等任务,简直是解放双手! 但要让这些智能体真正派上用场,挑战可不小。 这篇文章会聊聊 AI 智能体在网页互动中的现状、痛点,以及一个叫 Agentic Web Interfaces (AWIs) 的新解决方案。
视觉语言模型如何突破感知边界?上海 AI 新势力提出“世界意识”赋能真实环境规划
——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令,若让一台具身智能体(Embodied Agent)执行,其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。 如何让 AI 理解任务的潜台词、合理分解步骤,并在真实视觉输入中找准对象并正确执行,正是当前具身智能与多模态学习面临的最大挑战之一。 具身智能与多模态规划的研究背景具身智能(Embodied Intelligence)可以被视为 AI 研究“从认知走向行为”的转折点。
VSCode AI 编程必装!五款DeepSeek集成插件,每款都让开发效率飙升
AI 大模型对编程的影响已深入技术前沿,以 Cursor 为代表的对话式编程工具正融入开发工作流。 作为 AI 编程领域的明星产品,Cursor 功能虽强,但价格较高,因此开发者们需要寻找免费替代品。 VSCode 的性价比优势明显,其免费 AI 编程插件在性能上与 Cursor 相当,且伴随 DeepSeek 等国产大模型崛起,插件生态已完成对其适配。
微软新推出的小语言模型Mu,是端侧AI的最优解吗?
上周,微软宣布推出一款名为“Mu”的新型生成式人工智能(GenAI)系统,它让我们得以一窥未来我们使用各种设备(从个人电脑到烤面包机)的方式。 借助“Mu”,用户能够通过日常语言来操控电脑。 例如,你可以键入或说出“打开暗黑模式”或“让我的鼠标指针变大”等指令,电脑便会照做。
React + AI = ?
AI 的飞速发展正在重塑前端开发的边界。 除了生成 UI、编写代码,AI 现在具备了更强的“执行能力”——而 MCP,正是实现这一能力的关键技术。 2024 年 11 月,Anthropic 提出了 MCP(Model Context Protocol),一个开放协议,旨在为 AI 模型提供标准化的接口,用于调用外部工具与数据源,从而生成更准确、更具上下文理解的响应。
美国团队开发 AI 工具,只需一次脑扫描即可识别多种痴呆症
美国妙佑医疗国际研发的AI工具StateViewer,通过单一脑部扫描即可识别九种痴呆症,准确率达88%,诊断速度提升两倍。该工具可帮助缺乏专业神经科资源的诊所实现精准诊断。#痴呆症诊断##AI医疗#
亚马逊云科技全球首席企业战略总经理谈AI转型:85% 的 IT 预算都可能花错了地方;最大挑战并非技术,而是文化
编辑 | 云昭 嘉宾 | Phil Le-Brun“我是做技术出身的,但大多数时候听起来更像是心理学家。 ”当 Phil Le-Brun 被问及如何推动企业进行全球转型时,半开玩笑得把自己比喻成“心理学家”。 在他看来,无论是数字化转型还是现在的AI转型,其实真正要改变的是思维方式,而然后辅之以技术的配合。
Claude 开便利亏麻了!AI 被忽悠商品、打折成瘾,最后精神错乱…
近日,人工智能公司 Anthropic 进行了一项实验。 他们让自家的人工智能模型Claude,在办公室里经营一家小型实体商店,目标是测试人工智能在现实经济中自主运行的能力。 该实验是 Anthropic 与人工智能安全评估公司 Andon Labs 合作,他们将这个项目命名为“Project Vend”。
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
赵天辰,清华大学电子工程系高能效计算实验室研究生,研究方向主要是:面向视觉生成的高效算法,与软硬件协同设计近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。 与输入序列长度呈平方复杂度的 Attention 操作,成为主要的性能瓶颈(可占据全模型的 60-80% 的开销),有明显的效率优化需求。 注意力的稀疏化(Sparse Attention)与低比特量化(Attention Quantization)为常用的 Attention 优化技巧,在许多现有应用中取得优秀的效果。
ChatGPT化身生活操作系统:奥特曼预告下一代顶级AI
OpenAI计划发布一个非常强大的开源模型。 它能够让人们在本地运行极其强大的模型,重新认识“本地部署”的可能性。 在旧金山AI初创学校对话中,奥特曼宣布了以上消息。
AI编程里程碑!谷歌AI自己写代码惊呆工程师,GPU内核算法反超人类21%
谷歌的AlphaEvolve,还在不断创造新的奇迹。 在5月中旬,谷歌扔出的这个炸弹(号称是数学界AlphaGo的「第37步」时刻),就在不断冲击人们的认知——AI,已经拥有了自我进化能力! 随后,不断有开发者用代码证实,AlphaEvolve的矩阵乘法突破为真!
RAG终极框架!港大开源RAG-Anything:统一多模态知识图谱
RAG-Anything的核心技术创新在于构建了统一的多模态知识图谱架构,能够同时处理并关联文档中的文字内容、图表信息、表格数据、数学公式等多种类型的异构内容,解决了传统RAG系统仅支持文本处理的技术限制,为多模态文档的智能理解提供了新的技术方案。 项目地址:: (RAG)系统,专注解决复杂场景下的智能问答与信息检索难题。 该系统提供完整的端到端多模态文档处理解决方案,能够统一处理文本、图像、表格、数学公式等多种异构内容,实现从文档解析、知识图谱构建到智能问答的全流程自动化,为下一代AI应用提供了可靠的技术基础。
百度文心大模型4.5系列正式开源,同步开放API服务
百度文心大模型开源,如期而至。 就在今天,百度官宣文心大模型4.5系列正式开源,还同步提供API服务。 此番,百度一次性推出10款开源模型,涵盖从47B参数的混合专家(MoE)模型到轻量级0.3B稠密型模型,覆盖文本、多模态等多种任务需求。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
AI新词
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
英伟达
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
代码
AI for Science
苹果
算法
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
xAI
蛋白质
开发者
人形机器人
生成式
神经网络
机器学习
AI视频
3D
RAG
大语言模型
字节跳动
Sora
百度
研究
GPU
生成
工具
华为
AGI
计算
大型语言模型
AI设计
生成式AI
搜索
视频生成
亚马逊
AI模型
DeepMind
特斯拉
场景
深度学习
Transformer
架构
Copilot
MCP
编程
视觉