AI
AI 智能体通信:潜力与挑战并存的未来
大家好,我是肆〇柒,大型语言模型(LLM)进步,以其卓越的自然语言理解和生成能力,催生了 LLM 驱动的 AI 智能体这一创新技术。 这些 AI 智能体,作为 LLM 的进阶应用形态,不仅具备传统 LLM 的语言处理能力,更集成了感知、推理、决策与行动执行等多元化功能,实现了从单纯的信息处理向自主任务操作的跨越。 其应用范围横跨科学研究、工业生产、社会服务等多个关键领域,展现出改变世界运行模式的巨大潜力,市场预计将以年均 40% 的速度增长,至 2035 年市场规模有望突破 2168 亿美元。
7/1/2025 5:00:00 AM
肆零柒
工业4.0中的人工智能应用及案例
想象一下,在一家工厂里,机器之间可以互相窃窃私语,在故障发生前预测故障,机器人实时调整任务来制造定制汽车。 这不是科幻小说,而是工业4.0的现实。 两年前,我通过VR参观了西门子的安贝格工厂,亲眼目睹机器人与人工智能协作,以99.9%的精度组装设备。
7/1/2025 3:00:00 AM
晓晓
AI Agent 体如何改变我们与网页的互动方式
AI 智能体(像 OpenAI Operator 这样的)能帮你自动完成网上找产品、管理浏览器标签等任务,简直是解放双手! 但要让这些智能体真正派上用场,挑战可不小。 这篇文章会聊聊 AI 智能体在网页互动中的现状、痛点,以及一个叫 Agentic Web Interfaces (AWIs) 的新解决方案。
7/1/2025 2:10:00 AM
AI研究生
视觉语言模型如何突破感知边界?上海 AI 新势力提出“世界意识”赋能真实环境规划
——如何让多模态智能体真正“看懂”世界并做出复杂决策“把切好的苹果片冰一下再丢进垃圾桶”——这样一条看似普通的自然语言指令,若让一台具身智能体(Embodied Agent)执行,其背后实则隐藏了多步规划、常识应用、环境理解、工具使用等一系列交互复杂度极高的子任务。 如何让 AI 理解任务的潜台词、合理分解步骤,并在真实视觉输入中找准对象并正确执行,正是当前具身智能与多模态学习面临的最大挑战之一。 具身智能与多模态规划的研究背景具身智能(Embodied Intelligence)可以被视为 AI 研究“从认知走向行为”的转折点。
7/1/2025 1:35:00 AM
FlerkenS
VSCode AI 编程必装!五款DeepSeek集成插件,每款都让开发效率飙升
AI 大模型对编程的影响已深入技术前沿,以 Cursor 为代表的对话式编程工具正融入开发工作流。 作为 AI 编程领域的明星产品,Cursor 功能虽强,但价格较高,因此开发者们需要寻找免费替代品。 VSCode 的性价比优势明显,其免费 AI 编程插件在性能上与 Cursor 相当,且伴随 DeepSeek 等国产大模型崛起,插件生态已完成对其适配。
7/1/2025 1:33:00 AM
学研君
微软新推出的小语言模型Mu,是端侧AI的最优解吗?
上周,微软宣布推出一款名为“Mu”的新型生成式人工智能(GenAI)系统,它让我们得以一窥未来我们使用各种设备(从个人电脑到烤面包机)的方式。 借助“Mu”,用户能够通过日常语言来操控电脑。 例如,你可以键入或说出“打开暗黑模式”或“让我的鼠标指针变大”等指令,电脑便会照做。
7/1/2025 1:00:00 AM
React + AI = ?
AI 的飞速发展正在重塑前端开发的边界。 除了生成 UI、编写代码,AI 现在具备了更强的“执行能力”——而 MCP,正是实现这一能力的关键技术。 2024 年 11 月,Anthropic 提出了 MCP(Model Context Protocol),一个开放协议,旨在为 AI 模型提供标准化的接口,用于调用外部工具与数据源,从而生成更准确、更具上下文理解的响应。
7/1/2025 12:00:00 AM
CUGGZ
美国团队开发 AI 工具,只需一次脑扫描即可识别多种痴呆症
美国妙佑医疗国际研发的AI工具StateViewer,通过单一脑部扫描即可识别九种痴呆症,准确率达88%,诊断速度提升两倍。该工具可帮助缺乏专业神经科资源的诊所实现精准诊断。#痴呆症诊断##AI医疗#
6/30/2025 6:28:36 PM
远洋
亚马逊云科技全球首席企业战略总经理谈AI转型:85% 的 IT 预算都可能花错了地方;最大挑战并非技术,而是文化
编辑 | 云昭 嘉宾 | Phil Le-Brun“我是做技术出身的,但大多数时候听起来更像是心理学家。 ”当 Phil Le-Brun 被问及如何推动企业进行全球转型时,半开玩笑得把自己比喻成“心理学家”。 在他看来,无论是数字化转型还是现在的AI转型,其实真正要改变的是思维方式,而然后辅之以技术的配合。
6/30/2025 6:08:50 PM
云昭
Claude 开便利亏麻了!AI 被忽悠商品、打折成瘾,最后精神错乱…
近日,人工智能公司 Anthropic 进行了一项实验。 他们让自家的人工智能模型Claude,在办公室里经营一家小型实体商店,目标是测试人工智能在现实经济中自主运行的能力。 该实验是 Anthropic 与人工智能安全评估公司 Andon Labs 合作,他们将这个项目命名为“Project Vend”。
6/30/2025 2:04:56 PM
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
赵天辰,清华大学电子工程系高能效计算实验室研究生,研究方向主要是:面向视觉生成的高效算法,与软硬件协同设计近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。 与输入序列长度呈平方复杂度的 Attention 操作,成为主要的性能瓶颈(可占据全模型的 60-80% 的开销),有明显的效率优化需求。 注意力的稀疏化(Sparse Attention)与低比特量化(Attention Quantization)为常用的 Attention 优化技巧,在许多现有应用中取得优秀的效果。
6/30/2025 2:02:00 PM
ChatGPT化身生活操作系统:奥特曼预告下一代顶级AI
OpenAI计划发布一个非常强大的开源模型。 它能够让人们在本地运行极其强大的模型,重新认识“本地部署”的可能性。 在旧金山AI初创学校对话中,奥特曼宣布了以上消息。
6/30/2025 2:00:36 PM
AI编程里程碑!谷歌AI自己写代码惊呆工程师,GPU内核算法反超人类21%
谷歌的AlphaEvolve,还在不断创造新的奇迹。 在5月中旬,谷歌扔出的这个炸弹(号称是数学界AlphaGo的「第37步」时刻),就在不断冲击人们的认知——AI,已经拥有了自我进化能力! 随后,不断有开发者用代码证实,AlphaEvolve的矩阵乘法突破为真!
6/30/2025 2:00:14 PM
RAG终极框架!港大开源RAG-Anything:统一多模态知识图谱
RAG-Anything的核心技术创新在于构建了统一的多模态知识图谱架构,能够同时处理并关联文档中的文字内容、图表信息、表格数据、数学公式等多种类型的异构内容,解决了传统RAG系统仅支持文本处理的技术限制,为多模态文档的智能理解提供了新的技术方案。 项目地址:: (RAG)系统,专注解决复杂场景下的智能问答与信息检索难题。 该系统提供完整的端到端多模态文档处理解决方案,能够统一处理文本、图像、表格、数学公式等多种异构内容,实现从文档解析、知识图谱构建到智能问答的全流程自动化,为下一代AI应用提供了可靠的技术基础。
6/30/2025 1:57:59 PM
百度文心大模型4.5系列正式开源,同步开放API服务
百度文心大模型开源,如期而至。 就在今天,百度官宣文心大模型4.5系列正式开源,还同步提供API服务。 此番,百度一次性推出10款开源模型,涵盖从47B参数的混合专家(MoE)模型到轻量级0.3B稠密型模型,覆盖文本、多模态等多种任务需求。
6/30/2025 1:54:34 PM
甭提静态AI了,MIT新框架让模型具备自学能力
作者 | Ben Dickson编译 | 沈建苗出品 | 51CTO技术栈(微信号:blog51cto)近日,麻省理工学院(MIT)的研究人员已开发出一种名为自适应语言模型(SEAL)的框架,使大语言模型(LLM)能够通过更新自身的内部参数来持续学习和适应。 SEAL可以教LLM生成自己的训练数据并更新指令,让LLM能够永久吸收新知识并学习新任务。 这种框架特别适用于企业应用环境,尤其适用于在动态环境中运行的AI智能体,它们必须不断处理新信息并调整其行为。
6/30/2025 1:10:37 PM
OpenAI 停工一周,紧急调薪!Meta灭霸式天价挖8名OpenAI大佬!紧急回应:我们被偷家了!与Meta冲突是支线任务!
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)又是震惊 AI 圈的一天。 进入 6 月,Meta 与 OpenAI 的主旋律变成了一场关于“研究人才”的攻防红蓝对决。 而让人没想到的是 Meta 的高调挖角 OpenAI,疯狂的阵势强度已经到堪比“黑五抢购天才大脑”一般。
6/30/2025 1:03:13 PM
云昭
奥特曼慌了!OpenAI连夜加薪全员放假,小扎疯狂挖人高管震怒
小扎抢人大战,彻底把OpenAI整慌了。 OpenAI首席研究官Mark Chen直言,「现在,我感觉就像有人闯进我们的家,偷走了我们的东西一样」。 这份来自Wired的独家爆料,挖出了OpenAI七大高管向全员发布了一份强硬的备忘录。
6/30/2025 9:42:01 AM
新智元
资讯热榜
Google 不慎泄露 Gemini CLI 开源即将推出文章,现已404
从文本生成到指令编辑 OmniGen2重塑开源多模态模型应用场景
AI Hacker Rises to Power! XBOW's Autonomous AI Tool Dominates HackerOne, Revealing Thousands of Vulnerabilities and Intimidating the Cybersecurity Industry
ElevenLabs隆重推出AI语音助理11ai:语音优先并支持集成MCP
苹果iOS 26升级:图乐园功能焕然一新,AI 生成图像更真实!
告别代码恐惧症!豆包推出可视化AI编程,拖拽即可创建网页应用
细节控!即梦灰测图片3.1模型 电影感增强,风格化艺术感更强
OpenAI搜索连接器重磅上线!解锁ChatGPT全新工作效率神器
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
代码
Anthropic
算法
英伟达
Stable Diffusion
芯片
训练
开发者
智能体
生成式
蛋白质
腾讯
苹果
神经网络
3D
研究
生成
Claude
机器学习
计算
Sora
LLM
AI设计
AI for Science
AI视频
GPU
人形机器人
华为
搜索
百度
AI新词
xAI
大语言模型
场景
Agent
字节跳动
预测
深度学习
伟达
Transformer
工具
视觉
大型语言模型
RAG
神器推荐
模态
具身智能
文本
Copilot
LLaMA
算力
驾驶
API
视频生成