理论
十大步骤详解Spring AI MCP机制底层实现,小白误入!
MCP分为MCP Client和MCP Server:MCP Client负责进行工具发现和工具调用MCP Server负责提供工具和工具执行总体流程图图片十大步骤详解第一步,MCP Client接收用户的问题,比如“今天是几月几号”。 第二步,MCP Client发送tools/list请求给MCP Server进行工具发现。 利用Spring AI开发的MCP Server,可以利用@Tool注解定义工具,比如:图片并利用MethodToolCallbackProvider提供出去:在MCP Server的MpcServerAutoConfiguration自动配置类中定义了一个McpSyncServer的Bean,它会依赖注入ListToolCallbackProvider,这样McpSyncServer中就拿到了MCP Server中定义的所有Tools(调用ToolCallbackProvider的getToolCallbacks()即可拿到)。
字节开源新生图模型:一个模型统一所有生图任务,多主体融合效果SOTA
利用字节团队魔改的FLUX模型,可以直接把多个参考主体放进一张图了。 字节团队以FLUX为基础模型,提出了新的生图模型UNO,统一了图像生成任务中不同输入条件的处理。 无论是单主体进行风格变换,还是不同物体的融合,UNO都能直接搞定。
ChatGPT有了完整记忆!像朋友一样记住所有聊天记录,回复更加私人订制
ChatGPT可以引用过去所有聊天了! 刚刚,OpenAI发布ChatGPT新能力,支持参考过去所有对话内容,更好根据个人喜好来生成回复。 除了保存此前记忆,还能引用过去内容。
有了MCP,AI不仅更完整,还更实用了
互联网刚诞生时,普通人对它的印象只是能收发电子邮件。 智能手机刚出现时,很多人觉得不过是个能打电话的小电脑。 当AI大模型横空出世,大家惊叹于它超强的对话能力,却难以想象它能做什么实际工作。
Java家族出列:十款值得关注的生成式AI工具与框架
译者 | 核子可乐审校 | 重楼尽管Java并非大多数程序员构建AI/ML项目的首选语言——毕竟Python拥有更庞大的AI/ML框架生态——但Java在AI、机器学习及生成式AI革命中仍占据重要席位。 其技术优势和广泛的生态系统使其成为许多开发者的首选,尤其是那些偏好严格类型定义和JVM高性能的开发者。 甚至部分Python爱好者也会通过Jython运行代码以发挥JVM的速度优势。
模态编码器 | ALIGN,通过大规模嘈杂数据集训练的视觉语言模型
简单看一下Google早期的一篇工作ALIGN,发表在2021 ICML上。 研究动机:传统的视觉语言表示学习通常在手动标注的大规模数据集上进行训练,需要大量的预先处理和成本。 ALIGN利用网络上摘取的HTML页面和alt-text标签,构建了一个18亿对图像-文本的嘈杂数据集,从而在不需要昂贵的数据过滤的情况下,实现高效的学习。
2025年CIO的优先事项:掌握AI,确保未来
在BrightTALK CIO峰会上,七位IT和技术专家分享了实用策略和最佳实践,以供希望在这个动荡但又充满机遇的商业时代导航并了解2025年CIO首要任务的IT领导者参考。 证明AI投资的投资回报率:构建用例供应链随着AI应用的普及,确定能够提供切实商业价值的用例是2025年CIO的一项关键优先事项。 在这一领域取得成功需要一种战略方法,以识别和利用能够显著改善底线表现的AI举措。
模态编码器 | FLIP:通过图像掩码加速CLIP训练
来聊聊Meta AI团队(何恺明组)提出的一个高效的CLIP加速训练方法——FLIP。 看完MAE,很自然的一个想法就是将MAE用到CLIP里的图像编码器上,FLIP实现了这个想法,通过在训练过程中对图像进行随机掩码(masking),显著提升了训练效率。 动机也很简单,CLIP训练成本高,耗费大量时间和资源,高效省时的训练方法则成为研究重点。
NoETL×大模型:Aloudata重构数据智能新范式,驱动企业决策革命
在当今数据驱动的时代,企业对于高效、智能的数据处理与分析需求日益增长。 随着大模型的兴起,如DeepSeek等,数据智能领域正经历着前所未有的变革。 Aloudata大应科技创始人&CEO周卫林表示,企业的核心竞争力包括人才壁垒、技术壁垒以及资本壁垒。
大模型“自动修 bug”能力将提升,豆包团队开源首个多语言代码修复基准 Multi-SWE-bench
4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。 在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。 其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
科学家用GNN进行不确定性量化,实现高效的分子设计,登Nature子刊
题图来源:AI生成编辑 | 白菜叶在广阔的化学空间中优化分子设计面临着独特的挑战,尤其是在领域转移的情况下保持预测准确性。 在最新的研究中,台湾大学(National Taiwan University)的研究人员整合了不确定性量化 (UQ)、定向信息传递神经网络 (D-MPNN) 和遗传算法 (GA) 来解决这些挑战。 他们系统地评估了 UQ 增强型 D-MPNN 是否能够有效优化广泛、开放的化学空间,并确定了最有效的实施策略。
模态编码器 | 恺明大神的MAE--掩码自编码器
恺明大神在2021年提出掩码自编码器(MAE),一种简单的自监督学习方法,通过随机掩盖输入图像的部分区域并重建缺失的像素。 主要研究动机如下:数据需求与过拟合问题:深度学习模型,尤其是视觉领域的模型,需要大量数据来避免过拟合。 自然语言处理(NLP)领域通过自监督预训练(如BERT)成功解决了这一问题,但在计算机视觉领域,类似的自监督学习方法发展相对滞后。
UC伯克利华人开源14B「o3-mini」,代码版R1突袭OpenAI王座!
OpenAI o1/o3-mini级的推理模型,竟被抢先开源了? 刚刚,来自UC伯克利和Together AI的联合团队,重磅推出了一款完全开源的代码推理模型——DeepCoder-14B-Preview。 现在,只需要14B就可以拥有一个媲美o3-mini的本地模型,并且完全免费!
字节最新人像视频生成模型DreamActor-M1,推特关注超百万!即梦AI即将上线
还记得前段时间字节跳动备受关注的数字人技术Omnihuman-1吗? 最近,这支团队一项基于DiT架构的可控人像视频生成技术DreamActor-M1,一经发布,又在推特上引起了超百万量级的关注——仅需一张静态照片和一段驱动视频,便可生成高质量、达到电影级别的视频,将人像视频生成的表现力提升至全新水平! 左右滑动查看项目网页::,还能精准捕捉并迁移驱动视频中的动作和表情,呈现出高度逼真的效果,极大地简化了现有的动作捕捉、角色动画以及内容创作流程。
谷歌最新AI芯片打平英伟达B200,专为推理模型打造,最高配每秒42500000000000000000次浮点运算
谷歌首款AI推理特化版TPU芯片来了,专为深度思考模型打造。 代号Ironwood,也就是TPU v7,FP8峰值算力4614TFlops,性能是2017年第二代TPU的3600倍,与2023年的第五代TPU比也有10倍。 (为什么不对比第六代,咱也不知道,咱也不敢问。
“谷歌版MCP”来了!开源A2A,不同厂商Agent也能协作
刚刚,“谷歌版MCP”来了! 谷歌推出A2A协议,即Agent2Agent,能让AI Agent在不同生态系统间安全协作,而无需考虑框架或供应商。 不同平台构建的AI Agent之间可以进行通信、发现彼此的能力、协商任务并开展协作,企业可通过专业Agent团队处理复杂工作流。
剪枝60%不损性能!上海AI Lab提出高斯剪枝新方法,入选CVPR 2025
三维高斯泼溅(3D Gaussian Splatting)使得实时高质量渲染成为可能,是当前3D视觉领域最常用的算法之一。 问题在于,基于显示高斯单元的表示方式,尽管可以高效溅射和光栅化,其密集化和优化过程却往往会生成冗余的高斯点,导致单个重建场景可能包含数百万个高斯点。 这不仅降低了训练和渲染速度(本可能更快),还导致显著的内存消耗。
英伟达华人AI版《猫和老鼠》爆火全网,60秒经典泪目!仅靠Transformer新增一层
「猫和老鼠」,这部创作于1940年的动画,现在已经85岁了。 如今,只需一个提示,不用任何剪辑,AI便可「无限续杯」童年经典,继续延续它的魅力。 你没有看过的《猫和老鼠》情节画面,由AI制作来自英伟达、斯坦福、UCSD、UC伯克利以及UT Austin研究团队,通过Test-Time Training构建了一个「一分钟视频」生成器。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉