理论
微软Phi-4模型震撼发布:轻量化性能炸裂
嘿,各位AI圈的同仁们! 最近AI界热议的话题可不少,但微软悄悄放出的这个“小”家伙,绝对值得咱们重点关注。 微软这次没有追逐那种动辄千亿参数的“巨无霸”,反其道而行之,推出了参数规模相对小巧的Phi-4系列推理模型。
5/6/2025 1:42:16 PM
墨风如雪
MongoDB是如何玩转MCP的?
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)近日消息,知名数据库厂商MongoDB已在包括Atlas在内的所有数据库中添加了Anthropic的模型上下文协议(MCP),以帮助开发人员加速软件开发并管理数据库管理任务。 自去年11月发布以来,MCP的受欢迎程度不断上升,它是一种开放协议,允许应用程序中的AI Agent通过客户端-服务器机制访问外部工具和数据以完成用户请求,其中客户端是AI Agent或Agent接口,服务器提供工具和数据。 MCP受欢迎程度的上升可以归因于Agent应用程序的广泛普及,这些应用程序能够在无需人工干预的情况下执行任务,从而让企业和团队在有限的资源下完成更多工作。
5/6/2025 11:56:21 AM
云昭
刚刚,OpenAI公司结构重大调整:继续由非营利实体控制,营利性部门要变公益公司
OpenAI的公司结构,终于是尘埃落定了。 就在刚刚,OpenAI官方重磅宣布:将继续由目前的非营利组织控制。 图片除此之外,还有三项重大决定,它们分别是:现有的营利部门将成为公益公司(PBC)非营利组织将控制PBC,并成为其大股东非营利组织和PBC将继续保持相同的使命OpenAI表示,这次的公司结构调整,是在听取市民领袖的意见,并与特拉华州总检察长办公室和加利福尼亚州总检察长办公室进行建设性对话后所做出的决定。
5/6/2025 10:14:47 AM
突破瓶颈,嵌入式AI神经持续学习引擎—Replay4NCL
阿联酋大学、纽约大学阿布扎比分校以及巴基斯坦国立科技大学的研究人员,联合推出了一种高效内存重放方法Replay4NCL,以解决嵌入式 AI 系统在动态环境中持续学习的难题。 值得一提的是,该研究成果已经被第62届设计自动化大会(DAC)审核通过,会在2025年6月在旧金山举办的大会上展示。 随着AI技术的快速迭代发展,嵌入式 AI 系统在各种应用场景中扮演着越来越重要的角色,例如,移动机器人、无人驾驶、无人机等。
5/6/2025 10:13:41 AM
AIGC开放社区
五种RAG分块策略详解 + LlamaIndex代码演示
先前文章中提到,不断优化原始文档解析和分块策略是控制变量法下,是提高最后检索效果天花板的务实做法,前面已经介绍了 MinerU vs DeepDoc 在文档解析方面的效果对比。 MinerU vs DeepDoc:集成方案 图片显示优化关于文档解析部分简单的结论是,MinerU 无疑是值得关注和尝试的一个文档解析框架,但具体效果还要结合特定项目文档做仔细横评。 我目前在常规项目中,主要是对照使用 DeepDoc 和 MinerU 两个方法。
5/6/2025 10:05:23 AM
韦东东
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
3B模型超越Meta 7B模型,超长视频理解SOTA刷新了! 来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了Video-XL-Pro,实现近一万帧视频的单卡处理,大海捞针准确率超98%。 现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。
5/6/2025 9:55:00 AM
AI视频生成新突破!字节提出一致性视频生成方法Phantom:通过跨模态对齐生成主题一致的视频,超多应用场景
Phantom 是一个统一的视频生成框架,适用于单主题和多主题参考,基于现有的文本转视频和图像转视频架构构建。 它通过重新设计联合文本-图像注入模型,利用文本-图像-视频三元组数据实现跨模态对齐。 此外,它在人物生成中强调主题一致性,同时增强了身份保留视频生成。
5/6/2025 9:41:06 AM
AIGC Studio
MinerU vs DeepDoc:集成方案+图片显示优化
如上篇文章最后所言,进一步优化原始文档解析和分块策略是控制变量法下,提高最后检索效果天花板的务实做法。 从这篇开始,在对历史项目进行迭代的同时,会陆续对不同的文档解析方法和动态分块策略给出更多的原理解析和案例参考。 图片来源:,试图说清楚文档解析工具大致构成,MinerU 和 Deepdoc 对比,MinerU 部署,以及如何和图片服务方案结合使用。
5/6/2025 9:38:50 AM
韦东东
315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」(指它并非难以复制)。 Thorsten Ball 在编程领域以其对系统编程和编程语言的深入研究而闻名,尤其擅长解释器、编译器和虚拟机等主题。 他撰写的《用 Go 语言自制编译器》和《用 Go 语言自制解释器》则被视为编译原理领域的「入门平替」。
5/6/2025 9:15:00 AM
机器之心
成熟的编程智能体,已经学会升级自己的系统了
编程智能体,几乎成为了 2025 年最热门的话题之一。 不管是学术机构还是工业界,都在寻找更高效的落地路径。 机器学习领域的历史经验表明,手工设计的解决方案最终会被学习到的解决方案所取代。
5/6/2025 9:10:00 AM
机器之心
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。 将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推理,从而智能体可以有效地探索并高效地解决复杂领域的问题。 然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。
5/6/2025 9:08:00 AM
机器之心
DeepSeek开源的文件系统,是如何提升大模型效率的?
在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心
如何选择Embedding Model?关于嵌入模型的十个思考
在大模型应用中,尤其基于RAG框架的大模型应用,嵌入模型(embedding Model)是不可或缺的关键组件。 这里总结了笔者在实践中关于潜入模型的10个思考,希望对大家有所帮助。 嵌入模型在RAG中的重要性嵌入模型能够将文本转换成数值形式的向量,这让计算机可以更高效地处理、对比和检索信息。
5/6/2025 8:51:37 AM
曹洪伟
细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025
从人体单图变身高保真3D模型,不知道伤害了多少程序猿头发的行业难题,竟然被港科广团队一招破解了! 团队最新提出的MultiGO创新方案,借助分层建模思路——将人体分解为不同精度层级,从基础体型到衣物褶皱逐级细化。 这有点像在搭乐高积木:先大模块构建整体轮廓,再用小零件补充细节,最后再处理材质纹理。
5/6/2025 8:50:00 AM
首个移动端 AI 组件库正式发布!并宣布开源啦!
前言大家好,我是林三心,用最通俗易懂的话讲最难的知识点是我的座右铭,基础是进阶的前提是我的初心~ChatUI 3.0 的发布引入了许多新的特性和组件,旨在提升智能对话机器人的设计和开发效率。 以下是一些关键点和功能亮点:图片核心优化图片自然: 致力于提升对话的自然流畅性,让用户的互动体验更加亲切高效: 通过新组件的引入,增强了开发效率,减少了开发时间沉浸: 提升了视觉与互动体验,使用户能更沉浸于对话中图片新增组件图片Typing 组件: 用于展示服务端处理中的状态,缓解用户等待时的焦虑感,提升用户体验。 TypingBubble 组件: 将气泡内容呈现为打字效果,模拟人类输入的过程,增加互动感。
5/6/2025 8:46:33 AM
林三心不学挖掘机
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的Perception-R1(PR1),在视觉推理中最基础的感知层面,探究rule-based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的纯视觉(计数,通用目标检测)以及视觉语言(grounding,OCR)任务,实验结果展现出在模型感知策略上的巨大潜力。
5/6/2025 8:40:00 AM
量子位
一文读懂到底什么是“模型蒸馏(Model Distillation)”技术?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的模型优化技术——模型蒸馏(Model Distillation)。 随着人工智能技术的高速发展,模型规模的不断扩大(如 GPT-4 的万亿参数)带来了性能的显著提升,但也伴随着高昂的计算成本和部署挑战,尤其在资源受限的边缘设备和实时系统中。 如何在保持模型性能的同时降低资源消耗,成为 AI 领域亟待解决的关键问题。
5/6/2025 8:35:00 AM
Luga Lee
使用Llama 4和AutoGen构建一个AI智能体
译者 | 布加迪审校 | 重楼Meta的Llama 4 系列模型目前正主导不断发展的AI世界。 这些模型凭借原生的多模态功能,正在彻底改变我们构建智能系统的方式。 当Llama 4与AutoGen结合使用时,它将充分发掘构建动态、响应迅速且强大的AI智能体的潜力。
5/6/2025 8:23:56 AM
布加迪
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
AI新词
图像
Gemini
智能体
马斯克
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
工具
计算
Sora
GPU
华为
大语言模型
RAG
具身智能
AI设计
字节跳动
搜索
大型语言模型
场景
AGI
深度学习
视频生成
预测
视觉
伟达
架构
Transformer
编程
神器推荐
DeepMind
亚马逊
特斯拉
AI模型