理论

五种RAG分块策略详解 + LlamaIndex代码演示

五种RAG分块策略详解 + LlamaIndex代码演示

先前文章中提到，不断优化原始文档解析和分块策略是控制变量法下，是提高最后检索效果天花板的务实做法，前面已经介绍了 MinerU vs DeepDoc 在文档解析方面的效果对比。 MinerU vs DeepDoc：集成方案图片显示优化关于文档解析部分简单的结论是，MinerU 无疑是值得关注和尝试的一个文档解析框架，但具体效果还要结合特定项目文档做仔细横评。我目前在常规项目中，主要是对照使用 DeepDoc 和 MinerU 两个方法。

5/6/2025 10:05:23 AM 韦东东

3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

3B模型超越Meta 7B模型，超长视频理解SOTA刷新了！来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了Video-XL-Pro，实现近一万帧视频的单卡处理，大海捞针准确率超98%。现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈：一方面，难以大规模训练超长视频；另一方面，在处理长视频时，仍然面临性能差和效率低的双重挑战。

5/6/2025 9:55:00 AM

AI视频生成新突破！字节提出一致性视频生成方法Phantom：通过跨模态对齐生成主题一致的视频，超多应用场景

AI视频生成新突破！字节提出一致性视频生成方法Phantom：通过跨模态对齐生成主题一致的视频，超多应用场景

Phantom 是一个统一的视频生成框架，适用于单主题和多主题参考，基于现有的文本转视频和图像转视频架构构建。它通过重新设计联合文本-图像注入模型，利用文本-图像-视频三元组数据实现跨模态对齐。此外，它在人物生成中强调主题一致性，同时增强了身份保留视频生成。

5/6/2025 9:41:06 AM AIGC Studio

MinerU vs DeepDoc：集成方案+图片显示优化

MinerU vs DeepDoc：集成方案+图片显示优化

如上篇文章最后所言，进一步优化原始文档解析和分块策略是控制变量法下，提高最后检索效果天花板的务实做法。从这篇开始，在对历史项目进行迭代的同时，会陆续对不同的文档解析方法和动态分块策略给出更多的原理解析和案例参考。图片来源：，试图说清楚文档解析工具大致构成，MinerU 和 Deepdoc 对比，MinerU 部署，以及如何和图片服务方案结合使用。

5/6/2025 9:38:50 AM 韦东东

315 行代码构建编程助手，Go大佬揭开智能体的「神秘面纱」

315 行代码构建编程助手，Go大佬揭开智能体的「神秘面纱」

知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体，并表示「它运行得非常好」且「没有护城河」（指它并非难以复制）。 Thorsten Ball 在编程领域以其对系统编程和编程语言的深入研究而闻名，尤其擅长解释器、编译器和虚拟机等主题。他撰写的《用 Go 语言自制编译器》和《用 Go 语言自制解释器》则被视为编译原理领域的「入门平替」。

5/6/2025 9:15:00 AM 机器之心

成熟的编程智能体，已经学会升级自己的系统了

成熟的编程智能体，已经学会升级自己的系统了

编程智能体，几乎成为了 2025 年最热门的话题之一。不管是学术机构还是工业界，都在寻找更高效的落地路径。机器学习领域的历史经验表明，手工设计的解决方案最终会被学习到的解决方案所取代。

5/6/2025 9:10:00 AM 机器之心

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

大语言模型（LLMs）的成功激发了人们对各种智能体的兴趣。将 LLM 用于智能体的一个关键假设是，LLMs 利用常识和思维链（Chain-of-Thought, CoT）进行推理，从而智能体可以有效地探索并高效地解决复杂领域的问题。然而，LLM 智能体存在次优探索和知 - 行差距（knowing-doing gap）的问题，即无法有效地将模型中的知识转化为行动。

5/6/2025 9:08:00 AM 机器之心

DeepSeek开源的文件系统，是如何提升大模型效率的？

DeepSeek开源的文件系统，是如何提升大模型效率的？

在 AI 领域里，大模型通常具有百亿甚至数千亿参数，训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日，DeepSeek 开源了一种高性能分布式文件系统 3FS，官方表示其目的是解决人工智能训练和推理工作负载的挑战。作为一种并行文件系统，3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量，对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。

5/6/2025 9:03:00 AM 机器之心

如何选择Embedding Model？关于嵌入模型的十个思考

如何选择Embedding Model？关于嵌入模型的十个思考

在大模型应用中，尤其基于RAG框架的大模型应用，嵌入模型（embedding Model）是不可或缺的关键组件。这里总结了笔者在实践中关于潜入模型的10个思考，希望对大家有所帮助。嵌入模型在RAG中的重要性嵌入模型能够将文本转换成数值形式的向量，这让计算机可以更高效地处理、对比和检索信息。

5/6/2025 8:51:37 AM 曹洪伟

细节直逼亚毫米级！港科广分层建模突破3D人体生成｜CVPR 2025

细节直逼亚毫米级！港科广分层建模突破3D人体生成｜CVPR 2025

从人体单图变身高保真3D模型，不知道伤害了多少程序猿头发的行业难题，竟然被港科广团队一招破解了！团队最新提出的MultiGO创新方案，借助分层建模思路——将人体分解为不同精度层级，从基础体型到衣物褶皱逐级细化。这有点像在搭乐高积木：先大模块构建整体轮廓，再用小零件补充细节，最后再处理材质纹理。

5/6/2025 8:50:00 AM

首个移动端 AI 组件库正式发布！并宣布开源啦！

首个移动端 AI 组件库正式发布！并宣布开源啦！

前言大家好，我是林三心，用最通俗易懂的话讲最难的知识点是我的座右铭，基础是进阶的前提是我的初心~ChatUI 3.0 的发布引入了许多新的特性和组件，旨在提升智能对话机器人的设计和开发效率。以下是一些关键点和功能亮点：图片核心优化图片自然：致力于提升对话的自然流畅性，让用户的互动体验更加亲切高效：通过新组件的引入，增强了开发效率，减少了开发时间沉浸：提升了视觉与互动体验，使用户能更沉浸于对话中图片新增组件图片Typing 组件：用于展示服务端处理中的状态，缓解用户等待时的焦虑感，提升用户体验。 TypingBubble 组件：将气泡内容呈现为打字效果，模拟人类输入的过程，增加互动感。

5/6/2025 8:46:33 AM 林三心不学挖掘机

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

用多模态LLM超越YOLOv3！强化学习突破多模态感知极限｜开源

超越YOLOv3、Faster-RCNN，首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦！华中科技大学、北京邮电大学等多所高校研究团队共同推出的Perception-R1（PR1），在视觉推理中最基础的感知层面，探究rule-based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的纯视觉（计数，通用目标检测）以及视觉语言（grounding，OCR）任务，实验结果展现出在模型感知策略上的巨大潜力。

5/6/2025 8:40:00 AM 量子位

一文读懂到底什么是“模型蒸馏（Model Distillation）”技术？

一文读懂到底什么是“模型蒸馏（Model Distillation）”技术？

Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 构建高效、灵活的模型优化技术——模型蒸馏（Model Distillation）。随着人工智能技术的高速发展，模型规模的不断扩大（如 GPT-4 的万亿参数）带来了性能的显著提升，但也伴随着高昂的计算成本和部署挑战，尤其在资源受限的边缘设备和实时系统中。如何在保持模型性能的同时降低资源消耗，成为 AI 领域亟待解决的关键问题。

5/6/2025 8:35:00 AM Luga Lee

使用Llama 4和AutoGen构建一个AI智能体

使用Llama 4和AutoGen构建一个AI智能体

译者 | 布加迪审校 | 重楼Meta的Llama 4 系列模型目前正主导不断发展的AI世界。这些模型凭借原生的多模态功能，正在彻底改变我们构建智能系统的方式。当Llama 4与AutoGen结合使用时，它将充分发掘构建动态、响应迅速且强大的AI智能体的潜力。

5/6/2025 8:23:56 AM 布加迪

尤雨溪：让 AI 更好的理解 Vue、Vite

尤雨溪：让 AI 更好的理解 Vue、Vite

尤雨溪今天宣布 Vue、Vite 和 Rolldown 项目都加上了 llms.txt 文件。这是为了让大型语言模型 (LLM) 更方便地理解这些前端技术。那这个 llms.txt 到底是什么？

5/6/2025 3:30:00 AM 前端充电宝

AI 正在改变前端开发：前端使用 AI 现状！

AI 正在改变前端开发：前端使用 AI 现状！

“State of JS”、“State of CSS”、“State of React”等开发者调查组织，近期推出了全新的 State of AI 调查，旨在全面了解 Web 开发领域对 AI 工具和技术的采用现状与痛点。本文将围绕调查中的五大主题，简要呈现核心发现。 AI 大模型ChatGPT 以绝对优势领跑，使用率达 86%；紧随其后的是 Anthropic 的 Claude。

5/6/2025 2:40:00 AM 前端充电宝

68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳成绩

68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳成绩

大模型竞技场的可信度，再次被锤。最近一篇名为《排行榜幻觉》（The Leaderboard Illusion）的论文在学术圈引发关注。图片它指出，如今被视为LLM领域首选排行榜的Chatbot Arena，存在诸多系统问题。

5/6/2025 1:45:00 AM

安利五款超赞的开源 AI 前端组件库

安利五款超赞的开源 AI 前端组件库

前言在当今快速发展的前端技术领域中，开源项目一直扮演着举足轻重的角色。它们不仅为开发者提供了丰富的工具和资源，还极大地促进了技术的创新和共享。特别是在人工智能（AI）逐渐融入前端开发的今天，开源的AI前端组件库更是成为了提升开发效率、优化用户体验的重要利器。

5/6/2025 12:45:00 AM 大姚

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉