理论
突破瓶颈,嵌入式AI神经持续学习引擎—Replay4NCL
阿联酋大学、纽约大学阿布扎比分校以及巴基斯坦国立科技大学的研究人员,联合推出了一种高效内存重放方法Replay4NCL,以解决嵌入式 AI 系统在动态环境中持续学习的难题。 值得一提的是,该研究成果已经被第62届设计自动化大会(DAC)审核通过,会在2025年6月在旧金山举办的大会上展示。 随着AI技术的快速迭代发展,嵌入式 AI 系统在各种应用场景中扮演着越来越重要的角色,例如,移动机器人、无人驾驶、无人机等。
5/6/2025 10:13:41 AM
AIGC开放社区
五种RAG分块策略详解 + LlamaIndex代码演示
先前文章中提到,不断优化原始文档解析和分块策略是控制变量法下,是提高最后检索效果天花板的务实做法,前面已经介绍了 MinerU vs DeepDoc 在文档解析方面的效果对比。 MinerU vs DeepDoc:集成方案 图片显示优化关于文档解析部分简单的结论是,MinerU 无疑是值得关注和尝试的一个文档解析框架,但具体效果还要结合特定项目文档做仔细横评。 我目前在常规项目中,主要是对照使用 DeepDoc 和 MinerU 两个方法。
5/6/2025 10:05:23 AM
韦东东
3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%
3B模型超越Meta 7B模型,超长视频理解SOTA刷新了! 来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了Video-XL-Pro,实现近一万帧视频的单卡处理,大海捞针准确率超98%。 现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。
5/6/2025 9:55:00 AM
AI视频生成新突破!字节提出一致性视频生成方法Phantom:通过跨模态对齐生成主题一致的视频,超多应用场景
Phantom 是一个统一的视频生成框架,适用于单主题和多主题参考,基于现有的文本转视频和图像转视频架构构建。 它通过重新设计联合文本-图像注入模型,利用文本-图像-视频三元组数据实现跨模态对齐。 此外,它在人物生成中强调主题一致性,同时增强了身份保留视频生成。
5/6/2025 9:41:06 AM
AIGC Studio
MinerU vs DeepDoc:集成方案+图片显示优化
如上篇文章最后所言,进一步优化原始文档解析和分块策略是控制变量法下,提高最后检索效果天花板的务实做法。 从这篇开始,在对历史项目进行迭代的同时,会陆续对不同的文档解析方法和动态分块策略给出更多的原理解析和案例参考。 图片来源:,试图说清楚文档解析工具大致构成,MinerU 和 Deepdoc 对比,MinerU 部署,以及如何和图片服务方案结合使用。
5/6/2025 9:38:50 AM
韦东东
315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」(指它并非难以复制)。 Thorsten Ball 在编程领域以其对系统编程和编程语言的深入研究而闻名,尤其擅长解释器、编译器和虚拟机等主题。 他撰写的《用 Go 语言自制编译器》和《用 Go 语言自制解释器》则被视为编译原理领域的「入门平替」。
5/6/2025 9:15:00 AM
机器之心
成熟的编程智能体,已经学会升级自己的系统了
编程智能体,几乎成为了 2025 年最热门的话题之一。 不管是学术机构还是工业界,都在寻找更高效的落地路径。 机器学习领域的历史经验表明,手工设计的解决方案最终会被学习到的解决方案所取代。
5/6/2025 9:10:00 AM
机器之心
谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙
大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。 将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推理,从而智能体可以有效地探索并高效地解决复杂领域的问题。 然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。
5/6/2025 9:08:00 AM
机器之心
DeepSeek开源的文件系统,是如何提升大模型效率的?
在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心
如何选择Embedding Model?关于嵌入模型的十个思考
在大模型应用中,尤其基于RAG框架的大模型应用,嵌入模型(embedding Model)是不可或缺的关键组件。 这里总结了笔者在实践中关于潜入模型的10个思考,希望对大家有所帮助。 嵌入模型在RAG中的重要性嵌入模型能够将文本转换成数值形式的向量,这让计算机可以更高效地处理、对比和检索信息。
5/6/2025 8:51:37 AM
曹洪伟
细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025
从人体单图变身高保真3D模型,不知道伤害了多少程序猿头发的行业难题,竟然被港科广团队一招破解了! 团队最新提出的MultiGO创新方案,借助分层建模思路——将人体分解为不同精度层级,从基础体型到衣物褶皱逐级细化。 这有点像在搭乐高积木:先大模块构建整体轮廓,再用小零件补充细节,最后再处理材质纹理。
5/6/2025 8:50:00 AM
首个移动端 AI 组件库正式发布!并宣布开源啦!
前言大家好,我是林三心,用最通俗易懂的话讲最难的知识点是我的座右铭,基础是进阶的前提是我的初心~ChatUI 3.0 的发布引入了许多新的特性和组件,旨在提升智能对话机器人的设计和开发效率。 以下是一些关键点和功能亮点:图片核心优化图片自然: 致力于提升对话的自然流畅性,让用户的互动体验更加亲切高效: 通过新组件的引入,增强了开发效率,减少了开发时间沉浸: 提升了视觉与互动体验,使用户能更沉浸于对话中图片新增组件图片Typing 组件: 用于展示服务端处理中的状态,缓解用户等待时的焦虑感,提升用户体验。 TypingBubble 组件: 将气泡内容呈现为打字效果,模拟人类输入的过程,增加互动感。
5/6/2025 8:46:33 AM
林三心不学挖掘机
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的Perception-R1(PR1),在视觉推理中最基础的感知层面,探究rule-based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的纯视觉(计数,通用目标检测)以及视觉语言(grounding,OCR)任务,实验结果展现出在模型感知策略上的巨大潜力。
5/6/2025 8:40:00 AM
量子位
一文读懂到底什么是“模型蒸馏(Model Distillation)”技术?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的模型优化技术——模型蒸馏(Model Distillation)。 随着人工智能技术的高速发展,模型规模的不断扩大(如 GPT-4 的万亿参数)带来了性能的显著提升,但也伴随着高昂的计算成本和部署挑战,尤其在资源受限的边缘设备和实时系统中。 如何在保持模型性能的同时降低资源消耗,成为 AI 领域亟待解决的关键问题。
5/6/2025 8:35:00 AM
Luga Lee
使用Llama 4和AutoGen构建一个AI智能体
译者 | 布加迪审校 | 重楼Meta的Llama 4 系列模型目前正主导不断发展的AI世界。 这些模型凭借原生的多模态功能,正在彻底改变我们构建智能系统的方式。 当Llama 4与AutoGen结合使用时,它将充分发掘构建动态、响应迅速且强大的AI智能体的潜力。
5/6/2025 8:23:56 AM
布加迪
尤雨溪:让 AI 更好的理解 Vue、Vite
尤雨溪今天宣布 Vue、Vite 和 Rolldown 项目都加上了 llms.txt 文件。 这是为了让大型语言模型 (LLM) 更方便地理解这些前端技术。 那这个 llms.txt 到底是什么?
5/6/2025 3:30:00 AM
前端充电宝
AI 正在改变前端开发:前端使用 AI 现状!
“State of JS”、“State of CSS”、“State of React”等开发者调查组织,近期推出了全新的 State of AI 调查,旨在全面了解 Web 开发领域对 AI 工具和技术的采用现状与痛点。 本文将围绕调查中的五大主题,简要呈现核心发现。 AI 大模型ChatGPT 以绝对优势领跑,使用率达 86%;紧随其后的是 Anthropic 的 Claude。
5/6/2025 2:40:00 AM
前端充电宝
68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
大模型竞技场的可信度,再次被锤。 最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。 图片它指出,如今被视为LLM领域首选排行榜的Chatbot Arena,存在诸多系统问题。
5/6/2025 1:45:00 AM
资讯热榜
AI时代设计师如何突围?D20峰会揭示未来设计师生存法则
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
DeepRare 重磅发布:全球首个可循证智能体诊断系统,直击医学Last Exam难题
考试提分新工具:网页版 ChatGPT 测试“学习和掌握”功能,AI 助你成学霸
我测试了100+案例,教你零基础复刻外网刷屏的 AI 视频(附提示词模板)
MinerU 2.0部署教程!
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
终结Coding?ShellAgent三句话造出马斯克同款「AI女友」!
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Agent
Sora
AI视频
GPU
百度
AI设计
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
神器推荐
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA