AI在线 AI在线

开源

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2

长视频理解是多模态大模型关键能力之一。 尽管 OpenAI GPT-4o、Google Gemini 等私有模型已在该领域取得显著进展,当前的开源模型在效果、计算开销和运行效率等方面仍存在明显短板。 近日,智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型:Video-XL-2。
6/3/2025 2:15:33 PM
陶哲轩转发!DeepMind开源「AI数学证明标准习题集」

陶哲轩转发!DeepMind开源「AI数学证明标准习题集」

陶哲轩转发,AI搞数学证明的标准习题集来了! DeepMind最新开源形式化数学猜想库——猜想库收录了经典的形式化表述的数学猜想集合,例如,解析数论中的四个朗道问题。 不仅如此,资源库中还提供了各种代码函数,以方便用户对自然语言的数学猜想进行形式化的表述。
6/3/2025 8:15:00 AM
Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

Anthropic 开源“思维追踪”工具,可视化揭秘 AI 内部逻辑

Anthropic 昨日(5 月 29 日)发布博文,宣布推出“电路追踪”(Circuit Tracer)开源工具,以图形化方式,追踪并展示 AI 大语言模型的内部思维过程。
5/30/2025 2:36:15 PM 故渊
Hugging Face进军人形机器人市场:推出售价3000美元的开源机器人HopeJR

Hugging Face进军人形机器人市场:推出售价3000美元的开源机器人HopeJR

人工智能开发平台Hugging Face周四正式进军机器人硬件领域,发布了两款开源人形机器人产品,旨在打破大型科技公司对机器人技术的垄断。 两款新品各有特色该公司推出的两款机器人分别针对不同应用场景:HopeJR是一款全尺寸人形机器人,配备66个驱动自由度,具备完整的行走和手臂操作能力;Reachy Mini则是一款桌面级机器人,专注于头部运动、语音交互和AI应用测试。 在定价方面,HopeJR预计售价约3000美元,而Reachy Mini的价格区间为250-300美元,具体价格将根据关税情况调整。
5/30/2025 10:01:14 AM AI在线
Anthropic重磅开源!“电路追踪”工具解锁AI大脑,揭秘大模型决策全过程

Anthropic重磅开源!“电路追踪”工具解锁AI大脑,揭秘大模型决策全过程

近年来,大语言模型(LLM)的快速发展为人工智能领域带来了前所未有的突破,但其内部决策过程却常常被视为“黑盒子”,难以捉摸。 5月29日,AI研究领域的明星公司Anthropic发布了一项重大开源成果——“电路追踪”(Circuit Tracing)工具,为破解大模型的内部工作机制提供了全新视角。 这一工具不仅能帮助研究人员深入探索AI的“思考”过程,还为推动更透明、可控的AI发展迈出了重要一步。
5/30/2025 10:01:14 AM AI在线
135 个项目、七大趋势、三大赛道:撕开大模型开源生态真相,你会怎么卷?

135 个项目、七大趋势、三大赛道:撕开大模型开源生态真相,你会怎么卷?

在微软 Build、谷歌 I/O、 Code with Claude 三大开发者大会接连登场的一周里,微软为 Windows 加装模型上下文协议(MCP),Google Gemini 野心初显「AI 操作系统」,Claude 4.0 高调抢滩编程主战场。 就在这样的节奏下,5 月 27 日,蚂蚁集团的开源团队「接棒」发布了一张《 2025 大模型开源开发生态全景图》。 访问地址::——135 个社区核心项目、19 个技术领域,全面覆盖从智能体应用到模型基建,系统性梳理了开源力量在大模型浪潮下的集结与演化路径。
5/30/2025 9:07:00 AM
Linear-MoE:线性注意力遇上混合专家的开源实践

Linear-MoE:线性注意力遇上混合专家的开源实践

近年来随着大语言模型的爆火,旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点,主要包括线性序列建模(如 Linear Attention、SSM、Linear RNN 等)和混合专家(Mixture-of-Experts, MoE)两部分。 这两部分分别都有了长足的进步,但两者的结合却鲜少有人研究,两者结合后的 Linear-MoE 架构开源实现更是完全缺失。 值得一提的是,近期广受好评的 MiniMax-01 模型(使用 Lightning Attention-MoE)和腾讯混元 TurboS 模型(使用 Mamba2-MoE)均属于 Linear-MoE 架构。
5/30/2025 9:06:00 AM
蚂蚁集团开源Ming-lite-omni:首个媲美GPT-4o的开源多模态模型

蚂蚁集团开源Ming-lite-omni:首个媲美GPT-4o的开源多模态模型

蚂蚁集团旗下百灵大模型团队在近期蚂蚁技术日上宣布重大决定:将统一多模态大模型Ming-lite-omni进行全面开源。 这一举措不仅标志着蚂蚁集团在AI领域的又一次重大开放,更被业界视为首个在模态支持方面能够与GPT-4o相媲美的开源模型。 220亿参数的技术突破Ming-lite-omni基于Ling-lite构建,采用先进的MoE(专家混合)架构,拥有220亿总参数和30亿激活参数的强大配置。
5/29/2025 4:00:54 PM AI在线
准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究! 来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。 该研究已被 ACL 2025 录用。
5/29/2025 9:18:20 AM
刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了

刚刚,新版DeepSeek-R1正式开源!直逼o3编程强到离谱,一手实测来了

就在今天凌晨,新版DeepSeek-R1正式开源了! DeepSeek-R1-0528模型权重已上传到HuggingFace,不过模型卡暂未更新。 项目地址:,DeepSeek-R1完成了超进化,编码能力强到离谱,而且思考时间更长了。
5/29/2025 9:04:51 AM
开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微

开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微

当前的大模型开发生态,被一份报告、完整全景图谱讲清楚了。 就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者,几乎研究好这份报告可能就够了。 但这还不够,在报告出炉之前的周末,蚂蚁还发布了2025大模型开源生态全景图,涵盖19个技术领域、135个项目,进一步给出了大模型开发生态的参考系。
5/29/2025 8:58:08 AM
告别手写代码!十款开源 AI 工具,截图秒变可运行代码(附 GitHub 地址)

告别手写代码!十款开源 AI 工具,截图秒变可运行代码(附 GitHub 地址)

今年一直在学习和研究AI,也做了很多高价值AI开源项目的总结,今天就和大家分享11款通过截图(图片)生成代码的开源项目和工具,帮助大家提高编码效率。 Screenshot to Code图片它能够将设计图中的截图自动转化为代码片段,主要用于网页和应用界面的开发。 支持的技术栈包括 HTML Tailwind、React Tailwind、Vue Tailwind、Bootstrap、Ionic Tailwind、SVG 等。
5/29/2025 5:00:10 AM 趣谈AI
MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

MiniMax开源首个视觉RL统一框架,闫俊杰领衔!推理感知两手抓,性能横扫MEGA-Bench

仅需一个强化学习(RL)框架,就能实现视觉任务大统一? 现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要! 最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。
5/28/2025 11:55:56 AM
开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。 第一作者张哲昕为清华大学直博三年级学生,研究方向为大模型安全,主要合作者为孙玉豪,来自墨尔本大学,主要指导教师为清华大学王宏宁副教授与黄民烈教授。 基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。
5/28/2025 11:46:18 AM
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜

阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜

推理大模型开卷新方向,阿里开源长文本深度思考模型QwenLong-L1,登上HuggingFace今日热门论文第二。 其32B参数版本超过OpenAI-o3-mini、Qwen3-235B-A22B等,取得与Claude-3.7-Sonnet-Thingking相当的性能。 除测评分数外,论文中还详细展示了一个金融文档推理的案例。
5/28/2025 9:09:00 AM
微软开源浏览器Agent,可实时跟踪、控制智能体,超4000颗星

微软开源浏览器Agent,可实时跟踪、控制智能体,超4000颗星

微软在官网开源了一个专用于浏览器网络任务的Agent——Magentic-UI。 Magentic-UI是基于微软曾经开源的 Magentic-One基础之上开发而成,并支持人机协同的控制方法来提升智能体的执行效率和准确率。 根据GAIA测试数据显示,当配备拥有辅助信息的模拟用户时,Magentic-UI 的任务完成率从自主模式下的30.3%提升至51.9%,准确率提高了71%。
5/27/2025 3:52:09 PM
FinRobot发布:多智能体AI革新金融分析,预测、策略与报告一键搞定!

FinRobot发布:多智能体AI革新金融分析,预测、策略与报告一键搞定!

人工智能正在金融领域掀起革命性变革!一款名为FinRobot的开源AI金融分析工具近期引发热议,凭借其多智能体协作系统和多模态数据处理能力,为交易预测、投资组合优化、报告生成及风险预警等金融需求提供了强大支持。 AIbase综合最新信息,为您深度解析FinRobot如何助力金融行业迈向智能化新时代。 多智能体协作,精准解析金融数据FinRobot的核心在于其多智能体协作系统,通过Financial Chain-of-Thought (CoT)技术,将复杂的金融问题分解为逻辑清晰的步骤,模拟人类分析师的推理过程。
5/26/2025 5:00:50 PM AI在线
字节开源Dolphin,高精度文档图像解析大模型,创新先分析后解析新范式

字节开源Dolphin,高精度文档图像解析大模型,创新先分析后解析新范式

在数字时代,从扫描文档、图片等非结构化数据中高效、准确地提取结构化信息,是人工智能领域长期面临的挑战。 无论是复杂的表格、交织的文本段落,还是难以识别的数学公式,都对文档解析技术提出了严苛要求。 传统的解决方案往往依赖于多个专业模型的串联,不仅集成成本高昂,还容易在处理过程中累积误差 。
5/26/2025 4:46:38 PM 贝塔街的万事屋