AI在线 AI在线

开源

重磅!Thinking Machines开山之作:大模型输出随机的根本原因被揪出,并开源终结方案

要理解AI,先要理解它何以不确定,由OpenAI前CTO Mira Murati创办的Thinking Machines 开山之作来了,刚刚,Thinking Machines Lab 宣布正式上线技术研究博客:连接主义。 开篇就是万字技术雄文《击败LLM推理中的非确定性(Defeating Nondeterminism in LLM Inference)》。 为什么叫“连接主义”?
9/11/2025 9:04:00 AM

首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

数据智能体到底好不好用? 测评一下就知道了! 南洋理工大学、新加坡国立大学携手华为开源推出首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试FDABench。
9/10/2025 6:03:16 PM

快慢思考不用二选一!华为开源7B模型实现自由切,精度不变思维链减近50%

国产自研开源模型,让模型不用在快思考和慢思考间二选一了! 华为最新发布openPangu-Embedded-7B-v1.1,参数只有7B,却身怀双重“思维引擎”。 要知道,长期以来,大模型快思考与慢思考模式不可兼得,这成为业界的一大痛点。
9/10/2025 6:01:33 PM

Transformer作者:DeepSeek才有搞头,OpenAI指望不上了

“闭源人工智能在阻碍我们探索真正的科学。 ”说这句话的不是别人,是大名鼎鼎的Transformer发明者——Ashish Vaswani。 大佬之所以这么说,是因为他觉得OpenAI等闭源厂商被商业化冲昏了头脑,没心思做基础研究。
9/10/2025 9:08:00 AM

字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持

图像生成中的多指标一致性问题,被字节团队解决了! 字节UXO团队设计并开源了统一框架USO,让看上去不关联的任务相互促进,实现风格迁移和主体保持单任务和组合任务的SOTA。 USO通过单一框架能统一之前那些看似孤立的任务包括主体、身份保持和风格化编辑,参考图风格迁移,同时保持主体和风格参考,甚至更抽象复杂的多风格迁移,是实打实的六边形战士。
9/5/2025 9:07:00 AM

美团 LongCat-Flash 这个5600亿参数的懒AI,竟然比勤奋的模型跑得更快?

昨天晚上刷朋友圈,看到一个做AI的朋友发了条动态:"我们公司又烧了几百万训练大模型,结果推理速度还是慢得像老牛拉车。 "下面一堆同行在评论区哭穷,说什么GPU成本太高、训练时间太长、推理延迟要命。 正当大家集体吐槽的时候,美团悄悄放了个大招——LongCat-Flash。
9/4/2025 12:16:47 PM
大数据AI智能圈

智谱开源GLM-4.5工具调用超越Claude Opus 4.1,成本仅1.4%

在对手最擅长的地方打败对手,智谱做到了。 开源模型GLM-4.5在伯克利工具使用榜单上超越Claude Opus 4.1,运行相同任务成本仅为1.4%。 抢在GPT-5之前发布的融合大模型GLM-4.5,以其在前端开发、跨文件修改、全栈项目构建等场景中的卓越表现受到不少关注。
9/2/2025 10:14:35 AM

美团首个开源大模型正式发布!LongCat-Flash-Chat能否撼动AI格局?

美团正式发布并开源了自己的首个大语言模型——LongCat-Flash-Chat。 说实话,这个消息让我挺意外的。 美团,这个我们天天用来点外卖、叫车的平台,突然宣布要在AI大模型领域正面挑战OpenAI、Anthropic这些巨头。
9/2/2025 10:05:33 AM
阿丸笔记

腾讯开源WMT2025冠军大模型:拿下30个第一,同类最佳

昨晚,腾讯开源了2025年世界机器翻译大会(WMT2025)上斩获佳绩的翻译大模型Hunyuan-MT-7B。 根据比赛成绩显示,Hunyuan-MT-7B在中文、英文、法语、德语、马拉地语、爱沙尼亚语、冰岛语、芬兰语、匈牙利语、罗马尼亚语、波斯语、印地语、孟加拉语、泰米尔语、乌尔都语、僧伽罗语等31种主流、小众语言测试中,拿下30个语种第一。 Hunyuan-MT-7B在面对不同语言的复杂语法规则、独特词汇体系以及丰富文化内涵时, 均展现出强大的适应能力与翻译水准,成为同类最佳开源模型。
9/2/2025 9:02:08 AM

Google开源框架LangExtract初体验

从AI技术维度分类,大约可以将LangExtract归为RAG框架,但从细处分辨,二者实有比较明显的区别。 RAG的关注重点是检索,LangExtract的重点则如其名,是对数据的提取,且主要针对非结构化文本数据进行结构化提取。 LangExtract官网对它的介绍为:“一个使用大语言模型从非结构化文本中提取结构化信息的 Python 库,具备精确的源定位和交互式可视化功能。
9/2/2025 2:53:00 AM
张逸少

王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1

没想到啊,最新SOTA的开源大模型……来自一个送外卖(Waimai)的——有两个AI,确实不一样。 这个最新开源模型叫:Longcat-Flash-Chat,美团第一个开源大模型,发布即开源,已经在海内外的技术圈子里火爆热议了。 一方面是因为成绩亮眼:它在部分benchmark上,比如Agent工具调用、指令遵循的表现超过DeepSeek-V3.1、Qwen3 MoE-2507,甚至比闭源的Claude4 Sonnet还要好。
9/1/2025 2:22:03 PM

更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作

最新开源多模态智能体,能自动操作手机、电脑、浏览器的那种! 开源评测榜单和中文场景交互成绩全面提升。 比如让它播放一首歌,它就能自己找到对应软件、找到对应歌手、选择歌曲,像人类一样点击、滑动、输入。
9/1/2025 8:52:00 AM

谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%

昨晚,神秘且强大的图像生成与编辑模型 nano banana 终于正式显露真身。 没有意外,它果然来自谷歌,并且也获得了一个正式但无趣的名字:gemini-2.5-flash-image-preview。 据介绍,该模型具有「SOTA 的图像生成与编辑能力、惊人的角色一致性以及闪电般的速度」。
8/27/2025 9:25:00 AM

最新智能体自动操作手机电脑,10个榜单开源SOTA全拿下|通义实验室

能自动操作手机、电脑的智能体新SOTA来了。 通义实验室推出Mobile-Agent-v3智能体框架,在手机端和电脑端的多个核心榜单上均取得开源最佳。 它不仅能做交互界面的问答、描述、定位,也能一条指令独立完成复杂任务,甚至可以在多智能体框架中无缝扮演不同角色。
8/26/2025 9:08:00 AM

马斯克掀桌子了,最强开源大模型诞生!Grok-2近万亿参数性能首曝

什么? 马斯克终于开源了Grok-2! 一大早,xAI正式官宣,向所有人开源Grok-2!
8/25/2025 9:10:00 AM

刚刚,马斯克开源Grok 2.5:中国公司才是xAI最大对手

就在刚刚,马斯克一手开源动作,引发了大伙儿的高度关注——xAI现在正式开源Grok 2.5,Grok 3将在半年后开源。 其实早在本月初的时候,马斯克就公开表示过:是时候开源Grok了,将会在下周。 虽然开源的时间已经超过了他说的节点,但也正如网友所说:迟到总比没有的好。
8/25/2025 8:54:00 AM

比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!

如何让模型在思考时更聪明、更高效,还能对答案有把握? 最近,Meta AI与加州大学圣地亚哥分校的研究团队给出了一个令人振奋的答案——Deep Think with Confidence(DeepConf),让模型自信的深度思考。 论文地址::「置信度筛选」,不仅让模型在国际顶尖数学竞赛AIME 2025上拿下了高达99.9%的正确率。
8/25/2025 8:53:00 AM

AIBrix v0.4.0 发布:P/D 解耦与专家并行支持、KVCache v1 连接器、KV 事件同步与多引擎支持

AIBrix项目作为大模型推理的可扩展且高性价比的技术方案,项目于2025 年 2 月 21 日正式开源,并通过vLLM 官方博客官宣,为 vLLM 推理引擎提供可扩展且高性价比的控制面。 开源 72 小时内,AIBrix 收获的 GitHub Star 数已超 1K,96 小时突破 2K;开源一周左右,AIBrix 保持在 GitHub trending[1]榜第一的位置。 目前 GitHub Star 已超过 4K,贡献者超过 70 人。
8/21/2025 9:02:56 AM
AIBrix团队