AI在线 AI在线

开源

今晚19点|2GPU+2CPU微调超大模型,带你上手开源KTransformers

视点 发自 凹非寺. 量子位|公众号 QbitAI2GPU 2CPU就可以在本地微调自己的DeepSeek 671B / Kimi K2 1TB超大模型了。 这就是前两天量子位介绍的明星开源项目KTransformers,吸引了很多伙伴的关注。
11/11/2025 5:03:01 PM
林樾

Cursor“自研”模型套壳国产开源?网友:毕竟好用又便宜

美国顶流AI产品“套壳”中国开源大模型,这事儿上“热搜”了(doge)。 𝕏网友都在感叹:大家都认为中国大模型正在迎头赶上。 不,它们已经赶上了。
11/3/2025 8:52:00 AM

开源Agent编程模型MiniMax M2,性价比之王

开源模型之王易主,不过还是国产模型! 行业评测里,它在 Artificial Analysis 榜单综合进入全球前五、开源模型第一梯队,重点在编程、工具使用、深度搜索这些 Agent 核心能力上表现亮眼。 MiniMax 刚发布并开源M2模型,它采用稀疏 MoE 架构,总参数 230B,但推理时仅激活约 10B,这意味着在保持高性能的同时,把算力开销和延迟压下来了。
10/31/2025 9:07:24 AM
阿丸笔记

世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana

最新最强的开源原生多模态世界模型——北京智源人工智能研究院(BAAI)的悟界·Emu3.5来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。 先感受一下它的高精度操作:一句话消除手写痕迹。
10/31/2025 8:50:00 AM

OpenAI 再出开源力作 Safeguard 模型:可完整展示 AI“思维链”,强化内容分类能力

10 月 30 日消息,科技媒体 NeoWin 昨日(10 月 29 日)发布博文,报道称 OpenAI 公司推出 gpt-oss-safeguard-120b 和 gpt-oss-safeguard-20b 两款开源权重模型,专门用于根据用户提供的策略对内容进行推理、分类和标记。 这是继今年早些时候发布 gpt-oss 系列推理模型后,OpenAI 在开源领域的又一重要举措。 新模型是此前 gpt-oss 模型的微调版本,同样遵循宽松的 Apache 2.0 许可证,允许任何开发者免费使用、修改和商业部署。
10/30/2025 4:21:13 PM
故渊

DeepSeek-OCR:用视觉模态给长文本“瘦身”,大模型处理效率再突破

在大语言模型(LLMs)不断拓展能力边界的今天,长文本处理始终是道绕不开的坎——文本序列每增加一倍,计算量就可能翻四倍,像处理一本几十万字的书籍、一份上千页的金融报告时,内存溢出、推理卡顿成了常态。 但DeepSeek团队最近开源的DeepSeek-OCR模型,给出了一个全新解法:把文本“画”成图像,用视觉Token实现高效压缩。 原本需要1000个文本Token存储的内容,现在100个视觉Token就能搞定,还能保持97%的OCR精度。
10/30/2025 7:00:00 AM
Goldma

美团视频生成模型来了!一出手就是开源SOTA

美团,你是跨界上瘾了是吧! (doge)没错,最新开源SOTA视频模型,又是来自这家“送外卖”的公司。 模型名为LongCat-Video,参数13.6B,支持文生/图生视频,视频时长可达数分钟。
10/28/2025 8:40:00 AM

最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马!

编辑 | 听雨在AI快速进化的浪潮中,文字和图像的界限正在被重新定义。 那些能“看懂”文件、理解图表、读出语义的视觉语言模型(VLM),正在让传统OCR(光学字符识别)进入一个全新的智能阶段。 如果你还以为OCR只是“识字”的工具,那你可能错过了它真正的革命性变化。
10/24/2025 4:42:09 PM
听雨

李开复:美国在AI硬件赛道已败给中国!中国AI算力将是美国十倍!警告AI速度失控:先上车再修路,将酿成重大事故!

编辑 | 云昭在旧金山TED AI大会上,创新工场董事长、AI科学家李开复通过视频连线发表演讲,罕见地直言:“在AI硬件和机器人制造方面,美国正在被中国超越。 ”李表示,这一点也不夸张。 在AI硬件与机器人赛道,中国的领先正在成为事实。
10/24/2025 12:45:11 PM
云昭

谷歌痛失王座?港科大贾佳亚团队DreamOmni2开源,超强P图暴击Nano Banana

AI图像模型杀疯了! 年初,GPT-4o引爆了一股「吉卜力」热潮。 最近,全网更是玩疯了Nano Banana生成的3D手办。
10/23/2025 12:41:13 PM

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

这不巧了吗……智谱和DeepSeek,又双叒撞车了。 太卷了,DeepSeek-OCR刚发布不到一天,智谱就开源了自家的视觉Token方案——Glyph。 既然是同台对垒,那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下:或许你也会对我们的工作感兴趣。
10/23/2025 8:55:04 AM

中国首个AI开源后端平台,让前端开发彻底“自给自足”了!

AI 只写一半应用这几年,AI Coding 工具的发展实在是太快了,你随便丢给它一个复杂的需求,它就能迅速拆分成一个个任务,生成漂亮的界面,着实是让人震惊不已。 但是深入观察一下就会发现,那只是“一半的应用”:只有前端代码,没有后端,界面漂亮,数据却是假的。 原因很简单,后端要涉及数据库、API、服务器等复杂环境,要想让AI完全自动生成、集成、部署,难度极高。
10/22/2025 3:48:46 PM
刘欣

文本已死,视觉当立!Karpathy狂赞DeepSeek新模型,终结分词器时代

DeepSeek再次让全世界大吃一惊! 他们最新成果DeepSeek-OCR,从根本上改变了游戏规则——文本并非通用的输入。 反而,视觉将取而代之!
10/22/2025 9:01:31 AM

告别「偏科」,UniVid实现视频理解与生成一体化

在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。 而最近,一个开源项目 UniVid,提出了一个「融合」方向:把理解 生成融为一体 —— 他们希望用一个统一的模型,兼顾「看懂视频」 「生成视频」的能力。 这就像把「看图识物」和「画图创作」两件事,交给同一个大脑去做:理解一段文字 理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战极大。
10/21/2025 8:57:00 AM

Nature点赞!哈佛MIT最新作:AI科学家时代来了

随着近期大模型和智能体的飞速发展,这条路径正在通向一种全新的阶段:「AI科学家」。 在AI赋能科研的前沿,我们正见证一个重要的里程碑:从证明AI智能体「能否」解决特定科学问题,转向思考如何让它「高效、可靠、规模化」地参与整个研究过程。 Nature近期发布的新闻解析, 报道了由哈佛大学Marinka Zitnik和高尚华团队与MIT发布的首款大规模工具开源框架ToolUniverse。
10/20/2025 5:06:19 PM

英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛

IOI(国际信息学奥林匹克)是全球中学生算法编程竞赛的最高殿堂,每年只有不到10%选手能拿到金牌。 比赛要求选手在两天内各5小时独立解决3道高难度算法题,全程断网、不能借助外部资料,每题最多允许50次提交尝试。 要拿金牌,既要有过硬的算法思维,又得策略得当、在有限提交内调优代码。
10/20/2025 9:10:00 AM

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 文字交互」处理多样任务而备受关注。 然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。 相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。
10/20/2025 9:09:00 AM

开源模型TOP5,被中国厂商包圆了

鱼羊 发自 凹非寺. 量子位 | 公众号 QbitAI开源大模型,进入中国时间。 10月,公开数据显示,来自中国的开源大模型已经牢牢占据榜单前五。
10/15/2025 4:37:33 PM
鱼羊