模型

Karpathy新实验火了！一个「表情」占53个token，DeepSeek-R1苦思10分解谜失败

一个😀，竟然要占用53个token？！最近，AI大佬Karpathy在X上分享了这一有趣现象。

2/13/2025 1:00:00 PM 新智元

DeepSeek 系列模型详解之——DeepSeek LLM

DeepSeek LLM发布于2024年1月，收集了2万亿个词元用于预训练，在模型层面沿用了LLaMA的架构，并将余弦退火学习率调度器替换为多阶段学习率调度器，便于持续训练。并从多种来源收集了超过100万个实例进行监督微调(SFT)。此外，利用直接偏好优化（DPO）技术进一步提升模型的对话能力。

2/13/2025 11:00:30 AM 小喵学AI

DeepSeek 私有部署最强指南：满血推理，异构多机分布式，国产显卡无缝支持！

还还在为DeepSeek模型部署的各种难题抓狂？各种教程的下载分片、合并模型、编译环境……这些繁琐的操作是不是让你头大？ DeepSeek R1 火了，私有部署需求暴增，教程满天飞，但实际操作起来却麻烦得要命！

2/13/2025 10:12:27 AM AI寒武纪

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

你以为你在打游戏，其实是在给模型做评测！就在两天前，由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」（AI空间逃脱），提供了一种与AI互动的独特体验。现在，你想要测试不同模型的性能对比，打着游戏就能把活儿给干了。

2/13/2025 10:00:00 AM 新智元

小红书&上交多模态大模型新基准，Gemini 1.5 Pro准确率仅48%

多模态大模型理解真实世界的水平到底如何？有新基准来衡量了。就在最近，小红书和上海交通大学联合提出WorldSense，一个全新的基准测试，用来评估多模态大模型（MLLMs）的多模态真实场景理解能力。

2/13/2025 9:40:00 AM 量子位

o3拿下IOI 2024金牌！新论文公布RL秘诀：AI自己设计测试时推理策略，无需人类干预

IOI 2024金牌，OpenAI o3轻松高分拿下！刚刚，OpenAI发布了关于推理模型在竞技编程中应用的研究论文报告，论文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具体成绩。三兄弟分别是OpenAI o1、o1-ioi（以o1为基础微调等改进而来）、o3，三者成绩如下。

2/13/2025 9:20:00 AM 量子位

OpenAI放王炸！GPT-5免费无限使用，产品矩阵大整合！

今天凌晨3点，OpenAI首席执行官Sam Altman公布了GPT-4.5和GPT-5的炸裂消息。 Altman表示，OpenAI很快发布GPT-4.5，就是传说中的猎户座模型（Orion），也是最后一个非思维链模型。接着会整合GPT和O系列两大模型打造一个全新的系统，能自动选择思考和非思考功能，适用于多种任务。

2/13/2025 9:15:00 AM AIGC开放社区

刚刚，奥特曼剧透GPT-4.5、GPT-5重大更新，o3取消独立发布

奥特曼深夜一则推文，在网络上掀起了讨论狂潮。没有一点点预告，奥特曼亲自公布自家产品路线图，并承认公司最近发布的一些产品有些混乱。推文透露，OpenAI 的下一步是发布 GPT-4.5，这是其最后一个非思维链 (CoT) 模型。

2/13/2025 9:10:47 AM 机器之心

几个免费使用 DeepSeek 的渠道，告别「服务器繁忙，请稍后再试」

在眼下这个时间点，AI 已经不是什么稀缺资源了，这当然和最近爆火的 DeepSeek 有很大关系，尤其春节那几天，无论是北上广还是小县城甚至农村，无论是985高材生还是村里的叔叔大爷，都用上了 AI 大模型，而且是能力排在第一梯队的大模型，也就是 DeepSeek-R1。之所以说在这以前，AI 还是稀缺资源，那是因为公认的第一梯队的大模型产品基本上都是国外的，而想要使用国外的产品，对于普通人来说，门槛还是非常高的。而国内虽然也有不少免费的产品，但是整体来说，还是差点意思的。

2/13/2025 12:10:00 AM 风筝

AI突破抗药性困境！山大团队融合潜在扩散模型与MD设计新型抗菌肽

编辑 | 2049世界卫生组织预测，到 2050 年，抗生素耐药性感染可能导致每年 1000 万人死亡，超越癌症成为人类健康的首要威胁。随着抗生素滥用导致的耐药性问题日益严重，开发新型抗菌药物已成为当务之急。在此背景下，抗菌肽（Antimicrobial Peptides，AMPs）因其广谱抗菌活性和低耐药性特征，被视为下一代抗感染药物的希望之星。

2/12/2025 5:38:00 PM ScienceAI

超越思维链？深度循环隐式推理引爆AI圈，LLM扩展有了新维度

不需要特殊训练数据，能处理语言难以形容的任务，3.5B 参数能实现 50B 的性能。这是一种全新的语言模型架构，能够通过使用循环语言模型在潜在空间中隐式推理，显著提升模型的计算效率，尤其是在需要复杂推理的任务上。近日，马里兰大学的一篇论文在 AI 研究社区中引发了关注，其提出的语言模型通过迭代循环块来工作，能在测试时展开到任意深度。

2/12/2025 2:22:00 PM 机器之心

DeepSeek并非完美，训练过程存在“深度诅咒”

高性能大模型在训练的过程中通常需要数千个GPU，耗费数月甚至更长时间才能完成一次训练。这种巨大的资源投入使得模型的每一层都必须高效训练，才能确保算力资源最大化利用。但大连理工、西湖大学、牛津大学等研究人员对DeepSeek、Qwen、Llama和Mistral研究发现，这些模型的深层在训练过程中表现并不好，甚至可以被完全剪枝而不会影响模型性能。

2/12/2025 1:42:25 PM AIGC开放社区

AI太强，验证码全失效？新南威尔士全新设计：GPT傻傻认不出，人类一致好评

验证码通过利用人类与机器的认知差异实现身份验证。传统的验证码方案主要依赖文本扭曲[1]、图像分类[2,3]或逻辑推理[4]来区分人类与机器，但随着多模态LLMs(Large Language Model)的发展[5]，这些方法逐渐失效，机器也能达到人类水平的认知。 GPT-4o对简单「文本验证码」的破解成功率超过90%，Gemini 1.5 Pro 2.0[6]能识别带噪声的「reCAPTCHA图像」（成功率50%）；LLMs在「推理验证码」上的表现较差（平均成功率20%），但人类用户的失败率也同样很高。

2/12/2025 1:37:56 PM 新智元

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

在最近的一篇论文中，来自字节跳动、北京大学等机构的研究者提出了 Sa2VA。市面上第一个结合 SAM-2 和 LLaVA-like 的视频多模态大模型，结合了 SAM-2 和 LLaVA 的优势，实现了时空细粒度的理解。论文地址：：地址：，研究者设计了一套统一的指令微调格式 (Instruction Tuning Pipeline)，整合了五种不同的任务，超过 20 个数据集一起进行联合训练。

2/12/2025 1:31:33 PM 机器之心

淘宝卖DeepSeek安装包一月赚数十万？？？我们免费教你本地部署DeepSeek-R1

当看到这条消息时，机器之心编辑部陷入了集体沉默。作为一个免费开源的模型，DeepSeek 竟能让倒卖商如此大赚特赚，也着实让人震惊。而这也从侧面佐证了 DeepSeek 模型引发的本地部署热潮是多么汹涌。

2/12/2025 1:23:47 PM 机器之心

8卡32B模型超越o1预览版、DeepSeek V3，普林斯顿、北大提出层次化RL推理新范式

一．引言推理大语言模型（LLM），如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等，通过模拟人类推理过程，在多个专业领域已超越人类专家，并通过延长推理时间提高准确性。推理模型的核心技术包括强化学习（Reinforcement Learning）和推理规模（Inference scaling）。主流的大模型强化学习算法，如 DPO、PPO、GRPO 等，通常需要在完整的思维链上进行微调，需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。

2/12/2025 12:04:54 PM 机器之心

全球首个「视频教学」基准！南洋理工、CMU发布Video-MMMU

想象一下，你正在观看吴恩达老师的机器学习课程，视频讲解清晰、动画直观，你很快掌握了核心概念，并能在考试中灵活应用，人类对这个过程再熟悉不过。那么，如果AI也能这样学习呢？图1 Video-MMMU提出知识获取的3大认知阶段这正是Video-MMMU试图回答的核心问题：AI能否通过观看视频获取并应用知识？

2/12/2025 10:12:00 AM 新智元

Claude团队：用400万条对话分析AI对经济的长期影响

基于400万条Claude真实对话数据，Anthropic重磅发布全新报告！在今天，哪些职业用AI最多？他们都用AI干什么？

2/12/2025 9:10:00 AM 量子位

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉