模型

比英伟达工程师还熟练！DeepSeek R1+测试时Scaling自动优化GPU内核

本周英伟达的一篇技术博客引发了业界震动！英伟达的团队尝试利用DeepSeek-R1和推理时扩展实现GPU内核生成自动化，效果极佳。随着AI模型的扩展，推理时扩展（inference-time scaling），也叫测试时扩展（test-time scaling）正闪亮登场。

2/17/2025 9:10:00 AM 新智元

全球AI算力报告出炉，LLM最爱A100！谷歌坐拥超100万H100等效算力

AI的物质基础是机器学习硬件，例如图形处理单元（GPU）和张量处理单元（TPU）。据不完全统计，目前全球超过140款AI加速器，用于开发和部署深度学习时代的机器学习模型。 Epoch AI带来了全球算力的估计报告，利用公开信息估计了全球机器学习硬件的现状和趋势。

2/17/2025 9:06:00 AM 新智元

刚刚，DeepSeek揭秘R1官方同款部署设置，温度=0.6！OpenAI推理指南同时上线

同一天内，DeepSeek和OpenAI都发布了推理模型使用指南！ DeepSeek的X账号迎来久违的更新：发布了官方版本，教大家如何部署DeepSeek-R1的设置。最佳方法如下——不使用系统提示采样温度：0.6针对文件上传和网络搜索功能定制prompt每次输出时都以think\n开始，以防模型跳过思考过程注意，官方部署DeepSeek，使用的是跟开源版本完全相同的模型。

2/17/2025 8:37:00 AM 新智元

Perplexity免费推出Deep Research：性能超过R1、o3-mini等，CEO：感谢DeepSeek

AI搜索“老大哥”Perplexity，刚刚也推出了自家的Deep Research——随便给个话题，就能生成有深度的研究报告。先来划个重点：免费向所有人开放！具体来说，非订阅用户每天最多可查询5次，Pro用户每天可查询500次。

2/17/2025 8:12:00 AM 量子位

DeepSeek 系列模型详解之 DeepSeek Math

DeepSeek Math发布于2024年2月，虽然是一个7B参数量的模型，但在Math基准榜单上的表现却超过了多个30B~70B参数量的开源模型。一、技术亮点1. 数据集使用Common Crawl提取的120B(1200亿个)高质量数学网页数据(具体包括与数学相关的token，以及自然语言和代码数据等)，总数据量是开源数据集OpenWebMath的9倍。

2/17/2025 8:00:00 AM 小喵

DeepSeek官方发布R1模型推荐设置，这才是正确用法

自春节以来，DeepSeek 就一直是 AI 领域最热门的关键词，甚至可能没有之一，其官方 App 成为了史上最快突破 3000 万日活的应用。最近一段时间，各家 AI 或云服务厂商更是掀起了部署 DeepSeek-R1 服务的狂潮，甚至让薅羊毛的用户们都有点忙不过来了。就在刚刚，DeepSeek 官网 X 帐号终于更新了（上一次更新还是在 1 月 28 日），官方下场推荐了部署 DeepSeek-R1 的设置。

2/17/2025 7:35:00 AM 机器之心

首个AI儿科医生“上岗” 与13位儿科专家共同完成疑难病例会诊

2025年2月13日，国家儿童医学中心首都医科大学附属北京儿童医院开展了国内首次“AI儿科医生多学科专家”的双医并行多学科会诊。在此次特殊的多学科会诊中，不仅有包括倪鑫院长在内的，来自耳鼻咽喉头颈外科，肿瘤外科，肿瘤内科，神经外科，神经内科，精神科，感染内科，免疫科，骨科，医学影像中心，超声科，放疗科和口腔科等科室的13位知名专家。还有一位引人瞩目的特殊专家——由北京儿童医院与百川智能、小儿方健康科技联合研发，以Baichuan M1大模型为底座打造的“AI儿科医生”！

2/14/2025 6:24:25 PM

模型过剩危机：OpenAI壮士断腕，能否终结开发者'选择恐惧症'？

OpenAI要“动手”了，它计划对自己的模型产品阵容来一场大“瘦身”!就在它准备推出最后一个非推理模型GPT-4.5之际，这家科技巨头罕见地承认，之前的产品发布在客户眼里竟然没啥区别，这让市场有点懵。 OpenAI的首席执行官萨姆·奥特曼最近在X平台上更新了产品路线图，他坦诚地说，公司最近的一些发布确实让市场感到有点困惑。 “我们得把预定路线图分享得更清楚，还得在产品阵容简化上多下点功夫。

2/14/2025 11:25:45 AM Emilia David

1秒锁定7500万债务黑洞，OpenAI o系列模型7大实际应用案例

今早5点，OpenAI分享了o系列模型的7大实际应用场景，包括处理模糊任务、从海量信息中提取关键信息、复杂文档推理与决策、多流程AIAgent、视觉推理、代码审查以及性能评估。在这些实际案例中，一家金融分析平台通过o系列模型成功找出了影响收购的关键变更条款，帮助公司节省了7500万美元。此外，还解读了o系列推理模型与效率型GPT系列模型的区别，帮助你在实际应用中该如何高效选择这两种模型。

2/14/2025 10:44:13 AM AIGC开放社区

DeepSeek数学大翻车？普林斯顿谷歌锤爆LLM：做题不会推理，全靠死记硬背

破案了！就在刚刚，来自普林斯顿和谷歌的研究者发现——大模型做数学题，不是靠推理，而是靠从训练集里记下的解题技巧！论文地址：「未解之谜」一直困扰着不少业内人士：在数学上，LLM到底是学会了举一反三，还是只是学会了背题？

2/14/2025 10:23:00 AM 新智元

直逼DeepSeek-R1-32B，碾压李飞飞s1！UC伯克利等开源全新SOTA推理模型

32B推理模型，仅用1/8数据，与同尺寸DeepSeek-R1打成平手！就在刚刚，来自斯坦福、UC伯克利、华盛顿大学等机构联手发布了一款SOTA级推理模型——OpenThinker-32B，并同时开源了高达114k的训练数据。项目主页： Face：：：采用经DeepSeek-R1验证标注（基于R1蒸馏）的大规模优质数据集，便可训练出SOTA的推理模型。

2/14/2025 9:20:00 AM 新智元

打破纪录！谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

史上最大规模视觉语言数据集：1000亿图像-文本对！较此前纪录扩大10倍。这就是由谷歌推出的最新数据集WebLI-100B。

2/14/2025 9:17:00 AM 量子位

文心一言全面免费了，深度搜索功能同时上线，第一手实测在此

一天内，OpenAI、百度两家AI大厂同时打出免费牌！几天前被爆出文心5.0消息后，今天百度突然宣布：文心一言将于4月1日零时起，全面免费！所有PC端和APP端用户均可体验文心系列最新模型。

2/14/2025 9:12:00 AM 量子位

超详细，DeepSeep 接入PyCharm实现AI编程！（支持本地部署DeepSeek及官方DeepSeek接入），建议收藏！

在当今数字化时代，AI编程助手已成为提升开发效率的利器。 DeepSeek作为一款强大的AI模型，凭借其出色的性能和开源免费的优势，成为许多开发者的首选。今天，就让我们一起探索如何将DeepSeek接入PyCharm，实现高效、智能的AI编程。

2/14/2025 9:10:47 AM 狂师

本想去谷歌捞一笔就跑，却成了改变AI历史的人｜Transformer作者对话Jeff Dean

谷歌两位大佬回应一切：从PageRank到AGI的25年。现任首席科学家Jeff Dean、出走又回归的Transformer作者Noam Shazeer，与知名播客主持人Dwarkesh Patel展开对谈。视频刚发几个小时，就有20万网友在线围观。

2/14/2025 8:40:00 AM 量子位

o3斩获IOI金牌冲榜全球TOP 18，自学碾压顶尖程序员！48页技术报告公布

几天前，谷歌AlphaGeometry 2拿下IMO金牌，震惊了所有人。这次，o3在IOI 2024竞赛中取得惊人的394分（满分600），一举夺得金牌，实力相当于全球第18名赛级选手。不仅如此，在世界级编程竞赛CodeForces上，o3位居全球Top 200之列，堪比人类顶尖程序员。

2/14/2025 8:30:00 AM 新智元

一文带你看懂开源大模型基石LLaMA核心技术点，DeepSeek/千问等LLM的模型结构基础

LLaMA是目前很多SOTA开源大模型的基础，包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。因此，LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。这篇文章就给大家汇总一下LLaMA的核心模型结构。

2/14/2025 1:00:00 AM Fareise

手把手教你找免费AI服务：搜公开的DeepSeek模型接口

网上很多教程教你怎么自己搭 AI 模型，但今天我要教大家一个野路子——用搜索引擎直接找别人已经搭好的 AI（Ollama）服务（前提是合法使用）。就像有人忘记关 Wi-Fi，我教你怎么发现这些"公共资源"。一、用 Fofa 找公开的 AI 服务Fofa 是什么？

2/14/2025 12:00:00 AM wayn

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉