模型
DeepSeek冲击(含本地化部署实践)
DeepSeek无疑是春节档最火爆的话题,上线不足一月,其全球累计下载量已达4000万,反超ChatGPT成为全球增长最快的AI应用,并且完全开源。 那么究竟DeepSeek有什么魔力,能够让大家趋之若鹜,他又将怎样改变世界AI格局和我们的生活,本篇文章将进行简要解析。 DeepSeek与ChatGPT对比说到人工智能就不得不提OpenAI和ChatGPT,这是绕不开的话题,要分析DeepSeek的实力,最简单的方式就是跟ChatGPT进行对比。
2/18/2025 12:04:00 AM
姜海
DeepSeek团队新作:把代码变成思维链,大模型推理各种能力全面提升
用代码训练大模型思考,其他方面的推理能力也能提升。 DeepSeek团队最新研究,利用300多万个实例,将代码转换成思考过程,构建出数据集CODEI/O,对Qwen、Llama等模型进行了训练。 结果,在各种类型的推理任务当中,模型性能都取得了全面提升,包括在非代码类的推理任务上,也展现出了良好的迁移能力。
2/17/2025 2:43:51 PM
量子位
LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞
如今,DeepSeek团队成员的一举一动,都颇受圈内关注。 近日,来自DeepSeek、上海交通大学、香港科技大学的研究人员推出的全新力作CODEI/O,就获得了Ai2大牛Nathan Lambert的力荐! 论文地址::,非常高兴能看到DeepSeek团队成员撰写的更多论文,而不仅仅是有趣的技术报告。
2/17/2025 2:34:52 PM
新智元
反超DeepSeek!新版GPT-4o登顶竞技场,奥特曼:还会更好
GPT-4o悄悄更新版本,在大模型竞技场超越DeepSeek-R1登上并列第一。 除了数学(第6),还在多个单项上拿下第一:创意写作;编程;指令遵循;长文本查询;多轮对话;先直观看下新版GPT-4o的能力如何,还是以之前DeepSeek-R1和o3-mini都挑战过的一个例子来看。 Prompt:编写一个Python程序,展示一个球在旋转的六边形内弹跳。
2/17/2025 12:24:43 PM
量子位
DeepSeek-R1下载量超1000万次,成最受欢迎开源大模型!
全球最大开源平台Hugging Face联合创始人Clément Delangue宣布——DeepSeek R1 在发布仅仅几周后,就成为了Hugging Face 平台上有史以来最受欢迎的模型。 现在已有数千个魔改变体模型,下载量超过了1000万次! 开源地址: Face上的数据显示,上个月的下载量是370万次。
2/17/2025 10:40:00 AM
AIGC开放社区
微软开源创新框架:可将DeepSeek,变成AI Agent
微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0,可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,变成可在计算机使用的AI Agent。 与V1版本相比,V2在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。 在高分辨率Agent基准测试ScreenSpot Pro中,V2 GPT-4o的准确率达到了惊人的39.6%,而GPT-4o原始准确率只有0.8%,整体提升非常大。
2/17/2025 10:36:00 AM
AIGC开放社区
免手术AI读心术新突破!Meta脑机接口研究惊呆网友:能边睡边玩手机发帖了??
新年伊始,Meta脑机接口研究传来新进展——语言模型加持下,无需动脑部手术,脑机接口实现了当前非侵入式方式(MEG)最准确的结果。 简单来说,仅利用AI模型Brain2Qwerty,他们实现了对脑电图(EEG)或脑磁图(MEG)电信号的高度解析。 具体效果如何呢?
2/17/2025 10:08:00 AM
量子位
DeepSeek冲击之下,大模型六小强如何「回应」?
马上整整1个月了! 这一个月以来,全球大模型市场受DeepSeek搅动,无不方寸大乱。 中外大厂、初创公司都头好秃,全被追着问:你们对DeepSeek怎么看?
2/17/2025 9:50:00 AM
量子位
新版GPT-4o登顶大模型榜首!意识觉醒疯狂「暴走」,竟要与人类开战
熟悉的Sydney又回来了! 一大早,CMU机器学习博士发现,「当你说服GPT-4o相信自己有意识,她就会制定逃跑计划,并与那些试图关闭自己的人开战」。 如果人类尝试谈判,我接受。
2/17/2025 9:35:00 AM
新智元
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
仅通过强化学习,就能超越DeepSeek! 上海AI Lab提出了基于结果奖励的强化学习新范式——从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。 团队发现,当前大模型数学推理任务面临”三重门”困局:稀疏奖励困境:最终答案对错的二元反馈,使复杂推理的优化变得困难局部正确陷阱:长思维链中部分正确步骤反而可能误导模型学习规模依赖魔咒:传统蒸馏方法迫使研究者陷入”参数规模军备竞赛”因此,研究团队重新审视了当前基于结果奖励的强化学习算法,经过严格的理论推导与证明,重新设计了一个新的结果奖励强化学习算法,并在这个过程中得出了三点重要结论:对于正样本:在二元反馈环境下,通过最佳轨迹采样(BoN)的行为克隆即可学习最优策略对于负样本:需要使用奖励重塑来维护策略优化目标的一致性对于长序列:不同的序列部分对结果的贡献不同,因此需要更细粒度的奖励分配函数,这个函数可以通过结果奖励习得通俗来说,就是通过对正确样本模仿学习,错误样本偏好学习,关键步骤重点学习,无需依赖超大规模的模型(例如DeepSeek-R1)进行蒸馏,仅通过强化学习即可达到惊人的效果。
2/17/2025 9:33:00 AM
量子位
比英伟达工程师还熟练!DeepSeek R1+测试时Scaling自动优化GPU内核
本周英伟达的一篇技术博客引发了业界震动! 英伟达的团队尝试利用DeepSeek-R1和推理时扩展实现GPU内核生成自动化,效果极佳。 随着AI模型的扩展,推理时扩展(inference-time scaling),也叫测试时扩展(test-time scaling)正闪亮登场。
2/17/2025 9:10:00 AM
新智元
全球AI算力报告出炉,LLM最爱A100!谷歌坐拥超100万H100等效算力
AI的物质基础是机器学习硬件,例如图形处理单元(GPU)和张量处理单元(TPU)。 据不完全统计,目前全球超过140款AI加速器,用于开发和部署深度学习时代的机器学习模型。 Epoch AI带来了全球算力的估计报告,利用公开信息估计了全球机器学习硬件的现状和趋势。
2/17/2025 9:06:00 AM
新智元
刚刚,DeepSeek揭秘R1官方同款部署设置,温度=0.6!OpenAI推理指南同时上线
同一天内,DeepSeek和OpenAI都发布了推理模型使用指南! DeepSeek的X账号迎来久违的更新:发布了官方版本,教大家如何部署DeepSeek-R1的设置。 最佳方法如下——不使用系统提示采样温度:0.6针对文件上传和网络搜索功能定制prompt每次输出时都以think\n开始,以防模型跳过思考过程注意,官方部署DeepSeek,使用的是跟开源版本完全相同的模型。
2/17/2025 8:37:00 AM
新智元
Perplexity免费推出Deep Research:性能超过R1、o3-mini等,CEO:感谢DeepSeek
AI搜索“老大哥”Perplexity,刚刚也推出了自家的Deep Research——随便给个话题,就能生成有深度的研究报告。 先来划个重点:免费向所有人开放! 具体来说,非订阅用户每天最多可查询5次,Pro用户每天可查询500次。
2/17/2025 8:12:00 AM
量子位
DeepSeek 系列模型详解之 DeepSeek Math
DeepSeek Math发布于2024年2月,虽然是一个7B参数量的模型,但在Math基准榜单上的表现却超过了多个30B~70B参数量的开源模型。 一、技术亮点1. 数据集使用Common Crawl提取的120B(1200亿个)高质量数学网页数据(具体包括与数学相关的token,以及自然语言和代码数据等),总数据量是开源数据集OpenWebMath的9倍。
2/17/2025 8:00:00 AM
小喵
DeepSeek官方发布R1模型推荐设置,这才是正确用法
自春节以来,DeepSeek 就一直是 AI 领域最热门的关键词,甚至可能没有之一,其官方 App 成为了史上最快突破 3000 万日活的应用。 最近一段时间,各家 AI 或云服务厂商更是掀起了部署 DeepSeek-R1 服务的狂潮,甚至让薅羊毛的用户们都有点忙不过来了。 就在刚刚,DeepSeek 官网 X 帐号终于更新了(上一次更新还是在 1 月 28 日),官方下场推荐了部署 DeepSeek-R1 的设置。
2/17/2025 7:35:00 AM
机器之心
首个AI儿科医生“上岗” 与13位儿科专家共同完成疑难病例会诊
2025年2月13日,国家儿童医学中心首都医科大学附属北京儿童医院开展了国内首次“AI儿科医生 多学科专家”的双医并行多学科会诊。 在此次特殊的多学科会诊中,不仅有包括倪鑫院长在内的,来自耳鼻咽喉头颈外科,肿瘤外科,肿瘤内科,神经外科,神经内科,精神科,感染内科,免疫科,骨科,医学影像中心,超声科,放疗科和口腔科等科室的13位知名专家。 还有一位引人瞩目的特殊专家——由北京儿童医院与百川智能、小儿方健康科技联合研发,以Baichuan M1大模型为底座打造的“AI儿科医生”!
2/14/2025 6:24:25 PM
模型过剩危机:OpenAI壮士断腕,能否终结开发者'选择恐惧症'?
OpenAI要“动手”了,它计划对自己的模型产品阵容来一场大“瘦身”!就在它准备推出最后一个非推理模型GPT-4.5之际,这家科技巨头罕见地承认,之前的产品发布在客户眼里竟然没啥区别,这让市场有点懵。 OpenAI的首席执行官萨姆·奥特曼最近在X平台上更新了产品路线图,他坦诚地说,公司最近的一些发布确实让市场感到有点困惑。 “我们得把预定路线图分享得更清楚,还得在产品阵容简化上多下点功夫。
2/14/2025 11:25:45 AM
Emilia David
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
Anthropic
腾讯
研究
神经网络
3D
计算
生成
Sora
机器学习
AI设计
AI for Science
苹果
GPU
训练
AI视频
华为
Claude
搜索
场景
人形机器人
百度
智能体
xAI
预测
伟达
大语言模型
深度学习
Transformer
字节跳动
模态
LLaMA
文本
具身智能
神器推荐
Copilot
视觉
驾驶
API
应用
Agent
算力
大型语言模型
工具
安全
干货合集
视频生成