AI
DeepSeek-V3深入解读!
上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
豪掷20万块GPU训练Grok-3,马斯克“大力出奇迹”了吗?
当时间周一,埃隆·马斯克旗下的xAI公司正式发布了最新大模型Grok-3。 这次,马斯克不仅带来了性能更强的AI,还秀了一把“肌肉”——20万块GPU组成的超级计算集群。 这背后,到底是真正的技术突破,还是一场“大力出奇迹”的豪赌呢?
Meta首席AI科学家LeCun 的新研究:AI 仅需观看视频即可掌握物理规律
近日,Meta 的 AI 首席科学家 Yann LeCun 领导的一项研究揭示了人工智能如何通过观看视频来培养基本的物理学理解。 这项研究由 Meta FAIR、巴黎大学及 EHESS 的科学家们共同完成,显示出 AI 系统能够在没有预设规则的情况下,通过自我监督学习获得直观的物理知识。 研究团队采用了一种名为视频联合嵌入预测架构(V-JEPA)的新方法,与 OpenAI 的 Sora 等生成型 AI 模型相比,V-JEPA 的工作原理更接近人脑的信息处理方式。
OpenAI推出真实世界百万报酬AI编程能力测试基准:实测Claude 3.5 最强!
OpenAI 联合一众大佬发布了一项重磅研究,直接把目光瞄准了 真实世界的软件工程! 🔥 他们推出了一个全新的、价值百万美元的超硬核 benchmark —— SWE-Lancer! 具体是啥,我们来扒一扒划重点:什么是 SWE-Lancer?
Deepseek 这么厉害,普通人怎么用好它?
最近,Deepseek 的风头可谓是一时无两,相关消息一波接着一波。 它强大的能力让人惊叹不已,写代码、做翻译、生成文案……简直无所不能! 不少小伙伴跃跃欲试,却又担心自己不是程序员、不会写代码,用不好这么“高大上”的工具。
本地运行 DeepSeek-R1 的成本究竟多高?
DeepSeek 让人们对大规模生成式模型的追求更进一步,甚至有人想在本地跑下规模高达 671B 参数的版本。 但要在家里开这种“巨无霸”,可不是闹着玩的:光是推理就对硬件提出了非常高的要求。 这篇文章将大致拆解一下,如果真想在个人电脑上运行 DeepSeek-R1,可能需要的硬件和费用是多少。
谷歌憋大招:Gemini 将内嵌 AI 视频生成,让人人都能是导演
科技媒体 Android Authority 昨日(2 月 18 日)发布博文,报道称谷歌旗下 AI 助手 Gemini 即将具备生成视频能力。该功能虽未正式上线,但种种迹象表明,谷歌正在积极为 Gemini 添加新功能,旨在打造更强大的 AI 工具。
DeepSeek-R1详细解读!
DeepSeek-R1爆火,今天来详细看下。 论文地址::::现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)方法,但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链(Chain-of-Thought, CoT)提升了性能,但其测试时扩展仍存在挑战。
超简单:三步教你搞定DeepSeek本地部署
最近,国产AI神器DeepSeek爆火,其深度思考能力完美的体现了DeepSeek先进的算力和优越的性能。 可以这么说,DeepSeek的问世,推动了AI大模型的跨越式发展。 作为一款AI领域的现象级产品,DeepSeek的用户量在短时间内暴增,服务器也被大量攻击,不少小伙伴在使用DeepSeek时,经常会出现服务器繁忙的提示。
深圳回应 AI 公务员上岗 :仅辅助政务,不能单独决策
“‘AI 数智员工’是 AI 助手,可辅助开展公共管理和服务,并不能单独决策,不能算是‘AI 公务员’。”深圳市福田区政务服务和数据管理局党组成员、副局长高增在采访中表示。(南方日报)
印度最大支付平台Paytm应用内推出 Perplexity AI 智能搜索功能
最近,Paytm 应用在 Android 和 iPhone 上推出了新的 AI 智能搜索工具 ——Perplexity。 这一新功能被称为 “问 AI”,用户可以在首页的 “免费工具” 部分找到它。 通过这一功能,用户可以提出问题,Perplexity 会在特定的界面上提供带有引用的回答,帮助用户快速获取所需信息。
Kimi大幅削减广告预算,DeepSeek崛起令月之暗面压力倍增
在国内 AI 领域,Kimi 曾是备受关注的创业产品,但随着 DeepSeek 的崛起,这一局面正悄然改变。 近日,月之暗面公司宣布将大幅削减 Kimi 的广告投放预算,暂停多个安卓渠道的推广以及与第三方广告平台的合作,这一决策显然是对 DeepSeek 迅猛发展的直接反应。 根据界面新闻的报道,DeepSeek 在短短数十天内成功吸引了3500万日活跃用户,而 Kimi 在过去一年多的时间内投入大量资金,日活跃用户却未能突破千万。
AI应用圈大事周更新,Figure创始人推荐:国产机器人硬抗“胸口碎大石”,宇树机器人丝滑跳舞算法更新,日本惊现攻击人类的机器狗
出品 | 51CTO技术栈(微信号:blog51cto)开工后的第一周,DeepSeek的各种“疯狂接入”有没有把你弄蒙圈了,还是冷静下来看一看有哪些被你忽视的关键AI应用和产品的发布吧! 下面这份重要的总结出于Figure创始人Brett Adcock的汇总,值得大家细细研究。 Brett 汇总了来自Booster Robotics、Adobe、OpenAI、Figure、字节跳动、谷歌、Perplexity、Apptronik、Humanoid、Mentee Robotics等公司的最新消息。
AI看照片,几秒就能地理定位!因太危险被公司主动关闭,正向警方推销
在看刑侦片的时候,每当破案遇阻,你是否想象过,一种能够仅基于一张嫌疑人出现的场景照片,就即刻定位到场景所在地的具体经纬度的技术呢? 现在,这种想象,已然成为现实! 初创AI公司graylark发布了一项名为「GeoSpy」的系列产品,因其是一个革命性的照片地理定位系统,近来引发热议。
终于找到答案了!DeepSeek凭啥能给出这么丰富的答案 - 反事实推理(上)
为什么deepseek的回答如此丰富,如此多维度? 今天和大家聊聊,deepseek核心技术(之一):反事实推理。 什么是反事实推理?
马斯克“地表最强”Grok 3炸场,竞技场首超1400分
刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)! 一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。 而且,Grok 3还是首个在10万张(后扩展到20万)H100集群上训练出的模型。
微软开放3.1T token高质量数据!通用/代码/数学/问答,全领域超越开源
过去几年,大型语言模型(LLMs)已经成为人工智能研究的一个关键领域,从大规模的自然语言数据中学习,使其能够以极高的准确率执行各种与语言相关的任务。 得益于模型扩展性方面的进展,研究人员能够创建具有前所未有复杂度的模型。 当前的研究趋势是致力于构建更大、更复杂的模型,具有数百/数千亿个参数,但大型语言模型的训练需要海量的训练数据,尤其随着模型参数量的上升,对于优质数据数量的要求也将进一步加大,优质数据量的缺乏极大限制了模型能力的进一步增长。
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
DeepSeek-R1带火了使用强化学习训练LLM。 在训练中,AI灵机一动,让作者耳目一新,甚至因此惊叹到:这就是强化学习的力与美! DeepSeek-R1-Zero惊艳了研究人员然而,对RL训练的理解存在空白:这些工作的训练数据的透明度有限,谁知道是方法好还是数据集质量好?
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉