模型
一文带你看懂开源大模型基石LLaMA核心技术点,DeepSeek/千问等LLM的模型结构基础
LLaMA是目前很多SOTA开源大模型的基础,包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。 因此,LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。 这篇文章就给大家汇总一下LLaMA的核心模型结构。
2/14/2025 1:00:00 AM
Fareise
手把手教你找免费AI服务:搜公开的DeepSeek模型接口
网上很多教程教你怎么自己搭 AI 模型,但今天我要教大家一个野路子——用搜索引擎直接找别人已经搭好的 AI(Ollama)服务(前提是合法使用)。 就像有人忘记关 Wi-Fi,我教你怎么发现这些"公共资源"。 一、用 Fofa 找公开的 AI 服务Fofa 是什么?
2/14/2025 12:00:00 AM
wayn
Karpathy新实验火了!一个「表情」占53个token,DeepSeek-R1苦思10分解谜失败
一个😀,竟然要占用53个token? ! 最近,AI大佬Karpathy在X上分享了这一有趣现象。
2/13/2025 1:00:00 PM
新智元
DeepSeek 系列模型详解之——DeepSeek LLM
DeepSeek LLM发布于2024年1月,收集了2万亿个词元用于预训练,在模型层面沿用了LLaMA的架构,并将余弦退火学习率调度器替换为多阶段学习率调度器,便于持续训练。 并从多种来源收集了超过100万个实例进行监督微调(SFT)。 此外,利用直接偏好优化(DPO)技术进一步提升模型的对话能力。
2/13/2025 11:00:30 AM
小喵学AI
DeepSeek 私有部署最强指南:满血推理,异构多机分布式,国产显卡无缝支持!
还还在为DeepSeek模型部署的各种难题抓狂? 各种教程的下载分片、合并模型、编译环境……这些繁琐的操作是不是让你头大? DeepSeek R1 火了,私有部署需求暴增,教程满天飞,但实际操作起来却麻烦得要命!
2/13/2025 10:12:27 AM
AI寒武纪
被AI追杀,还要解谜逃生!UCSD等发布LLM测试神器,边玩游戏边评估
你以为你在打游戏,其实是在给模型做评测! 就在两天前,由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」(AI空间逃脱),提供了一种与AI互动的独特体验。 现在,你想要测试不同模型的性能对比,打着游戏就能把活儿给干了。
2/13/2025 10:00:00 AM
新智元
小红书&上交多模态大模型新基准,Gemini 1.5 Pro准确率仅48%
多模态大模型理解真实世界的水平到底如何? 有新基准来衡量了。 就在最近,小红书和上海交通大学联合提出WorldSense,一个全新的基准测试,用来评估多模态大模型(MLLMs)的多模态真实场景理解能力。
2/13/2025 9:40:00 AM
量子位
o3拿下IOI 2024金牌!新论文公布RL秘诀:AI自己设计测试时推理策略,无需人类干预
IOI 2024金牌,OpenAI o3轻松高分拿下! 刚刚,OpenAI发布了关于推理模型在竞技编程中应用的研究论文报告,论文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具体成绩。 三兄弟分别是OpenAI o1、o1-ioi(以o1为基础微调等改进而来)、o3,三者成绩如下。
2/13/2025 9:20:00 AM
量子位
OpenAI放王炸!GPT-5免费无限使用,产品矩阵大整合!
今天凌晨3点,OpenAI首席执行官Sam Altman公布了GPT-4.5和GPT-5的炸裂消息。 Altman表示,OpenAI很快发布GPT-4.5,就是传说中的猎户座模型(Orion),也是最后一个非思维链模型。 接着会整合GPT和O系列两大模型打造一个全新的系统,能自动选择思考和非思考功能,适用于多种任务。
2/13/2025 9:15:00 AM
AIGC开放社区
刚刚,奥特曼剧透GPT-4.5、GPT-5重大更新,o3取消独立发布
奥特曼深夜一则推文,在网络上掀起了讨论狂潮。 没有一点点预告,奥特曼亲自公布自家产品路线图,并承认公司最近发布的一些产品有些混乱。 推文透露,OpenAI 的下一步是发布 GPT-4.5,这是其最后一个非思维链 (CoT) 模型。
2/13/2025 9:10:47 AM
机器之心
几个免费使用 DeepSeek 的渠道,告别「服务器繁忙,请稍后再试」
在眼下这个时间点,AI 已经不是什么稀缺资源了,这当然和最近爆火的 DeepSeek 有很大关系,尤其春节那几天,无论是北上广还是小县城甚至农村,无论是985高材生还是村里的叔叔大爷,都用上了 AI 大模型,而且是能力排在第一梯队的大模型,也就是 DeepSeek-R1。 之所以说在这以前,AI 还是稀缺资源,那是因为公认的第一梯队的大模型产品基本上都是国外的,而想要使用国外的产品,对于普通人来说,门槛还是非常高的。 而国内虽然也有不少免费的产品,但是整体来说,还是差点意思的。
2/13/2025 12:10:00 AM
风筝
AI突破抗药性困境!山大团队融合潜在扩散模型与MD设计新型抗菌肽
编辑 | 2049世界卫生组织预测,到 2050 年,抗生素耐药性感染可能导致每年 1000 万人死亡,超越癌症成为人类健康的首要威胁。 随着抗生素滥用导致的耐药性问题日益严重,开发新型抗菌药物已成为当务之急。 在此背景下,抗菌肽(Antimicrobial Peptides,AMPs)因其广谱抗菌活性和低耐药性特征,被视为下一代抗感染药物的希望之星。
2/12/2025 5:38:00 PM
ScienceAI
超越思维链?深度循环隐式推理引爆AI圈,LLM扩展有了新维度
不需要特殊训练数据,能处理语言难以形容的任务,3.5B 参数能实现 50B 的性能。 这是一种全新的语言模型架构,能够通过使用循环语言模型在潜在空间中隐式推理,显著提升模型的计算效率,尤其是在需要复杂推理的任务上。 近日,马里兰大学的一篇论文在 AI 研究社区中引发了关注,其提出的语言模型通过迭代循环块来工作,能在测试时展开到任意深度。
2/12/2025 2:22:00 PM
机器之心
DeepSeek并非完美,训练过程存在“深度诅咒”
高性能大模型在训练的过程中通常需要数千个GPU,耗费数月甚至更长时间才能完成一次训练。 这种巨大的资源投入使得模型的每一层都必须高效训练,才能确保算力资源最大化利用。 但大连理工、西湖大学、牛津大学等研究人员对DeepSeek、Qwen、Llama和Mistral研究发现,这些模型的深层在训练过程中表现并不好,甚至可以被完全剪枝而不会影响模型性能。
2/12/2025 1:42:25 PM
AIGC开放社区
AI太强,验证码全失效?新南威尔士全新设计:GPT傻傻认不出,人类一致好评
验证码通过利用人类与机器的认知差异实现身份验证。 传统的验证码方案主要依赖文本扭曲[1]、图像分类[2,3]或逻辑推理[4]来区分人类与机器,但随着多模态LLMs(Large Language Model)的发展[5],这些方法逐渐失效,机器也能达到人类水平的认知。 GPT-4o对简单「文本验证码」的破解成功率超过90%,Gemini 1.5 Pro 2.0[6]能识别带噪声的「reCAPTCHA图像」(成功率50%);LLMs在「推理验证码」上的表现较差(平均成功率20%),但人类用户的失败率也同样很高。
2/12/2025 1:37:56 PM
新智元
统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA
在最近的一篇论文中,来自字节跳动、北京大学等机构的研究者提出了 Sa2VA。 市面上第一个结合 SAM-2 和 LLaVA-like 的视频多模态大模型,结合了 SAM-2 和 LLaVA 的优势,实现了时空细粒度的理解。 论文地址:: 地址:,研究者设计了一套统一的指令微调格式 (Instruction Tuning Pipeline),整合了五种不同的任务,超过 20 个数据集一起进行联合训练。
2/12/2025 1:31:33 PM
机器之心
淘宝卖DeepSeek安装包一月赚数十万???我们免费教你本地部署DeepSeek-R1
当看到这条消息时,机器之心编辑部陷入了集体沉默。 作为一个免费开源的模型,DeepSeek 竟能让倒卖商如此大赚特赚,也着实让人震惊。 而这也从侧面佐证了 DeepSeek 模型引发的本地部署热潮是多么汹涌。
2/12/2025 1:23:47 PM
机器之心
8卡32B模型超越o1预览版、DeepSeek V3,普林斯顿、北大提出层次化RL推理新范式
一.引言推理大语言模型(LLM),如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等,通过模拟人类推理过程,在多个专业领域已超越人类专家,并通过延长推理时间提高准确性。 推理模型的核心技术包括强化学习(Reinforcement Learning)和推理规模(Inference scaling)。 主流的大模型强化学习算法,如 DPO、PPO、GRPO 等,通常需要在完整的思维链上进行微调,需要高质量数据、精确的奖励函数、快速反馈和在线迭代、以及大量的算力。
2/12/2025 12:04:54 PM
机器之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind