强化
阿里新开源推理大模型QwQ-32B,性能媲美DeepSeek-R1、显存需求更小
阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型(LLM)家族成员——QwQ-32B。 这款拥有320亿参数的推理模型,旨在通过强化学习(RL)提升在复杂问题解决任务上的性能。 据介绍,QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。
3/6/2025 9:17:00 AM
AI在线
Creator 面对面 | 自监督学习范式未来能够在强化学习中发挥关键的作用
我们都知道自监督学习在 CV 和 NLP 领域都有比较广泛的应用,比如大模型 BERT、GPT-3 等训练,其实最核心的技术就是基于自监督学习的技术。
那么在 CV 和 NLP 领域都取得成功的自监督学习,是否可以被借鉴或是利用到强化学习领域呢?
7/25/2022 5:42:00 PM
SOTA模型
揭开深度强化学习的神秘面纱
编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石,它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力,可以解决对于经典强化学习(RL)技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中,我们将尝试在不涉及技术细节的情况下,揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的(例如,拨动开
9/10/2021 4:16:00 PM
ScienceAI
UC伯克利教授Pieter Abbeel开课了:六节课入门「深度强化学习」,讲义免费下载
课程视频时间有点长,但希望你能享受学习的快乐。将传统强化学习与深度神经网络结合的深度强化学习,一直以来被视为更接近人类思维方式的人工智能方法。深度学习具备强感知能力但缺乏一定的决策能力,强化学习具备决策能力但对感知问题束手无策,因此将两者结合起来可以达到优势互补的效果,为复杂系统的感知决策问题提供了解决思路。想要入门深度强化学习的同学们,请高度注意,一份优秀、细致、全面的新教材出现了。今天,UC 伯克利教授 Pieter Abbeel 上传了自己的新课程《深度强化学习基础》的最后一节视频,并在推特上安利了一下。这份
8/26/2021 2:01:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind