强化

阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小

阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小

阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型（LLM）家族成员——QwQ-32B。这款拥有320亿参数的推理模型，旨在通过强化学习（RL）提升在复杂问题解决任务上的性能。据介绍，QwQ-32B已在Hugging Face和ModelScope上以 Apache2.0许可证开源。

3/6/2025 9:17:00 AM AI在线

Creator 面对面 | 自监督学习范式未来能够在强化学习中发挥关键的作用

Creator 面对面 | 自监督学习范式未来能够在强化学习中发挥关键的作用

我们都知道自监督学习在 CV 和 NLP 领域都有比较广泛的应用，比如大模型 BERT、GPT-3 等训练，其实最核心的技术就是基于自监督学习的技术。那么在 CV 和 NLP 领域都取得成功的自监督学习，是否可以被借鉴或是利用到强化学习领域呢？

7/25/2022 5:42:00 PM SOTA模型

揭开深度强化学习的神秘面纱

揭开深度强化学习的神秘面纱

编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石，它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力，可以解决对于经典强化学习（RL）技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中，我们将尝试在不涉及技术细节的情况下，揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的（例如，拨动开

9/10/2021 4:16:00 PM ScienceAI

UC伯克利教授Pieter Abbeel开课了：六节课入门「深度强化学习」，讲义免费下载

UC伯克利教授Pieter Abbeel开课了：六节课入门「深度强化学习」，讲义免费下载

课程视频时间有点长，但希望你能享受学习的快乐。将传统强化学习与深度神经网络结合的深度强化学习，一直以来被视为更接近人类思维方式的人工智能方法。深度学习具备强感知能力但缺乏一定的决策能力，强化学习具备决策能力但对感知问题束手无策，因此将两者结合起来可以达到优势互补的效果，为复杂系统的感知决策问题提供了解决思路。想要入门深度强化学习的同学们，请高度注意，一份优秀、细致、全面的新教材出现了。今天，UC 伯克利教授 Pieter Abbeel 上传了自己的新课程《深度强化学习基础》的最后一节视频，并在推特上安利了一下。这份

8/26/2021 2:01:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉