语言模型物理学
大模型边推理边纠错,有可能做到吗?这是ICML爆火的演讲
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]即便是最强大的语言模型(LLM),仍会偶尔出现推理错误。除了通过提示词让模型进行不太可靠的多轮自我纠错外,有没有更系统的方法解决这一问题呢?来自 Meta FAIR、CMU 和 MBZUA
9/8/2024 1:25:00 PM
机器之心
ICML 2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类的2级推理
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]大语言模型 (LLM) 是如何解数学题的?是通过模板记忆,还是真的学会了推理思维?模型的心算过程是怎样的?能学会怎样的推理技能?与人类相同,还是超越了人类?只学一种类型的数学题,是会对通用
8/4/2024 9:57:00 AM
机器之心
Llama架构比不上GPT2?神奇token提升10倍记忆?
一个 7B 规模的语言模型 LLM 能存储多少人类知识?如何量化这一数值?训练时间、模型架构的不同将如何影响这一数值?浮点数压缩 quantization、混合专家模型 MoE、以及数据质量的差异 (百科知识 vs 网络垃圾) 又将对 LLM 的知识容量产生何种影响?近日,朱泽园 (Meta AI) 和李远志 (MBZUAI) 的最新研究《语言模型物理学 Part 3.3:知识的 Scaling Laws》用海量实验(50,000 条任务,总计 4,200,000 GPU 小时)总结了 12 条定律,为 LLM 在
4/10/2024 2:49:00 PM
机器之心
- 1
资讯热榜
量大管饱!我整理了10个好用到爆的即梦4.0进阶玩法
全球高校 “猎杀” AI作业!学生如何应对 “人类化” 挑战?
AI 数据版权新纪元:Real Simple Licensing 协议引发行业关注
ChatGPT能随便连MCP了!对话就能开发票、帮退款…奥特曼的野心毕露:将OpenAI打造成全能型平台!开发者:太危险了不敢用
OpenAI进军韩国市场,携手三星与SK海力士共建AI未来!
为什么 LangChain ReAct 机制值得关注 ?
数十亿人将用上免费AGI!OpenAI奥特曼高调断言:全球经济将迎来极度通缩!效率强如DeepSeek,全球AI也需百吉瓦能源!
姚顺雨离职OpenAI,「亿元入职腾讯」传闻引爆AI圈,鹅厂辟谣了
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
智能体
马斯克
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
苹果
蛋白质
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
编程
DeepMind
亚马逊
特斯拉
AI模型