效用

数据更多更好还是质量更高更好？这项研究能帮你做出选择

当计算预算低时，重复使用高质量数据更好；当不差钱时，使用大量数据更有利。对基础模型进行 scaling 是指使用更多数据、计算和参数进行预训练，简单来说就是「规模扩展」。虽然直接扩展模型规模看起来简单粗暴，但也确实为机器学习社区带来了不少表现卓越的模型。之前不少研究都认可扩大神经模型规模的做法，所谓量变引起质变，这种观点也被称为神经扩展律（neural scaling laws）。近段时间，又有不少人认为「数据」才是那些当前最佳的闭源模型的关键，不管是 LLM、VLM 还是扩散模型。随着数据质量的重要性得到认可，已

5/20/2024 3:04:00 PM

机器之心

资讯热榜

告别抽卡！Vidu Q2多图参考生视频功能重磅上线保姆级教程！教你用Coze工作流2分钟生成优质文章最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！切斯基:Airbnb 暂缓接入 ChatGPT，AI 客服已用上通义千问独立开源大佬的疯狂实验：Claude Code蛮力出奇迹！40 分钟跑通 DeepSeek-OCR，我一行代码都没写 OpenAI、Oracle 再加码 AI 基建:150亿美元 Lighthouse 园区启动建设大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘 AI赋能，重塑零售：详解零售巨头塔吉特的业务转型策略

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法芯片 AI for Science 腾讯 Stable Diffusion Agent 苹果 Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人研究 RAG AI视频生成大语言模型 Sora 工具百度具身智能 GPU 华为计算字节跳动 AI设计搜索 AGI 大型语言模型视频生成场景深度学习架构 DeepMind 编程生成式AI 视觉预测 Transformer AI模型伟达特斯拉 Copilot