LLM360

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

在大模型迈向推理时代的当下，数学推理能力已成为衡量语言模型智能上限的关键指标。近日，LLM360 推出了 MegaMath：全球目前最大的开源数学推理预训练数据集，共计 3710 亿（371B）tokens，覆盖网页、代码和高质量合成数据三大领域。报告标题：MegaMath: Pushing the Limits of Open Math Corpora技术报告：：代码： DeepSeek-Math Corpus（120B）的开源数据集，更代表从「只靠网页」到「面向推理」的重大跨越。

4/13/2025 3:05:00 PM 机器之心

全方位、无死角的开源，邢波团队LLM360让大模型实现真正的透明

全方位、无死角的开源，邢波团队LLM360让大模型实现真正的透明

我们需要更全面和深入地共享。开源模型正展现着它们蓬勃的生命力，不仅数量激增，性能更是愈发优秀。图灵奖获得者 Yann LeCun 也发出了这样的感叹：「开源人工智能模型正走在超越专有模型的路上。」专有模型在技术性能和创新能力上展现了非凡的力量，但是它们不开源的性质成为 LLM 发展的阻碍。一些开源模型虽然为从业者和研究者提供了多样化的选择，但大多数只公开了最终的模型权重或推理代码，越来越多的技术报告将其范围限制在顶层设计和表面统计之内。这种闭源的策略不仅限制了开源模型的发展，而且还在很大程度上阻碍了整个 LLM 研

12/13/2023 1:32:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉