数据

OpenAI 发布 MMMLU 数据集：更广、更深评估 AI 模型，支持简体中文

科技媒体 marktechpost 昨日（9 月 23 日）发布博文，报道称 OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解（MMMLU）数据集。背景随着语言模型日益强大，评估其在不同语言、认知和文化背景下的能力已成为当务之急。OpenAI 决定推出 MMMLU 数据集，通过提供强大的多语言和多任务数据集，来评估大型语言模型（LLMs）在各种任务中的性能，从而应对这一挑战。MMMLU 数据集简介MMMLU 数据集包含一系列问题，涵盖各种主题、学科领域和语言。其结构旨在评估模型在不同研

9/24/2024 2:46:03 PM 故渊

阿里国际发布最新开源多模态模型Ovis，多模态能力再升级

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级！今天，阿里国际AI团队发布了一款多模态大模型Ovis，在图像理解任务上不断突破极限，多种具体的子类任务中均达到了SOTA（最新技术）水平。多模态大模型能够处理和理解多种不同类型的数据输入，例如文本、图像。与大型语言模型（LLMs）相比，大语言模型在处理和生成文本数据方面有专长，而多模态大模型能够处理非文本数据，如图像等等。根据多模态权威综合评测平台OpenCompass的数据，Ovis1.6-Gemma2

9/19/2024 10:47:00 AM 新闻助手

全球最大商业图库 Getty Images 推出免费高画质照片 AI 训练集：含 3750 张照片、分 15 项类别

以提供新闻、体育和娱乐照片授权闻名的全球最大的商业图库 Getty Images 上周宣布推出高画质照片样本训练数据集，供开发者开发和训练 AI 模型使用。AI在线获悉，该样本数据集包含 3,750 张照片，分为商业、教育、医疗健康、运动与健身、物品与物体、插图、图标等 15 个类别。数据集提供多种主题的高质量视觉内容，可用于训练机器学习和 AI 模型，开发多种应用场景。▲ 相关图片选集目前，这一数据集已在 Hugging Face 上线（点此访问），不过用户需同意服务条款并提供联系方式，才能免费访问该数据集。Ge

9/9/2024 2:03:16 PM 漾仔

更高分辨率，更经济，深度生成模型与主动学习策略结合，推进大规模单细胞研究

编辑 | 萝卜皮单细胞测序是分析复杂疾病细胞复杂性的重要工具。然而，其高昂的成本阻碍了其在广泛的生物医学研究中的应用。传统的细胞反卷积方法可以从更便宜的批量测序数据中推断出细胞类型比例，但它们无法提供单细胞水平分析所需的精细分辨率。为了克服这一挑战，加拿大麦吉尔大学（McGill University）的研究人员引入了「scSemiProfiler」，这是一个创新的计算框架，将深度生成模型与主动学习策略结合在一起。该方法具有高度精确性，能推断出大群体中的单细胞概况。可与真实的单细胞分析数据紧密结合，支持精细的细胞分

9/3/2024 7:10:00 PM ScienceAI

迈向「多面手」医疗大模型，上交大团队发布大规模指令微调数据、开源模型与全面基准测试

编辑 | ScienceAI近日，上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队，在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》，从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。GitHub: Link: : ，大型语言模型（LLM）取得了显著的进展，并在医疗领域取得了一定成果。这些模型在医学多

9/3/2024 7:09:00 PM ScienceAI

谷歌 AI 推出 CardBench 评估框架：含 20 个真实数据库，更全面评估基数估计模型

9/3/2024 2:35:55 PM 故渊

美国加州通过人工智能训练数据透明度法案，要求企业披露 AI 模型数据来源

今日，美国加州立法机构通过了一项颇具争议的法案 —— 人工智能训练数据透明度法案，该法案将提交给州长加文・纽瑟姆，但其尚未对此法案表态。图源 Pexels该法案旨在要求人工智能公司在开发和训练模型时，对其使用的数据集进行更加透明的披露。AI在线注意到，这项由议员雅克・欧文提出的法案（AB 2013）原本适用范围更广，但在 8 月 20 日范围缩小至仅适用于生成式人工智能，即能生成文本、图像和类似内容的人工智能，例如 Open AI 的 ChatGPT 这类。该法案要求人工智能公司公开其训练模型的关键信息，如数据来源

8/28/2024 2:35:06 PM 远洋

Transformer 作者 Aidan Gomez 预警：只卖模型玩不过 OpenAI

Transformer 八子中最年轻的 Aidan Gomez 在最新的采访中感叹：只卖模型真的不赚钱！谷歌版的 Aidan Gomez，是给 AI 领域带来深远影响的 Transformer 作者之一。而现在的 Aidan Gomez，是估值飙升 55 亿美元的 Cohere 公司的联合创始人兼 CEO（此前推出了 Command R 系列开源大模型）。在这次与 20VC 主理人 Harry Stebbings 的对话中，Aidan Gomez 大谈特谈 AI 的发展趋势。其中的一些话题引发了网友们的关注和讨论，

8/24/2024 1:17:41 PM 清源

明确了：文本数据中加点代码，训练出的大模型更强、更通用

代码知识原来这么重要。如今说起大语言模型（LLM），写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码，即使对于并非专门为代码设计的大模型来说，也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用，但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中，研究者系统地研究了代码数据对通用大模型性能的影响。论文链接：「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任

8/22/2024 6:20:00 PM 机器之心

Meta 部署新网络爬虫机器人，为其 AI 模型收集大量数据

北京时间 8 月 21 日，近日，Meta 悄悄地发布了一款新的网络爬虫，用于搜索互联网并收集大量数据，为其人工智能模型提供支持。据三家追踪网络抓取器的公司称，Meta 新网络爬虫机器人 Meta External Agent 于上月推出，类似于 OpenAI 的 GPTBot，可以抓取网络上的人工智能训练数据，例如新闻文章中的文本或在线讨论组中的对话。根据使用档案历史记录显示，Meta 确实在 7 月底更新了一个面向开发者的公司网站，其中一个标签显示了新爬虫的存在，但 Meta 至今还没有公开宣布其新爬虫机器人。

8/21/2024 1:10:05 PM 余青

中国工程院院士邬贺铨：AI 大模型仍需“大力出奇迹”、提升算力枢纽利用率

据中新社报道，中国工程院院士邬贺铨 19 日在 2024 北京人工智能生态大会上表示，人工智能是新质生产力的引擎，大模型的发展仍然需要“大力出奇迹”，多措并举提升对物理世界的模拟能力。算力、数据等是促进人工智能发展的关键要素。据AI在线此前报道，中国信通院 7 月数据显示，截至 2023 年，全国在用算力中心机架总规模已超过 810 万标准机架，算力总规模达到 230EFLOPS，位居全球第二。邬贺铨院士指出，中国已建的算力枢纽的利用率还有较大提升空间，通过集约优化可解决目前对算力的需求。中国具有超大规模市场、海量

8/20/2024 8:56:12 AM 沛霖（实习）

Nature 曝惊人内幕：论文被天价卖出喂 AI，作者 0 收入

Nature 的一篇文章透露：你发过的 paper，很可能已经被拿去训练模型了！有的出版商靠卖数据，已经狂赚 2300 万美元。然而辛辛苦苦码论文的作者们，却拿不到一分钱，这合理吗？全球数据告急，怎么办？论文来凑！最近，Nature 的一篇文章向我们揭露了这样一个事实：连科研论文，都被薅去训 AI 了……据悉，很多学术出版商，已经向科技公司授权访问自家的论文，用来训练 AI 模型。一篇论文从酝酿 idea 到成稿，包含了多少作者日日夜夜的心血，如今很可能在不知情的情况下，就成为训 AI 的数据。这合理吗？更可气的是

8/15/2024 12:53:16 PM 汪淼

最强 AI 程序员 Genie 砸饭碗：84 秒跑通代码，像人一样思考，团队仅 5 人

继 Devin 之后，又一个 AI 软件工程师被刷屏了 —— 它叫 Genie，号称目前地表最强，已经可以像人一样思考和行动了！那么这个“地表最强”，到底强到什么程度？先来看下评测分数。在权威榜单 SWE-Bench 中，Genie 以解决了 30.07% 问题的成绩夺得榜首。（SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。）而这个成绩可谓是遥遥领先第二名 19.27%，解锁了提升 SOTA 的最大增幅 —— 57%！至于 Genie 的实际效果，用团队的话来说就是：它可以做到像人类工程师一样解

8/13/2024 2:00:40 PM 汪淼

「AI 数据荒」雪上加霜，MIT 发现网页数据的公开共享正走向衰落

人工智能系统依靠充足、高质量的训练数据来获得高性能，但 MIT 等机构最近的一项研究发现，曾经免费提供的数据在多个方面变得越来越难获取。随着 GenAI 产品开发和研究变得越来越广泛，训练数据的抓取许可也越来越成为受关注的话题。最近，吴恩达在网站 The Batch 上提及了一篇有关数据许可的研究，其结果似乎让本就迫近的「AI 数据荒」雪上加霜。研究人员发现，C4、RefineWeb、Dolma 等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议，曾经触手可及的开放数据越来越难以获取。这不仅会影响商用 AI

8/13/2024 1:07:59 PM 汪淼

OpenAI 宣布改变开发者大会举办形式，不会公布 GPT-5

8 月 6 日消息，去年，人工智能初创公司 OpenAI 在旧金山举办了首次开发者大会，声势浩大，并推出了包括最终未能成功的 GPT Store（类似苹果应用商店）在内的多款新产品和工具。然而，今年的活动将相对低调。本周一，OpenAI 宣布，将其 DevDay 开发者大会转型为一系列聚焦开发者的参与式会议。公司还确认，在 DevDay 期间不会发布下一代主旗舰模型，而是将重点放在其 API 和开发者服务的更新上。OpenAI 发言人透露：“我们不打算在开发者大会上宣布我们的下一个模型。我们将更多地专注于向开发者介

8/6/2024 12:15:05 PM 小小

英伟达最新技术分享：手把手教你用 Llama 3.1 合成数据改进模型！附代码

适逢 Llama 3.1 模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近，结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了，Nemotron 9T token 的预训练预料中，98% 都是合成数据。也许你还对合成数据存在顾虑，或者不知道如何应用 LLM 驱动数据生成。或许，英伟达的这篇博客可以提供答案。原文地址：，用 LLM 合成数据的本质究

7/29/2024 4:20:08 PM 清源

突破传统缺陷检测的界限，"Defect Spectrum"首次实现超高精度丰富语义的工业缺陷检测。

在现代制造业中，精准的缺陷检测不仅是保证产品质量的关键，更是提升生产效率的核心。然而，现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性，导致模型无法识别具体的缺陷类别或位置。为了解决这一难题，由香港科技大学广州和思谋科技组成的顶尖研究团队，创新性地开发出了“Defect Spectrum”数据集，为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示，相比其他工业数据集，“Defect Spectrum”数据集提供了最多的缺陷标注（5438张缺陷样本），最细致的缺陷分类（125种缺陷类别），并为不同种类

7/26/2024 2:45:00 PM 机器之心

AI 训 AI 遭投毒 9 次后大崩溃，牛津剑桥等发现登 Nature 封面

感谢AI在线网友刺客的线索投递！用 AI 生成的数据训练 AI，模型会崩溃？牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文，今天登上了 Nature 封面。如今，LLM 已经强势入侵了人类的互联网，极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的，我们用网络数据训练出的 GPT-n，会发生什么？论文地址：，如果在训练中不加区别地使用 AI 产生的内容，模型就会出现不可逆转的缺陷 —— 原始内容分布的尾部（低概率事件）会消失！这种效应，被称为「模型崩溃」。换句话说，合成数据就像是近

7/25/2024 4:41:11 PM 汪淼

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 大语言模型字节跳动 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉