AI在线 AI在线

数据集

大规模分子电子密度数据集EDBench发布,AI驱动分子建模迈入「电子级」时代

作者 | 论文团队编辑 | ScienceAI在药物设计、新材料开发等领域,精确模拟分子行为至关重要。 传统的机器学习力场将分子视为由原子核和化学键构成的“骨架”,却忽略了真正决定分子性质的“灵魂”——电子。 电子密度,这一量子化学中的核心物理量,描述了电子在空间中的分布概率,从根本上决定了分子的能量、反应活性等所有性质。
10/3/2025 3:14:00 PM
ScienceAI

Project Imaging-X发布:1000+开放医学影像数据集全景式综述

作者丨项目团队编辑丨ScienceAI过去几年,通用领域的基础模型(Foundation Models)在大规模、异质、高质量数据的推动下快速演进。 在医学影像场景中,基础模型同样被寄予厚望:期望以一次预训练,支持多模态(CT/MR/PET/内镜等)、多任务(分割/检测/配准/追踪等)与多解剖部位的统一处理,成为从研究到临床的“通用基础”。 然而,医学影像数据的获取与敏感高度依赖医学专业知识,并受到伦理与隐私的严格约束,现有的公开数据长期呈现“小而散、偏科严重”的格局:与通用视觉领域的数据集相比,目前公开的医学影像数据集的规模普遍较小,通常只有数千张图像,与通用领域的数据集个数级数量相比。
9/26/2025 4:13:00 PM
ScienceAI

每周7亿人都在如何用ChatGPT?OpenAI最全报告来了

首份最全ChatGPT用户研究报告来了! 就在刚刚,OpenAI联合哈佛大学经济学家David Deming发表了一篇新论文——标题为《How People Use ChatGPT》,详细论述了ChatGPT从2022年11月上线到2025年7月的被使用情况。 图片为什么要在这个节点推出报告,或许这也和ChatGPT取得的阶段性成果有关。
9/16/2025 9:04:35 AM

数据集质量正成为AI大模型的终极壁垒

"老板,我们的模型效果怎么还是这么差? "小李拿着测试报告,一脸无奈地走进了技术总监的办公室。  "数据质量怎么样?
9/11/2025 2:00:00 AM
大数据AI智能圈

为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学

近年来,以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型,在各大基准测试(如MMMU)中捷报频传,纷纷刷榜成功。 然而,这些令人瞩目的进展也带来了一个愈发严峻的问题:当现有的“题库”逐渐被提前预训练进模型,我们如何才能持续、准确地评估这些顶尖AI的真实能力? 为了应对这一挑战,上海交通大学王德泉教授课题组巧妙地将“动态基准”这一理念与不断更新的科学前沿相结合,提出了MAC(多模态学术封面)基准:既然科学知识本身在不断演进,为什么不用最新的科学内容来测试AI呢?
8/26/2025 9:07:00 AM

靠AI破解癌症,初创公司融下3000万刀!新目标:建10亿单细胞数据集

在AI模拟蛋白质取得了巨大突破后,一些人把目标瞄准了整个活细胞。 福布斯杂志最新介绍,有一家初创公司刚刚融资3000万美元,用于构建活细胞的AI模型。 这家公司名为Tahoe Therapeutics,目前估值达1.2亿美元,他们开发了一种可扩展的方法,能够快速生成AI模型所需的关键生物数据,并利用这些数据寻找治愈癌症的新方法。
8/13/2025 9:19:14 AM

北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”

LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。 北京大学DS-Lab发布ScholarSearch,这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集,包含223道高难度的学术检索题目及其答案。
6/27/2025 8:47:12 AM

Yandex 发布最大音乐推荐开源数据集 Yambda

俄罗斯搜索巨头Yandex发布全球最大音乐推荐开源数据集Yambda,含47.9亿条匿名用户交互数据,覆盖939万首歌曲,助力开发者打造智能音乐服务。数据集分三种规模,最大需85GB存储空间。#音乐科技# #AI推荐#
5/30/2025 2:40:08 PM
准泽(实习)

全面增强LLM推理/规划/执行力!北航提出全新「内置CoT」思考方法

用户已经习惯于将大模型如ChatGPT、Llama-3-chat等当作聊天对象,然而在用户和聊天助手的会话中,有的用户提示(例如一些命令或请求)不能在一轮会话中结束,需要大语言模型和用户进行多轮会话。 这种跨越多轮的会话目前仍然存在一些问题:大语言模型的回答容易出错,不能帮助用户达到目标,且随着会话轮数增加出错概率会增大。 对同一个命令或问题,大语言模型比较难以根据实际需求产生不同流程的响应,在需要大语言模型与环境交互时,目前比较流行的做法是使用函数调用或工具调用,但不够优雅和高效,而且由于上下文窗口的限制,能支持的工具调用数量有限。
3/5/2025 4:00:00 AM
新智元

CVPR满分论文:一块2080Ti搞定数据蒸馏,GPU占用仅2G,来自上交大“最年轻博导”课题组

只要一块6年前的2080Ti,就能做大模型数据蒸馏? 来自上交大EPIC实验室等机构的一项最新研究,提出了一种新的数据集蒸馏方法——NFCM。 与前SOTA相比,新方法的显存占用只有1/300,并且速度提升了20倍,相关论文获得了CVPR满分。
3/3/2025 12:13:15 PM
量子位

不可信任的人工智能:如何处理数据中毒?

译者 | 布加迪审校 | 重楼现代技术远非万无一失——比如说,我们可以看到,众多漏洞不断涌现出来。 虽然通过设计保证安全的系统是一条屡试不爽的最佳实践,但这么做可能会分流来自其他方面的资源,比如用户体验(UX)设计、性能优化以及与其他解决方案及服务的互操作性。 因此,安全常常退居次席,只满足最低限度的合规要求。
2/18/2025 8:00:00 AM
布加迪

内含超 100 万小时多语种录音,MLCommons 推出大型音频数据集

这一名为 the Unsupervised People's Speech 的数据集资源来自 Archive.org,整体规模超 48 TB,大部分内容属于美式英语。
2/10/2025 6:07:51 PM
溯波(实习)

UC伯克利等提出具身智能「动作Tokenizer」,效率飙升5倍!

来自π,伯克利和斯坦福的研究者近期提出了FAST,一种为VLA模型设计的高效动作Tokenizer。 FAST旨在解决传统动作Tokenization方法在处理精细任务时面临的挑战,为VLA模型在更复杂、高频的机器人控制任务带来了显著改进。 将FAST与π0 VLA结合,在1万小时的机器人数据上对π0-FAST进行训练,效果与最先进的扩散VLA相当,训练时间最多缩短5倍。
1/22/2025 3:21:00 PM
新智元

中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T

中国网络空间安全协会于 1 月 9 日发布公告,面向社会发布中文互联网语料资源平台,支持行业领域、内容模态、体量规模等多种标签分类,便于用户下载与使用。
1/11/2025 7:44:27 AM
故渊

PyTorch Geometric框架下图神经网络的可解释性机制:原理、实现与评估

在机器学习领域存在一个普遍的认知误区,即可解释性与准确性存在对立关系。 这种观点认为可解释模型在复杂度上存在固有限制,因此无法达到最优性能水平,神经网络之所以能够在各个领域占据主导地位,正是因为其超越了人类可理解的范畴。 其实这种观点存在根本性的谬误。
1/9/2025 2:06:31 PM
J Kwak

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

电子表格也迎来了自己的ChatGPT时刻。 就在这两天,一个名为TabPFN的表格处理模型登上Nature,随后在数据科学领域引发热烈讨论。 图片据论文介绍,TabPFN专为小型表格而生,在数据集样本量不超过10,000时性能达到新SOTA。
1/9/2025 12:22:04 PM

五部门:加快构建国资央企大数据体系,支持企业开发高质量数据集

国家数据局、中央网信办、工业和信息化部、公安部、国务院国资委 12 月 25 日发布《关于促进企业数据资源开发利用的意见》。
12/27/2024 2:55:51 PM
汪淼

麻省理工研究人员提高机器学习模型准确性

机器学习(ML)有可能通过利用大量数据进行预测洞察来改变医疗决策。 然而,当这些模型在不能充分代表所有人口群体的数据集上进行训练时,就会出现一个严重挑战。 预测疾病患者治疗计划的模型可以在主要包含男性患者的数据集上进行训练。
12/23/2024 1:28:22 PM
AI情报室