AI在线 AI在线

数据

Nature 子刊,纠缠数据有双重效应,武大、北大「量子纠缠」研究新进展

编辑 | X量子纠缠是量子计算的核心资源。将纠缠集成到量子机器学习(QML)模型的测量中,导致训练数据大小大幅减少,超过指定的预测误差阈值。然而,对数据纠缠度如何影响模型性能的分析理解仍然难以捉摸。在此,来自武汉大学、北京大学、南洋理工大学和悉尼大学的研究团队,通过建立量子「没有免费的午餐」 (no-free-lunch,NFL) 定理来解决这一知识差距。与之前的发现相反,研究证明纠缠数据对预测误差的影响表现出双重效应,具体取决于允许的测量数量。通过足够数量的测量,增加训练数据的纠缠可以一致地减少预测误差,或减小实
5/8/2024 12:01:00 PM
ScienceAI

从基因组到蛋白质组连续翻译,南开大学开发通用跨模态数据分析方法

编辑 | 萝卜皮近期,科学家在单个细胞内同时分析多组学模态的进展,使得细胞异质性和分子层次结构的研究成为可能。然而,技术限制导致多模态数据的高噪声和高昂的成本。在这里,南开大学的研究团队提出了 scButterfly,一种基于双对齐变分自动编码器和数据增强方案的多功能单细胞跨模态翻译方法。通过对多个数据集的全面实验,研究人员证明 scButterfly 在保留细胞异质性、同时翻译各种背景的数据集和揭示细胞类型特异性生物学解释方面优于基线方法。同时,scButterfly 可应用于单模态数据的综合多组学分析、低质量单
5/4/2024 7:13:00 PM
ScienceAI

美国酝酿 AI「登月计划」,陶哲轩领衔 62 页报告重磅发布

【新智元导读】就在刚刚,陶哲轩领衔的一份 62 页报告出炉了,总结和预测了 AI 对半导体、超导体、宇宙基础物理学、生命科学等领域带来的巨大改变。如果这些预测在几十年后能够实现,美国酝酿的 AI「登月计划」就将成真。就在刚刚,陶哲轩领衔的一份 AI 技术对全球研究潜在影响的技术报告发布了。这份报告长达 62 页,总结了 AI 对材料、半导体设计、气候、物理、生命科学等领域已经做出的改变,以及预测它们在未来可能由 AI 产生的改变。报告地址: AI 工具已经改变的科学领域的小插曲,陶哲轩等人还发出了三个呼吁 ——1.
5/1/2024 2:54:04 PM
清源

平均准确率达96.4%,中山大学&重庆大学开发基于Transformer的单细胞注释方法

编辑 | 萝卜皮使用测序 (scATAC-seq) 技术对转座酶可及的染色质进行单细胞测定,可在单细胞分辨率下深入了解基因调控和表观遗传异质性,但由于数据的高维性和极度稀疏性,scATAC-seq 的细胞注释仍然具有挑战性。现有的细胞注释方法大多集中在细胞峰矩阵上,而没有充分利用底层的基因组序列。在这里,中山大学与重庆大学的研究人员提出了一种方法 SANGO,通过在 scATAC 数据中的可及性峰周围整合基因组序列来进行准确的单细胞注释。SANGO 在跨样本、平台和组织的 55 个配对 scATAC-seq 数据集
4/29/2024 10:17:00 AM
ScienceAI

172个机构合作,发现奇异粒子,机器学习分析约1.6亿次粒子碰撞数据

ATLAS 事件显示了本研究中神经网络发现的与标准模型预测偏差最大的八个事件之一。(来源:欧洲核子研究中心)编辑 | X粒子物理学家的任务是挖掘大量不断增长的碰撞数据,寻找尚未发现的粒子证据。特别是,他们正在寻找未包含在粒子物理标准模型中的粒子,科学家怀疑我们目前对宇宙构成的理解是不完整的。近日,来自 ATLAS 合作组的 172 个研究机构的科学家,使用一种受大脑启发的机器学习算法——神经网络,来筛选大量粒子碰撞数据,搜索数据中的异常特征或异常现象。研究团队使用一种称为异常检测的机器学习方法来分析大量 ATLAS
4/18/2024 2:05:00 PM
ScienceAI

中国电信开源 TeleChat-12B 星辰语义大模型,年内开源千亿级参数大模型

感谢中国电信已开源 120 亿参数 TeleChat-12B 星辰语义大模型,还表示将于年内开源千亿级参数大模型。相较 1 月开源的 7B 版本,12 版版本在内容、性能和应用等方面整体效果提升 30%,其中多轮推理、安全问题等领域提升超 40%。据介绍,TeleChat-12B 将 7B 版本 1.5T 训练数据提升至 3T,优化数据清洗、标注策略,持续构建专项任务 SFT (监督微调) 数据,优化数据构建规范,大大提升数据质量;同时,基于电信星辰大模型用户真实回流数据,优化奖励模型和强化学习模型,有效提升模型问
4/16/2024 8:47:46 PM
问舟

你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢

新智元报道  编辑:Aeneas 好困【新智元导读】2026 年的数据荒越来越近,硅谷大厂们已经为 AI 训练数据抢疯了!它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天,该怎么办?谁能想到,我们多年前的聊天记录、社交媒体上的陈年照片,忽然变得价值连城,被大科技公司争相疯抢。现在,硅谷大厂们已经纷纷出动,买下所有能购买版权的互联网数据,这架势简直要抢破头了!图像托管网站 Photobucket 的陈年旧数据,本来已经多年无人问津,但
4/7/2024 1:36:43 PM
远洋

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,O
4/7/2024 7:02:17 AM
汪淼

弱智吧竟成最佳中文 AI 训练数据?中科院等:8 项测试第一,远超知乎豆瓣小红书

离大谱了,弱智吧登上正经 AI 论文,还成了最好的中文训练数据??具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。没错,论文中的 Ruozhiba 就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院
4/4/2024 2:39:50 PM
清源

联合国际顶尖高校 昆仑万维开源数字智能体研发工具包AgentStudio

AgentStudio旨在为研究人员和开发者提供一个覆盖智能体完整开发流程的综合性平台,让开发者们能够轻松、高效、灵活地构建专属数字智能体。
3/30/2024 10:21:00 AM
机器之心

可用于训练“常见皮肤疾病”AI,谷歌推出 SCIN 数据集

谷歌官方新闻稿,谷歌近日与斯坦福大学医学院合作,收集了涵盖各种肤色、身体部位皮肤疾病照片,整合而成一款用于 AI 训练的“SCIN 数据集”,该数据集号称“完全使用志愿者利用网络提交的照片”,因此号称可以“反映出人们常见的皮肤问题”。▲ 图源 谷歌官方新闻稿(下同)谷歌提到,业界许多医疗专用的皮肤科影像数据集中通常为“重大疾病”,例如人们常见的皮疹、过敏、感染等照片通常不会在数据集中,因此对于应擅长判定人们日常疾病的 AI 模型使用业界常用的医疗专业数据集做训练反而有所缺憾。而谷歌目前推出的 SCIN 数据集收录了
3/22/2024 4:20:59 PM
漾仔

腾讯AI Lab 3篇蛋白质组论文入选国际顶级期刊,为阐释生命提供重要技术参考

编辑 | ScienceAI只有蛋白质组才能从根本上阐释生命。3月20日,腾讯 AI Lab实验室3篇蛋白质组论文相继入选国际顶级学术期刊,论文分别在蛋白质组的检测、分析以及探索发现方面提出全新的研究方案,为人类从根本上阐释生命提供重要技术参考。科学界曾经认为,只要绘制出人类基因组序列图,就能了解疾病的根源,但事实并非如此。相同的基因往往有不同的表达,比如,人体不同组织器官的基因组是一样的,但是各个组织器官的蛋白质组不完全一样。人和鼠的基因组的差别仅为1%,但是其形态、性状差别非常大,这就是蛋白质组不一样的体现。中
3/20/2024 5:54:00 PM
ScienceAI

大模型增速远超摩尔定律!MIT 最新研究:人类快要喂不饱 AI 了

【新智元导读】近日,来自 MIT (麻省理工学院)的研究人员发表了关于大模型能力增速的研究,结果表明,LLM 的能力大约每 8 个月就会翻一倍,速度远超摩尔定律!硬件马上就要跟不上啦!我们人类可能要养不起 AI 了!近日,来自 MIT FutureTech 的研究人员发表了一项关于大模型能力增长速度的研究,结果表明:LLM 的能力大约每 8 个月就会翻一倍,速度远超摩尔定律!论文地址: 的能力提升大部分来自于算力,而摩尔定律代表着硬件算力的发展,—— 也就是说,随着时间的推移,终有一天我们将无法满足 LLM 所需要
3/18/2024 4:41:06 PM
清源

OpenAI 首席技术官:不确定 Sora 的训练数据来自哪里

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora,然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详,无法明确说明 Sora 的训练数据来源。在采访中,记者直接询问 Murati 关于 Sora 训练数据来源时,她仅以含糊的官方话术搪塞:“我们使用的是公开可用数据和许可数据。”当记者追问具体来源是否包含 YouTube 视频时,Murati 竟然表示“我实际上并不确定(I'm actually not sure about that)”,并拒绝回答有关 In
3/18/2024 4:07:57 PM
远洋

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

合成数据持续解锁大模型的数学推理潜力!数学问题解决能力一直被视为衡量语言模型智能水平的重要指标。通常只有规模极大的模型或经过大量数学相关预训练的模型才能有机会在数学问题上表现出色。近日,一项由 Swin-Transformer 团队打造,来自西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作 Xwin 颠覆了这一认知,揭示了通用预训练下 7B(即 70 亿参数)规模的语言模型(LLaMA-2-7B)在数学问题解决方面已经展现出较强的潜力,并可使用基于合成数据的有监督微调方法促使模型愈发
3/14/2024 2:47:00 PM
机器之心

星尘数据MorningStar正式发布!狙击“数据债”成最大看点

3月11日,AI数据技术公司星尘数据(Stardust AI)正式发布MorningStar——一款面向AI的数据闭环产品。 MorningStar是目前首个专注数据价值发现的AI数据平台,基于DataOps的理念打造,全面覆盖AI算法从训练到生产全链路中的数据发现、管理、协作、迭代等各个环节。  ▲MorningStar正式发布数据技术已经推动了人工智能的三次变革。
3/13/2024 3:31:00 PM
王悦

更全面、更准确的方法,佐治亚理工学院团队用DL对scRNA-seq数据进行批次效应和条件效应建模

编辑 | 萝卜皮单细胞 RNA 测序 (scRNA-seq) 已广泛用于疾病研究,其中在不同条件下(包括人口群体、疾病阶段和药物治疗)从捐赠者中收集样本批次。值得注意的是,此类研究中样本批次之间的差异是批次效应引起的技术混杂因素和条件效应引起的生物变异的混合体。但是,当前的去除批次效应方法往往同时消除技术批次效应和有意义的条件效应,而扰动预测方法仅关注条件效应,导致由于未考虑批次效应而导致基因表达预测不准确。在最新的研究中,佐治亚理工学院(Georgia Institute of Technology,GT)的研究
3/11/2024 6:22:00 PM
ScienceAI

OpenAI 视频生成服务 Sora 引发隐私担忧,意大利数据监管机构展开调查

感谢意大利数据保护机构 (Garante) 周五宣布,已对微软支持的 OpenAI 公司开发的一项服务展开调查,这个名为 Sora 的服务可以根据文本提示生成视频。监管机构要求 OpenAI 澄清其向用户和非用户告知其产品 Sora 使用的数据的方式是否符合欧盟法规。OpenAI 公司暂未对此事发表评论。意大利数据监管机构是欧盟国家中最为积极的监管机构之一,一直致力于评估人工智能平台是否符合欧盟的数据隐私法规。IT之家注意到,去年该机构就以涉嫌违规使用用户数据为由,禁止了聊天机器人 ChatGPT 在意大利的使用。
3/10/2024 5:42:41 PM
远洋