数据
全球最大商业图库 Getty Images 推出免费高画质照片 AI 训练集:含 3750 张照片、分 15 项类别
以提供新闻、体育和娱乐照片授权闻名的全球最大的商业图库 Getty Images 上周宣布推出高画质照片样本训练数据集,供开发者开发和训练 AI 模型使用。AI在线获悉,该样本数据集包含 3,750 张照片,分为商业、教育、医疗健康、运动与健身、物品与物体、插图、图标等 15 个类别。数据集提供多种主题的高质量视觉内容,可用于训练机器学习和 AI 模型,开发多种应用场景。▲ 相关图片选集目前,这一数据集已在 Hugging Face 上线(点此访问),不过用户需同意服务条款并提供联系方式,才能免费访问该数据集。Ge
9/9/2024 2:03:16 PM
漾仔
更高分辨率,更经济,深度生成模型与主动学习策略结合,推进大规模单细胞研究
编辑 | 萝卜皮单细胞测序是分析复杂疾病细胞复杂性的重要工具。然而,其高昂的成本阻碍了其在广泛的生物医学研究中的应用。传统的细胞反卷积方法可以从更便宜的批量测序数据中推断出细胞类型比例,但它们无法提供单细胞水平分析所需的精细分辨率。为了克服这一挑战,加拿大麦吉尔大学(McGill University)的研究人员引入了「scSemiProfiler」,这是一个创新的计算框架,将深度生成模型与主动学习策略结合在一起。该方法具有高度精确性,能推断出大群体中的单细胞概况。可与真实的单细胞分析数据紧密结合,支持精细的细胞分
9/3/2024 7:10:00 PM
ScienceAI
迈向「多面手」医疗大模型,上交大团队发布大规模指令微调数据、开源模型与全面基准测试
编辑 | ScienceAI近日,上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队,在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》,从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。GitHub: Link: : ,大型语言模型(LLM)取得了显著的进展,并在医疗领域取得了一定成果。这些模型在医学多
9/3/2024 7:09:00 PM
ScienceAI
谷歌 AI 推出 CardBench 评估框架:含 20 个真实数据库,更全面评估基数估计模型
谷歌 AI 研究人员最新推出了 CardBench 基准,主要为学习型基数估计(cardinality estimation)满足系统评估框架需求。CardBench 基准是个综合评估框架,包含 20 个不同真实数据库中的数千次查询,大大超过了以往的任何基准。项目背景基数估计(cardinality estimation,简称 CE)是优化关系数据库查询性能的关键,涉及预测数据库查询将返回的中间结果数量,直接影响查询优化器对执行计划的选择。对于选择高效的连接顺序、决定是否使用索引以及选择最佳连接方法来说,准确的卡入
9/3/2024 2:35:55 PM
故渊
美国加州通过人工智能训练数据透明度法案,要求企业披露 AI 模型数据来源
今日,美国加州立法机构通过了一项颇具争议的法案 —— 人工智能训练数据透明度法案,该法案将提交给州长加文・纽瑟姆,但其尚未对此法案表态。图源 Pexels该法案旨在要求人工智能公司在开发和训练模型时,对其使用的数据集进行更加透明的披露。AI在线注意到,这项由议员雅克・欧文提出的法案(AB 2013)原本适用范围更广,但在 8 月 20 日范围缩小至仅适用于生成式人工智能,即能生成文本、图像和类似内容的人工智能,例如 Open AI 的 ChatGPT 这类。该法案要求人工智能公司公开其训练模型的关键信息,如数据来源
8/28/2024 2:35:06 PM
远洋
Transformer 作者 Aidan Gomez 预警:只卖模型玩不过 OpenAI
Transformer 八子中最年轻的 Aidan Gomez 在最新的采访中感叹:只卖模型真的不赚钱!谷歌版的 Aidan Gomez,是给 AI 领域带来深远影响的 Transformer 作者之一。而现在的 Aidan Gomez,是估值飙升 55 亿美元的 Cohere 公司的联合创始人兼 CEO(此前推出了 Command R 系列开源大模型)。在这次与 20VC 主理人 Harry Stebbings 的对话中,Aidan Gomez 大谈特谈 AI 的发展趋势。其中的一些话题引发了网友们的关注和讨论,
8/24/2024 1:17:41 PM
清源
明确了:文本数据中加点代码,训练出的大模型更强、更通用
代码知识原来这么重要。如今说起大语言模型(LLM),写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码,即使对于并非专门为代码设计的大模型来说,也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中,研究者系统地研究了代码数据对通用大模型性能的影响。论文链接:「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任
8/22/2024 6:20:00 PM
机器之心
Meta 部署新网络爬虫机器人,为其 AI 模型收集大量数据
北京时间 8 月 21 日,近日,Meta 悄悄地发布了一款新的网络爬虫,用于搜索互联网并收集大量数据,为其人工智能模型提供支持。据三家追踪网络抓取器的公司称,Meta 新网络爬虫机器人 Meta External Agent 于上月推出,类似于 OpenAI 的 GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。根据使用档案历史记录显示,Meta 确实在 7 月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但 Meta 至今还没有公开宣布其新爬虫机器人。
8/21/2024 1:10:05 PM
余青
中国工程院院士邬贺铨:AI 大模型仍需“大力出奇迹”、提升算力枢纽利用率
据中新社报道,中国工程院院士邬贺铨 19 日在 2024 北京人工智能生态大会上表示,人工智能是新质生产力的引擎,大模型的发展仍然需要“大力出奇迹”,多措并举提升对物理世界的模拟能力。算力、数据等是促进人工智能发展的关键要素。据AI在线此前报道,中国信通院 7 月数据显示,截至 2023 年,全国在用算力中心机架总规模已超过 810 万标准机架,算力总规模达到 230EFLOPS,位居全球第二。邬贺铨院士指出,中国已建的算力枢纽的利用率还有较大提升空间,通过集约优化可解决目前对算力的需求。中国具有超大规模市场、海量
8/20/2024 8:56:12 AM
沛霖(实习)
Nature 曝惊人内幕:论文被天价卖出喂 AI,作者 0 收入
Nature 的一篇文章透露:你发过的 paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚 2300 万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗?全球数据告急,怎么办?论文来凑!最近,Nature 的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训 AI 了……据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练 AI 模型。一篇论文从酝酿 idea 到成稿,包含了多少作者日日夜夜的心血,如今很可能在不知情的情况下,就成为训 AI 的数据。这合理吗?更可气的是
8/15/2024 12:53:16 PM
汪淼
最强 AI 程序员 Genie 砸饭碗:84 秒跑通代码,像人一样思考,团队仅 5 人
继 Devin 之后,又一个 AI 软件工程师被刷屏了 —— 它叫 Genie,号称目前地表最强,已经可以像人一样思考和行动了!那么这个“地表最强”,到底强到什么程度?先来看下评测分数。在权威榜单 SWE-Bench 中,Genie 以解决了 30.07% 问题的成绩夺得榜首。(SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。)而这个成绩可谓是遥遥领先第二名 19.27%,解锁了提升 SOTA 的最大增幅 —— 57%!至于 Genie 的实际效果,用团队的话来说就是:它可以做到像人类工程师一样解
8/13/2024 2:00:40 PM
汪淼
「AI 数据荒」雪上加霜,MIT 发现网页数据的公开共享正走向衰落
人工智能系统依靠充足、高质量的训练数据来获得高性能,但 MIT 等机构最近的一项研究发现,曾经免费提供的数据在多个方面变得越来越难获取。随着 GenAI 产品开发和研究变得越来越广泛,训练数据的抓取许可也越来越成为受关注的话题。最近,吴恩达在网站 The Batch 上提及了一篇有关数据许可的研究,其结果似乎让本就迫近的「AI 数据荒」雪上加霜。研究人员发现,C4、RefineWeb、Dolma 等开源数据集所爬取的各种网站正在快速在收紧他们的许可协议,曾经触手可及的开放数据越来越难以获取。这不仅会影响商用 AI
8/13/2024 1:07:59 PM
汪淼
OpenAI 宣布改变开发者大会举办形式,不会公布 GPT-5
8 月 6 日消息,去年,人工智能初创公司 OpenAI 在旧金山举办了首次开发者大会,声势浩大,并推出了包括最终未能成功的 GPT Store(类似苹果应用商店)在内的多款新产品和工具。然而,今年的活动将相对低调。本周一,OpenAI 宣布,将其 DevDay 开发者大会转型为一系列聚焦开发者的参与式会议。公司还确认,在 DevDay 期间不会发布下一代主旗舰模型,而是将重点放在其 API 和开发者服务的更新上。OpenAI 发言人透露:“我们不打算在开发者大会上宣布我们的下一个模型。我们将更多地专注于向开发者介
8/6/2024 12:15:05 PM
小小
英伟达最新技术分享:手把手教你用 Llama 3.1 合成数据改进模型!附代码
适逢 Llama 3.1 模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近,结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了,Nemotron 9T token 的预训练预料中,98% 都是合成数据。也许你还对合成数据存在顾虑,或者不知道如何应用 LLM 驱动数据生成。或许,英伟达的这篇博客可以提供答案。原文地址:,用 LLM 合成数据的本质究
7/29/2024 4:20:08 PM
清源
突破传统缺陷检测的界限,"Defect Spectrum"首次实现超高精度丰富语义的工业缺陷检测。
在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“Defect Spectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“Defect Spectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别),并为不同种类
7/26/2024 2:45:00 PM
机器之心
AI 训 AI 遭投毒 9 次后大崩溃,牛津剑桥等发现登 Nature 封面
感谢AI在线网友 刺客 的线索投递!用 AI 生成的数据训练 AI,模型会崩溃?牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文,今天登上了 Nature 封面。如今,LLM 已经强势入侵了人类的互联网,极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的,我们用网络数据训练出的 GPT-n,会发生什么?论文地址:,如果在训练中不加区别地使用 AI 产生的内容,模型就会出现不可逆转的缺陷 —— 原始内容分布的尾部(低概率事件)会消失!这种效应,被称为「模型崩溃」。换句话说,合成数据就像是近
7/25/2024 4:41:11 PM
汪淼
ChatGPT用于科学,如何与你的数据对话?LLM帮你做科研
编辑 | 白菜叶「计算机,分析。」在科幻小说中,人物不需要编程技能来从数据中提取有意义的信息,他们只是简单地提出要求而已。现在,越来越多的公司正尝试利用大型语言模型 (LLM) 将这一幻想变成现实。这些功能强大的人工智能(AI)工具让研究人员能够用自然语言询问数据问题,例如「对照组和实验组有什么区别?」。但与科幻小说中的人工智能不同,这些人工智能给出的答案仍然需要谨慎对待,并经过仔细检查才能安全使用。想想 ChatGPT 的数据。使用这些工具的原因很简单:筛选和确定生物数据的优先顺序是一项费力且具有挑战性的工作,需
7/25/2024 2:02:00 PM
ScienceAI
基于Transformer的新方法,可从纳米孔测序中准确预测DNA甲基化
编辑 | 萝卜皮DNA 甲基化在各种生物过程中起着重要作用,包括细胞分化、衰老和癌症发展。哺乳动物中最重要的甲基化是5-甲基胞嘧啶,主要发生在 CpG 二核苷酸的背景下。全基因组亚硫酸盐测序等测序方法可以成功检测 5-甲基胞嘧啶 DNA 修饰。然而,它们存在读取长度短的严重缺陷,可能会引入扩增偏差。新加坡 A*STAR 的研究人员开发了一种深度学习算法 Rockfish,该算法通过使用纳米孔测序(Oxford Nanopore Sequencing,ONT)显著提高了读取级 5-甲基胞嘧啶检测能力。该研究以「Roc
7/18/2024 2:33:00 PM
ScienceAI
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind