全球最大商业图库 Getty Images 推出免费高画质照片 AI 训练集:含 3750 张照片、分 15 项类别
以提供新闻、体育和娱乐照片授权闻名的全球最大的商业图库 Getty Images 上周宣布推出高画质照片样本训练数据集,供开发者开发和训练 AI 模型使用。AI在线获悉,该样本数据集包含 3,750 张照片,分为商业、教育、医疗健康、运动与健身、物品与物体、插图、图标等 15 个类别。数据集提供多种主题的高质量视觉内容,可用于训练机器学习和 AI 模型,开发多种应用场景。▲ 相关图片选集目前,这一…- 0
- 0
美国加州通过人工智能训练数据透明度法案,要求企业披露 AI 模型数据来源
今日,美国加州立法机构通过了一项颇具争议的法案 —— 人工智能训练数据透明度法案,该法案将提交给州长加文・纽瑟姆,但其尚未对此法案表态。图源 Pexels该法案旨在要求人工智能公司在开发和训练模型时,对其使用的数据集进行更加透明的披露。AI在线注意到,这项由议员雅克・欧文提出的法案(AB 2013)原本适用范围更广,但在 8 月 20 日范围缩小至仅适用于生成式人工智能,即能生成文本、图像和类似内…- 3
- 0
摩尔线程开源音频理解大模型 MooER:基于国产全功能 GPU 训练和推理
摩尔线程开源了音频理解大模型 —MooER(摩耳),是业界首个基于国产全功能 GPU 进行训练和推理的大型开源语音模型。基于摩尔线程夸娥(KUAE)智算平台,MooER 大模型用 38 小时完成了 5000 小时音频数据和伪标签的训练。MooER 不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。在 Covost2 中译英测试集中,MooER-5K 取得了 25.2 的 BLEU 分数,接…- 4
- 0
明确了:文本数据中加点代码,训练出的大模型更强、更通用
代码知识原来这么重要。如今说起大语言模型(LLM),写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码,即使对于并非专门为代码设计的大模型来说,也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中,研究者系统地研究了代码数据对通用大模型性能的影响…- 4
- 0
Nature 曝惊人内幕:论文被天价卖出喂 AI,作者 0 收入
Nature 的一篇文章透露:你发过的 paper,很可能已经被拿去训练模型了!有的出版商靠卖数据,已经狂赚 2300 万美元。然而辛辛苦苦码论文的作者们,却拿不到一分钱,这合理吗?全球数据告急,怎么办?论文来凑!最近,Nature 的一篇文章向我们揭露了这样一个事实:连科研论文,都被薅去训 AI 了……据悉,很多学术出版商,已经向科技公司授权访问自家的论文,用来训练 AI 模型。一篇论文从酝酿 …- 5
- 0
最强 AI 程序员 Genie 砸饭碗:84 秒跑通代码,像人一样思考,团队仅 5 人
继 Devin 之后,又一个 AI 软件工程师被刷屏了 —— 它叫 Genie,号称目前地表最强,已经可以像人一样思考和行动了!那么这个“地表最强”,到底强到什么程度?先来看下评测分数。在权威榜单 SWE-Bench 中,Genie 以解决了 30.07% 问题的成绩夺得榜首。(SWE-Bench 是一个用来评估大模型解决现实中软件问题的基准。)而这个成绩可谓是遥遥领先第二名 19.27%,解锁了…- 3
- 0
消息称马斯克 X 平台同意不使用部分欧盟用户数据来训练 AI
感谢路透社今天(8 月 9 日)报道,马斯克旗下的 X 平台同意不使用部分欧盟用户数据,来训练其 AI 聊天机器人。爱尔兰一家法院周四表示,社交媒体平台 X 同意在欧盟用户选择撤销同意之前,暂时不使用从他们那里收集的个人数据来训练其 AI 系统。爱尔兰数据保护委员会本周寻求一项命令,要求暂停或限制 X 公司,不得处理用户数据来开发、训练或改进其人工智能系统。AI在线曾于 7 月报道,X 用户发现他…- 3
- 0
马斯克 X 平台因抓取用户数据训练 AI 在爱尔兰被起诉
感谢爱尔兰数据保护委员会(DPC)向高等法院提起诉讼,指控马斯克旗下的 X 平台擅用用户数据,用于训练 Grok AI 模型等增强型搜索工具。DPC 已委托 Remy Farrell SC 律师事务所提交诉讼,指控 Twitter International Unlimited Company 公司没有遵守 GDPR 规定的义务,使用用户数据训练 Grok。DPC 表示 X 平台虽然已提供了退出等…- 4
- 0
清华“太极-Ⅱ”光芯片面世:成果登 Nature,首创全前向智能光计算训练架构
据清华大学官方消息,清华大学电子工程系方璐教授课题组、自动化系戴琼海院士课题组另辟蹊径,首创了全前向智能光计算训练架构,研制了“太极-II”光训练芯片,实现了光计算系统大规模神经网络的高效精准训练。该研究成果以“光神经网络全前向训练”为题,于北京时间 8 月 7 日晚在线发表于《自然》期刊。AI在线查询获悉,清华大学电子系为论文第一单位,方璐教授、戴琼海教授为论文的通讯作者,清华大学电子系博士生薛…- 14
- 0
Meta 构建分布式 RoCEv2 网络:探索串联数万片 GPU,训练千亿参数级 AI 模型
Meta 公司于 8 月 5 日发布博文,表示为了满足大规模分布式 AI 训练对网络的需求,构建了基于 RoCEv2 协议的大规模 AI 网络。RoCEv2 的全称是 RDMA Over Converged Ethernet version 2,是一种节点间通信传输方式,用于大部分人工智能容量。Meta 公司已成功扩展了 RoCE 网络,从原型发展到部署了众多集群,每个集群可容纳数千个 GPU。这…- 13
- 0
英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI
科技媒体 404Media 披露的文件显示,英伟达收集了大量受版权包含的内容,用于训练人工智能(AI)。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示,英伟达从 YouTube 等多个来源收集视频素材,用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑,认为擅自使用 YouTube 视频以及研究目的编译的数据集,在法律层面可能会存在问题。不过项目经理的回…- 7
- 0
寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯:虚拟试衣新框架,只需两张图 30 秒即生成
只需两张图像,不到 30 秒,就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子,还是…- 8
- 0
全新FBI-LLM低比特大语言模型发布:首个从零训练的二值化语言模型
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播- 8
- 0
AI 训 AI 遭投毒 9 次后大崩溃,牛津剑桥等发现登 Nature 封面
感谢AI在线网友 刺客 的线索投递!用 AI 生成的数据训练 AI,模型会崩溃?牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文,今天登上了 Nature 封面。如今,LLM 已经强势入侵了人类的互联网,极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的,我们用网络数据训练出的 GPT-n,会发生什么?论文地址:,如果在训练中不加区别地使用 AI 产生的内容,模型就会出…- 5
- 0
番茄小说被曝要求网文作者同意将作品用于训练 AI,引发作者联合抵制
据蓝鲸新闻今晚报道,近期有不少网文作者发帖称,字节跳动网文平台“番茄小说”的签约协议中增加了“AI 训练补充协议”,要求作者同意给平台“喂”作品,用于“内容开发”。觉察到这一情况的作者前往同为字节系的“豆包”AI 进行验证,不少人通过和豆包的对话获得了自己已发表作品的故事梗概和大纲。抖音集团方对此回应称,豆包是基于公开搜索结果呈现作品及概述,不存在盗用信息行为。番茄小说对于已经签署补充协议、或签约…- 12
- 0
科技巨头被曝未经授权用 YouTube 内容训练 AI,苹果、英伟达在列
据 Wired 报道,包括苹果在内的一些科技巨头未经 YouTube 视频创作者同意,就使用了他们视频的字幕文件来训练人工智能模型。AI在线注意到,此次事件影响到的创作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脱口秀主持人斯蒂芬・科尔伯特、约翰・奥利弗和吉米・坎摩尔等。这些被用于训练 AI 的字幕文件相当于视频的文本转录内容。调查…- 4
- 0
模型训练成本“平民化”,前特斯拉 AI 总监 24 小时仅用 672 美元“重现”GPT-2
GPT-2 是 OpenAI 于 2019 年推出的模型,其训练费用一度为每小时 256 美元,那么 5 年过后的 GPT-4 时代,软硬件和数据的进步,是否意味着训练同一模型所需的时间和成本会随之减少呢?答案是肯定的。据 Tom's Hardware 今日报道,前特斯拉 AI 总监、OpenAI 联合创始人、项目开发者 Andrej Karpathy 使用 llm.c“重现”了 GPT…- 7
- 0
人形机器人将当上银行“大堂经理”,国内首个场景训练基地在上海浦东启用
据“上海金融官微”公众号,国内首个人形机器人银行大堂经理场景训练基地在建行上海浦东分行正式启用。银行大堂经理场景训练基地是业内首个商业银行场景应用训练基地,其首次采用开放式的创新训练模式,有助于加快提升人形机器人的能力,推动关键技术、重点产品和重点场景应用。据介绍,此次参训的机器人拥有高度仿生的躯干构型和拟人化的运动控制,结合视觉、听觉、语音等人工智能技术,科学家可以通过具身智能的推理和规划等对其…- 16
- 0
北大千问团队推出数学专用版 CriticGPT,“找茬”让大模型进步更快
批评不仅能让人进步,也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是,就在 CriticGPT 放出的前几天,北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下,验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上,它可以让模型的准确率从 86.6…- 4
- 0
Anthropic 首席执行官:未来三年内,AI 大模型训练成本将上升至百亿甚至千亿美元
据 Tom's Hardware 今日报道,AI 初创公司 Anthropic 的首席执行官 Dario Amodei 近期接受播客节目采访时表示,目前像 GPT-4o 这样的模型训练成本约为 1 亿美元,而目前正在开发的 AI 大模型训练成本可能高达 10 亿美元(AI在线备注:当前约 72.94 亿元人民币)。当然,10 亿美元还不是“终点”。Dario Amodei 作出预测,未来…- 4
- 0
破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍
感谢AI在线网友 刺客 的线索投递!ChatGPT 早已成为世界耗能大户:一天用掉超 50 万度电,相当于 1.7 万个美国家庭的用电量!然而,大模型对能源的吞噬,远不仅如此。国际能源署(IEA)预测,从 2022 年到 2026 年,数据中心的用电量将翻一番。随着 AI 计算需求的膨胀,还需要用水来冷却计算系统。研究称,微软用水量从 2021 年到 22 年飙升了 34%,ChatGPT 每处理…- 15
- 0
巴西政府机构出手,禁止 Meta 公司应用用户数据训练生成式 AI 模型
感谢据美联社报道,巴西国度数据保护局本地时间周二(2 日)认定,拥有 Facebook、Instagram、WhatsApp 等平台的交际搜集巨头 Meta 将不得应用来自巴西的数据来训练其生成式 AI 模型。Meta 短期革新了隐衷政策,允许公司可将人们的暗地帖子用于训练其模型。根据巴西国度数据保护局的公报,Meta 此举将会对受影响数据主体的基本权利造成严重的、不可挽回的或难以修复的损害,此次…- 4
- 0
从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定
很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在这篇博客中,作者将展示如何将从头开始构建一个小规模的文本生成视频模型,涵盖了从理解理论概念、到编辑整个架构再到生成最终结果的所有内容。由于作者没有大算力…- 8
- 0
Yandex 开源 LLM 训练对象浪费高达 20% 的 GPU 资本
跨国科技公司 Yandex 最近推出了 YaFSDP,这是一种用于训练大型语言模型 (LLM) 的开源方法。YaFSDP 是目前最有效的公开可用对象,用于增强 GPU 通讯并减少 LLM 训练中的内存运用量,与 FSDP 相比,其训练速率晋升最高可达 26%,具体取决于架构和参数数量。通过运用 YaFSDP 减少 LLM 的训练时间可以浪费高达 20% 的 GPU 资本。Yandex 承诺为寰球人…- 3
- 0
训练
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!