应用
无论真实还是AI视频,「摩斯卡」都能重建恢复4D动态可渲染场景
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]雷嘉晖,美国宾夕法尼亚大学计算机系博士生 (2020 - 今), 导师为 Kostas Daniilidis 教授,目前主要研究方向为四维动态场景几何的建模表示和算法以及应用。他在计算机视
6/21/2024 3:08:00 PM
机器之心
力压GPT-4o!新王Claude 3.5 Sonnet来了,直接免费可用
如今,大模型领域更卷了!前脚 OpenAI 发布 GPT4o,硬控全场,后脚就被最大的竞争对手 Anthropic 超越了。刚刚,Anthropic 发布了全新大模型 Claude 3.5 Sonnet,号称是迄今为止最智能的模型。据介绍,Claude 3.5 Sonnet 是 Anthropic 即将推出的 Claude 3.5 系列的首个版本。该模型提高了整个领域的智能水平,在绝大多数基准评估中都超越了竞品大模型和自家前代最强 Claude 3 Opus。与此同时,运行速度、成本与自家前代 Claude 3 S
6/21/2024 3:03:00 PM
机器之心
腾讯混元文生图大模型开源训练代码,发布LoRA与ControlNet插件
6月21日,腾讯混元文生图大模型(以下简称为混元DiT模型)宣布全面开源训练代码,同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这意味着,全球的企业与个人开发者、创作者们,都可以基于混元DiT训练代码进行精调,创造更具个性化的专属模型,进行更大自由度的创作;或基于混元DiT的代码进行修改和优化,基于此构建自身应用,推动技术的快速迭代和创新。作为中文原生模型,用户在通过混元DiT的训练代码进行精调时,可以直接使用中文的数据与标签,无需再将数据翻译成英文。此前,腾讯混元文生图大
6/21/2024 2:04:00 PM
新闻助手
阿里云推出首个 AI 程序员,具备架构师、开发 / 测试工程师等岗位技能
在今天的阿里云上海 AI 峰会上,阿里云推出首个“AI 程序员”,具备架构师、开发工程师、测试工程师等岗位技能,能完成任务分解、代码编写、测试、问题修复、代码提交整个过程,号称最快“分钟级”完成应用开发。据介绍,该“AI 程序员”是基于通义大模型构建的多智能体,包含任务分解、编码、测试等不同板块,与“通义灵码”有所不同。在收到用户需求后,“AI 程序员”就可实现软件开发“一条龙”:理解需求-拆分任务-编写代码-识别并解决报错-提交代码。 据IT之家此前报道,阿里云去年 11 月推出了 AI 编程工具通义灵码,兼容
6/21/2024 1:39:41 PM
清源
武大等开源大幅面高清卫星影像数据集:涵盖 21 万 + 地理目标,复杂地理空间场景知识精准生成
AI 卫星影像知识生成模型数据集稀缺的问题,又有新解了。来自武汉大学、上海 AI 实验室、西工大等 9 家机构共同推出了该领域的大型数据集,涵盖了 21 万个地理目标和 40 万个目标-关系三元组。而且像机场、港口、立交桥等这样复杂地理空间场景,也都包括在了数据集当中。具体来说,该数据集名为 RSG,主要面向卫星影像中的目标检测(OBD)和场景图生成(SGG)任务。SGG 有助于促进模型对地理空间场景从感知到认知的智能理解,但一直缺乏大幅面、超高分辨率的卫星影像数据。而 RSG 的出现很好地填补了这一空白,一同提出
6/21/2024 1:28:04 PM
汪淼
软银创始人孙正义:新一轮投资将致力于打造“超级人工智能”
据彭博社报道,软银集团创始人孙正义今天在年度大会上对股东表示,他计划打造一个“超级人工智能”时代。孙正义此次描绘了创造出“比人类聪明数千倍”的人工智能的雄心壮志。他表示,Arm 的芯片将支持一个由机器人和强大数据中心组成的生态系统,可以共同治疗癌症、打扫房屋、与孩子一起玩耍。孙正义在今天的大会上出现了数次情绪激动的状况,直言想在永远离开世界之前“改变世界”。他谈到了自己的故友史蒂夫・乔布斯,“当我意识到自己的遗产与乔布斯的遗产相比,实在是相形见绌时,我常常会泪流满面。”“实现超级人工智能是我要做的事情,”孙正义说道
6/21/2024 1:21:56 PM
清源
捕捉关键球员默契度,TuGraph程序员用图计算加大模型做足球预测
2024年欧洲杯比赛正酣。在赛场之外,一些围绕观赛的自发科技创新也开始涌现,成为了一道独特的风景。近日,据TuGraph图计算官方微信,其创新小组研发了一项融合图计算、大模型等技术的足球赛事分析工具“智猜足球”,旨在探索新兴人工智能技术在体育赛事应用的可行性。据介绍,这项应用分析了一年多以来欧洲各球队和俱乐部的赛事公开数据,利用图算法构建了一张球员关系网络图,分析了近30000名球员之间的协作关系,并借助图神经网络(GNN)、Transformer、大语言模型等前沿技术,量化球员间的默契配合与竞技对抗元素,训练了近
6/21/2024 11:34:00 AM
新闻助手
百图生科、智子引擎获新投资;Anthropic发布其最强大模型Claude3.5;Ilya创立安全超级智能公司丨AI情报局
融资快报百图生科获得港投公司的战略投资:百图生科由百度创始人李彦宏牵头发起,依托原BV百度风投生物智能团队及其50家全球被投企业的生态基础组建。 计划投入上百亿元建设自主可控的生物计算平台,利用前沿算法、智能传感器、智能芯片、微纳机器人等AI能力解决生命科学问题。 (IT桔子)智子引擎获得Pre-A轮投资:智子引擎是一家多模态大模型研究和开发商,发布了第一款应用级多模态ChatGPT产品“元乘象 ChatImg”。
6/21/2024 10:17:00 AM
我在思考中
德国研究团队发布新 AI 模型,可根据网球运动员肢体语言识别情绪
据 ScienceDaily17 日报道,德国卡尔斯鲁厄理工学院和杜伊斯堡-埃森大学研究人员借助计算机辅助神经网络,准确识别了网球运动员在比赛中的肢体语言所表达的情绪。团队首次利用实际比赛数据训练了这一基于 AI 的模型,研究成果登上了最新一期人工智能领域学术期刊《知识系统》。IT之家附链接:,两所学校的体育科学、软件开发与计算机科学研究人员开发了一种特殊的 AI 模型,利用卷积神经网络识别网球运动员的情感状态,并使用模式识别程序分析了实际比赛中网球运动员的视频。卡尔斯鲁厄理工学院体育与运动科学研究所 Darko
6/21/2024 10:10:06 AM
清源
“力压 GPT-4o 和 Gemini 1.5 Pro”,Anthropic 推出 Claude 3.5 Sonnet AI 模型
Anthropic 今天(6 月 21 日)推出了 Claude 3.5 Sonnet,这是 Claude 3.5 系列的首个模型版本,在各项评估中优于 OpenAI 的 GPT-4o 和谷歌的 Gemini 1.5 Pro。Claude 3.5 Sonnet 在前代的基础上迭代升级,性能更快,编码、视觉和自然语言理解能力更强。Claude 3.5 Sonnet 属于中等尺寸模型,介于小型 Haiku 和高端 Opus 之间,但 Anthropic 声称,根据内部基准测试,Sonnet 的性能甚至超过了顶级 Opu
6/21/2024 9:28:39 AM
故渊
有望不再建议往披萨里加胶水?数据显示谷歌已降低 Reddit 对 AI 搜索结果的影响
今年的谷歌 I / O 大会上,谷歌推出了“重磅功能”—— 基于 AI 的搜索(AI 摘要 / AI Overviews)。然而在此功能上线后不久,不少用户反馈称 AI 会生成一些奇怪的结果,例如往披萨里加胶水防止配料掉落、每天吃几块小石头等等。据悉,部分奇怪回复是 AI 系统从 Reddit 帖子中提取信息而造成的,例如往披萨里加胶水就来自一个 11 年前的 Reddit 帖子。根据搜索引擎优化平台 SERanking 当地时间 20 日公布的数据显示,Reddit 已经不再是谷歌“AI 摘要”功能信息来源的前十
6/21/2024 8:31:22 AM
清源
ComfyUI 插件竟然包含病毒!做好这 5 点降低中招风险
大家好,这里是和你们一起探索 AI 的花生~
ComfyUI 是目前最受欢迎的开源 AI 绘画绘画工具之一,它具有极高的灵活性,只需安装对应的插件就可以自己搭建工作流,实现个性化出图或体验最新的 AI 模型。如果你是 ComfyUI 的深度用户,那么安装各类插件肯定是家常便饭了,不过最近出现的一起 ComfyUI 插件包含恶意病毒的事件,却让我们看到了开源社区自由繁荣背后的另一面,如果不提高防范意识,下一个受害的很可能就是我们自己。
相关推荐:一、病毒插件 ComfyUI_LLMVISION
事情的起因是网友 @_
6/21/2024 8:01:31 AM
夏花生
AI 时代做 UX 个性化,没人会告诉你这些事情
编者按:这篇文章来自 Google Flights 的 UX 研究负责人 Slava Polonski ,他也是 Google's People AI Guidebook 的研究员。他拥有牛津大学博士学位,曾入选福布斯 30 Under 30 榜单。他是世界经济论坛专家网络和世界经济论坛全球塑造者社区的活跃成员。他撰写的文章涉及用户体验、社会科学和技术的交叉领域。作为一个横跨 UX 和 AI 两大领域的资深研究者,他撰写了这篇文章,不仅深入剖析了 UX 领域个性化问题的本质,而且也指出了 AI 时代 UX 领域前进
6/21/2024 7:56:32 AM
Slava Polonski
OpenAI 竞争对手 Anthropic 发布其最强 AI 大模型 Claude 3.5
感谢IT之家网友 VrianCao、Diixx、我抢了台 的线索投递!OpenAI 竞争对手 Anthropic 周四发布了其迄今为止最强大的 AI 模型 Claude 3.5 Sonnet。与 OpenAI 的 ChatGPT 和谷歌 Gemini 一样,Claude 在过去的一年里也是人气爆棚。Anthropic 由 OpenAI 前研发高管创立,赢得了谷歌、Salesforce 和亚马逊的支持。在过去的一年里,Anthropic 完成了五笔融资,总额约为 73 亿美元。今年 3 月,Anthropic 推出了
6/20/2024 11:30:35 PM
-
北京市首例“AI 换脸”软件侵权案宣判:国风博主短视频被“换脸”后制作成付费模板
据北京互联网法院消息,6 月 20 日,北京互联网法院一审开庭宣判了两起北京市首例“AI 换脸”软件侵权案件,认定使用他人视频“换脸”后制作模板再提供“换脸”服务的网络服务提供者侵害了他人的个人信息权益。两案原告廖某、吴某均系国风短视频模特,在全网拥有众多粉丝。被告是一款“换脸”App 的运营者。原告主张,在未经其授权同意的情况下,被告使用原告的出镜视频制作换脸模板,并上传至涉案换脸 App 中,提供给用户付费使用借此牟利。原告认为,被告的行为侵害了原告的肖像权。同时,被告未经原告同意擅自上传和使用了具有原告肖像信
6/20/2024 10:50:54 PM
汪淼
AMD 发布 ROCm 6.1.3,支持 RX 7900 GRE 显卡及 TensorFlow
AMD 正式推出了最新的 ROCm(Radeon Open Compute)平台,宣布支持多 GPU 集群,例如双 RX 7900XTX 或 W7900 显卡、2 张或 4 张 PRO W7900 双槽工作站显卡。除此之外,ROCm 还支持了更多 RDNA3 显卡,包括 Radeon RX 7900 GRE,以及本月新推出的 PRO W7900 双槽工作站显卡,后者定价 3499 美元(IT之家备注:当前约 25433 元人民币)。除此之外,新版 ROCm 最重要的一点还在于增加了对 WSL 2 (Windows
6/20/2024 9:14:18 PM
问舟
吊打阿里EMO?让马斯克唱Rap、奥特曼说脱口秀的AI神器出圈,人人免费可用
机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。 我们也欢迎读者投稿亲自实践的创新型用例。最近,AI 圈刮起一股「让照片开口唱歌」的风潮。例如,让霉霉唱碧昂丝《Halo》的 Hallo、斯坦福创业团队的 Proteus、以及之前阿里出品的 EMO。就在昨天,又有一家名为 Hedra 的公司前来踢馆,推出了基础模型 ——
6/20/2024 8:05:00 PM
机器之能
前百度高管景鲲创立Genspark获4.35亿融资;CuspAI获3000万美元融资;Hinton担任董事会顾问丨AI情报局
情报局直击CVPR2024 超 1.2 万人参加 CVPR 2024,谷歌研究院获得最佳论文 : 2024 年的 CVPR 会议在美国西雅图举办,成为了该会议历史上最大规模和最多参与人数的一届,共有 1.2 万人参与。 本届会议共有 35691 位注册作者,提交了 11532 篇论文,其中 2719 篇论文被接收,录用率为 23.6%。 与去年相比,论文数量增加了 20.6%,但录用率略有下降。
6/20/2024 6:39:00 PM
我在思考中
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Gemini
Stable Diffusion
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
Sora
3D
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind