应用

2024 WAIC「全球创新项目路演」征集！最高可获千万算力补贴

新一代人工智能正在全球范围内蓬勃兴起，为经济社会发展注入了新动能，我国正以开放的胸襟拥抱 AI，上海更以包容的氛围滋养 AI，持续打造更加融通开放的生态、更加活跃的创新集群、更加泛在的超级场景、更加安全的敏捷治理。 7月4日-6日，2024 世界人工智能大会（WAIC）如期在上海举行，本次将围绕“以共商促共享以善治促善智”的主题，打造“会议论坛、展览展示、评奖赛事、智能体验”四大核心内容。在每年的世界人工智能大会上，「全球创新项目路演」亦成为重要看点。

6/21/2024 3:25:00 PM 王悦

Luma、Runway轮番炸场，视频生成卷出新高度，Sora还能称霸吗？来这场WAIC视频生成论坛寻找答案

2023 年 PIKA 发布时，马斯克曾论断称 2024 年将是「人工智能电影」元年。年初 Sora 惊艳亮相、大杀四方，接着 Stable Video Diffusion 、LTX Studio、谷歌 Veo 轮番炸场，再到近期的可灵、Luma 和 Runway 隔空斗法……短短半年时间，众多 AI 视频应用如雨后春笋般涌现，不仅将视频生成技术推向了新的高度，而且拓展了 AI 视频的应用范围，赋予未来更多可能性。如今，发展多模态能力已成为 AIGC 应用的大势所趋，伴随着视频生成技术的不断完善，以及越来越多 AI

6/21/2024 3:23:00 PM 机器之心

无论真实还是AI视频，「摩斯卡」都能重建恢复4D动态可渲染场景

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]雷嘉晖，美国宾夕法尼亚大学计算机系博士生 (2020 - 今), 导师为 Kostas Daniilidis 教授，目前主要研究方向为四维动态场景几何的建模表示和算法以及应用。他在计算机视

6/21/2024 3:08:00 PM 机器之心

力压GPT-4o！新王Claude 3.5 Sonnet来了，直接免费可用

如今，大模型领域更卷了！前脚 OpenAI 发布 GPT4o，硬控全场，后脚就被最大的竞争对手 Anthropic 超越了。刚刚，Anthropic 发布了全新大模型 Claude 3.5 Sonnet，号称是迄今为止最智能的模型。据介绍，Claude 3.5 Sonnet 是 Anthropic 即将推出的 Claude 3.5 系列的首个版本。该模型提高了整个领域的智能水平，在绝大多数基准评估中都超越了竞品大模型和自家前代最强 Claude 3 Opus。与此同时，运行速度、成本与自家前代 Claude 3 S

6/21/2024 3:03:00 PM 机器之心

腾讯混元文生图大模型开源训练代码，发布LoRA与ControlNet插件

6月21日，腾讯混元文生图大模型（以下简称为混元DiT模型）宣布全面开源训练代码，同时对外开源混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这意味着，全球的企业与个人开发者、创作者们，都可以基于混元DiT训练代码进行精调，创造更具个性化的专属模型，进行更大自由度的创作；或基于混元DiT的代码进行修改和优化，基于此构建自身应用，推动技术的快速迭代和创新。作为中文原生模型，用户在通过混元DiT的训练代码进行精调时，可以直接使用中文的数据与标签，无需再将数据翻译成英文。此前，腾讯混元文生图大

6/21/2024 2:04:00 PM 新闻助手

阿里云推出首个 AI 程序员，具备架构师、开发 / 测试工程师等岗位技能

在今天的阿里云上海 AI 峰会上，阿里云推出首个“AI 程序员”，具备架构师、开发工程师、测试工程师等岗位技能，能完成任务分解、代码编写、测试、问题修复、代码提交整个过程，号称最快“分钟级”完成应用开发。据介绍，该“AI 程序员”是基于通义大模型构建的多智能体，包含任务分解、编码、测试等不同板块，与“通义灵码”有所不同。在收到用户需求后，“AI 程序员”就可实现软件开发“一条龙”：理解需求-拆分任务-编写代码-识别并解决报错-提交代码。据IT之家此前报道，阿里云去年 11 月推出了 AI 编程工具通义灵码，兼容

6/21/2024 1:39:41 PM 清源

武大等开源大幅面高清卫星影像数据集：涵盖 21 万 + 地理目标，复杂地理空间场景知识精准生成

AI 卫星影像知识生成模型数据集稀缺的问题，又有新解了。来自武汉大学、上海 AI 实验室、西工大等 9 家机构共同推出了该领域的大型数据集，涵盖了 21 万个地理目标和 40 万个目标-关系三元组。而且像机场、港口、立交桥等这样复杂地理空间场景，也都包括在了数据集当中。具体来说，该数据集名为 RSG，主要面向卫星影像中的目标检测（OBD）和场景图生成（SGG）任务。SGG 有助于促进模型对地理空间场景从感知到认知的智能理解，但一直缺乏大幅面、超高分辨率的卫星影像数据。而 RSG 的出现很好地填补了这一空白，一同提出

6/21/2024 1:28:04 PM 汪淼

软银创始人孙正义：新一轮投资将致力于打造“超级人工智能”

据彭博社报道，软银集团创始人孙正义今天在年度大会上对股东表示，他计划打造一个“超级人工智能”时代。孙正义此次描绘了创造出“比人类聪明数千倍”的人工智能的雄心壮志。他表示，Arm 的芯片将支持一个由机器人和强大数据中心组成的生态系统，可以共同治疗癌症、打扫房屋、与孩子一起玩耍。孙正义在今天的大会上出现了数次情绪激动的状况，直言想在永远离开世界之前“改变世界”。他谈到了自己的故友史蒂夫・乔布斯，“当我意识到自己的遗产与乔布斯的遗产相比，实在是相形见绌时，我常常会泪流满面。”“实现超级人工智能是我要做的事情，”孙正义说道

6/21/2024 1:21:56 PM 清源

捕捉关键球员默契度，TuGraph程序员用图计算加大模型做足球预测

2024年欧洲杯比赛正酣。在赛场之外，一些围绕观赛的自发科技创新也开始涌现，成为了一道独特的风景。近日，据TuGraph图计算官方微信，其创新小组研发了一项融合图计算、大模型等技术的足球赛事分析工具“智猜足球”，旨在探索新兴人工智能技术在体育赛事应用的可行性。据介绍，这项应用分析了一年多以来欧洲各球队和俱乐部的赛事公开数据，利用图算法构建了一张球员关系网络图，分析了近30000名球员之间的协作关系，并借助图神经网络（GNN）、Transformer、大语言模型等前沿技术，量化球员间的默契配合与竞技对抗元素，训练了近

6/21/2024 11:34:00 AM 新闻助手

百图生科、智子引擎获新投资；Anthropic发布其最强大模型Claude3.5；Ilya创立安全超级智能公司丨AI情报局

融资快报百图生科获得港投公司的战略投资：百图生科由百度创始人李彦宏牵头发起，依托原BV百度风投生物智能团队及其50家全球被投企业的生态基础组建。计划投入上百亿元建设自主可控的生物计算平台，利用前沿算法、智能传感器、智能芯片、微纳机器人等AI能力解决生命科学问题。（IT桔子）智子引擎获得Pre-A轮投资：智子引擎是一家多模态大模型研究和开发商，发布了第一款应用级多模态ChatGPT产品“元乘象 ChatImg”。

6/21/2024 10:17:00 AM 我在思考中

德国研究团队发布新 AI 模型，可根据网球运动员肢体语言识别情绪

据 ScienceDaily17 日报道，德国卡尔斯鲁厄理工学院和杜伊斯堡-埃森大学研究人员借助计算机辅助神经网络，准确识别了网球运动员在比赛中的肢体语言所表达的情绪。团队首次利用实际比赛数据训练了这一基于 AI 的模型，研究成果登上了最新一期人工智能领域学术期刊《知识系统》。IT之家附链接：，两所学校的体育科学、软件开发与计算机科学研究人员开发了一种特殊的 AI 模型，利用卷积神经网络识别网球运动员的情感状态，并使用模式识别程序分析了实际比赛中网球运动员的视频。卡尔斯鲁厄理工学院体育与运动科学研究所 Darko

6/21/2024 10:10:06 AM 清源

“力压 GPT-4o 和 Gemini 1.5 Pro”，Anthropic 推出 Claude 3.5 Sonnet AI 模型

Anthropic 今天（6 月 21 日）推出了 Claude 3.5 Sonnet，这是 Claude 3.5 系列的首个模型版本，在各项评估中优于 OpenAI 的 GPT-4o 和谷歌的 Gemini 1.5 Pro。Claude 3.5 Sonnet 在前代的基础上迭代升级，性能更快，编码、视觉和自然语言理解能力更强。Claude 3.5 Sonnet 属于中等尺寸模型，介于小型 Haiku 和高端 Opus 之间，但 Anthropic 声称，根据内部基准测试，Sonnet 的性能甚至超过了顶级 Opu

6/21/2024 9:28:39 AM 故渊

有望不再建议往披萨里加胶水？数据显示谷歌已降低 Reddit 对 AI 搜索结果的影响

今年的谷歌 I / O 大会上，谷歌推出了“重磅功能”—— 基于 AI 的搜索（AI 摘要 / AI Overviews）。然而在此功能上线后不久，不少用户反馈称 AI 会生成一些奇怪的结果，例如往披萨里加胶水防止配料掉落、每天吃几块小石头等等。据悉，部分奇怪回复是 AI 系统从 Reddit 帖子中提取信息而造成的，例如往披萨里加胶水就来自一个 11 年前的 Reddit 帖子。根据搜索引擎优化平台 SERanking 当地时间 20 日公布的数据显示，Reddit 已经不再是谷歌“AI 摘要”功能信息来源的前十

6/21/2024 8:31:22 AM 清源

ComfyUI 插件竟然包含病毒！做好这 5 点降低中招风险

大家好，这里是和你们一起探索 AI 的花生~ ComfyUI 是目前最受欢迎的开源 AI 绘画绘画工具之一，它具有极高的灵活性，只需安装对应的插件就可以自己搭建工作流，实现个性化出图或体验最新的 AI 模型。如果你是 ComfyUI 的深度用户，那么安装各类插件肯定是家常便饭了，不过最近出现的一起 ComfyUI 插件包含恶意病毒的事件，却让我们看到了开源社区自由繁荣背后的另一面，如果不提高防范意识，下一个受害的很可能就是我们自己。相关推荐：一、病毒插件 ComfyUI_LLMVISION 事情的起因是网友 @_

6/21/2024 8:01:31 AM 夏花生

AI 时代做 UX 个性化，没人会告诉你这些事情

编者按：这篇文章来自 Google Flights 的 UX 研究负责人 Slava Polonski ，他也是 Google's People AI Guidebook 的研究员。他拥有牛津大学博士学位，曾入选福布斯 30 Under 30 榜单。他是世界经济论坛专家网络和世界经济论坛全球塑造者社区的活跃成员。他撰写的文章涉及用户体验、社会科学和技术的交叉领域。作为一个横跨 UX 和 AI 两大领域的资深研究者，他撰写了这篇文章，不仅深入剖析了 UX 领域个性化问题的本质，而且也指出了 AI 时代 UX 领域前进

6/21/2024 7:56:32 AM Slava Polonski

OpenAI 竞争对手 Anthropic 发布其最强 AI 大模型 Claude 3.5

感谢IT之家网友 VrianCao、Diixx、我抢了台的线索投递！OpenAI 竞争对手 Anthropic 周四发布了其迄今为止最强大的 AI 模型 Claude 3.5 Sonnet。与 OpenAI 的 ChatGPT 和谷歌 Gemini 一样，Claude 在过去的一年里也是人气爆棚。Anthropic 由 OpenAI 前研发高管创立，赢得了谷歌、Salesforce 和亚马逊的支持。在过去的一年里，Anthropic 完成了五笔融资，总额约为 73 亿美元。今年 3 月，Anthropic 推出了

6/20/2024 11:30:35 PM -

北京市首例“AI 换脸”软件侵权案宣判：国风博主短视频被“换脸”后制作成付费模板

据北京互联网法院消息，6 月 20 日，北京互联网法院一审开庭宣判了两起北京市首例“AI 换脸”软件侵权案件，认定使用他人视频“换脸”后制作模板再提供“换脸”服务的网络服务提供者侵害了他人的个人信息权益。两案原告廖某、吴某均系国风短视频模特，在全网拥有众多粉丝。被告是一款“换脸”App 的运营者。原告主张，在未经其授权同意的情况下，被告使用原告的出镜视频制作换脸模板，并上传至涉案换脸 App 中，提供给用户付费使用借此牟利。原告认为，被告的行为侵害了原告的肖像权。同时，被告未经原告同意擅自上传和使用了具有原告肖像信

6/20/2024 10:50:54 PM 汪淼

AMD 发布 ROCm 6.1.3，支持 RX 7900 GRE 显卡及 TensorFlow

6/20/2024 9:14:18 PM 问舟

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉