应用

智谱 AI 开源视频理解模型 CogVLM2-Video，可回答时间相关问题

感谢智谱 AI 宣布，训练了一种新的视频理解模型 CogVLM2-Video，并将其开源。据介绍，当前大多数的视频理解模型使用帧平均和视频标记压缩方法，导致时间信息的丢失，无法准确回答与时间相关的问题。一些专注于时间问答数据集的模型过于局限于特定格式和适用领域，使得模型失去了更广泛的问答能力。▲ 官方效果演示智谱 AI 提出了一种基于视觉模型的自动时间定位数据构建方法，生成了 3 万条与时间相关的视频问答数据。基于这个新数据集和现有的开放领域问答数据，引入了多帧视频图像和时间戳作为编码器输入，训练出 CogVLM2

7/12/2024 2:18:03 PM 沛霖（实习）

多模态遥感大模型的探索与实践，蚂蚁集团遥感大模型负责人王剑带来深度解读

7月5日，在世界人工智能大会组委会办公室、上海市徐汇区人民政府指导下，由上海人工智能实验室、AI在线、全球高校人工智能学术联盟主办的 2024 WAIC 云帆奖暨人工智能青年论坛成功举办。论坛汇聚来自斯坦福大学、牛津大学、UCLA、加州大学、苏黎世联邦理工学院、香港大学、清华大学、北京大学、上海交通大学等海内外高校、研究机构及企业的30余位往届及新晋云帆奖得主线下参会，凝聚国际青年AI科学家的智慧，积极探索AI能力边界，为中国AI发展蓝图贡献新生力量。蚂蚁集团遥感大模型负责人王剑作作为2024 WAIC 云帆奖代表

7/12/2024 10:57:00 AM 新闻助手

OpenAI 提出通用人工智能五级标准，自认为接近但未达到第二级

彭博社报道称，OpenAI 提出通用人工智能五级标准，用来确认人工智能的进展。OpenAI 高管告诉员工，公司自认为目前还处于第一级，但即将达到第二级。通用人工智能（AGI、Artificial General Intelligence），是指具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的通用人工智能体，具备自主的感知、认知、决策、学习、执行和社会协作等能力，且符合人类情感、伦理与道德观念。AI在线附 OpenAI 提出的等级标准：第一级：聊天机器人，具有会话语言的人工智能第二级：推理者，

7/12/2024 10:35:33 AM 沛霖（实习）

Groq获贝莱德3亿美元投资，最新估值22亿美元；Hayden AI获9000万美元C轮融资丨AI情报局

融资快报Groq 获贝莱德 3 亿美元投资，最新估值 22 亿美元Groq 创始人Jonathan Ross，毕业于纽约大学，曾在谷歌 X 实验室参与多个项目，包括 Tensor Processing Unit谷歌定制机器学习芯片的开发，该芯片曾运用在与李世石的 AlphaGo 比赛。离开谷歌后他成立了Groq，并开发出了 LPU AI 处理器，在推理速度上比英伟达的 GPU 快 10 倍，成本更低，仅为十分之一。 LPU 展示了以每秒超过 100 个词组的速度执行大型语言模型的能力，但由于内存容量较小，实际部署成本可能远高于预期。

7/12/2024 10:09:00 AM 我在思考中

首届“AI 小姐”选美结果出炉，但背后争议远未停歇

首届“AI 小姐”选美比赛结果已经出炉，但关于这场比赛的争议远未停歇。AI在线 6 月报道，全球首届 AI 模特小姐选美大赛 WAICAs 设置总奖池 1.6 万英镑（当前约 14.8 万元人民币），全球有超过 1500 个 AI 角色、1 万名 AI 团队成员参与。WAICAs 全称是未来派世界人工智能创造者大奖，由 Fanvue 主办，将会根据 AI 的现实性、影响力和技术性来评判人工智能的影响力。本次选美比赛冠军由 Kenza Layli 获得，这是设定来自摩洛哥的一位 AI 美女，目前在 Instagram

7/12/2024 9:55:45 AM 故渊

15 名西班牙学生因滥用 AI 生成不雅照，被判 1 年缓刑

感谢英国卫报 7 月 9 日报道，15 名学生因利用 AI 制作并传播女同学的不雅照片，被西班牙地方法院判处 1 年缓刑，此案也引发了关于滥用 Deepfake 技术的广泛讨论。生活在西班牙阿尔门德拉莱霍（Almendralejo）市的家长去年报告称，有人利用 Deepfake 技术制作其女儿的不雅照，并在当地 WhatsApp 社交应用中传播，警方随即开始调查此事。其中一名受害者的母亲说，早在去年 7 月份，在 WhatsApp 上就出现了这些 Deepfake 照片。她当时告诉路透社记者：“许多女孩完全被吓坏了

7/12/2024 9:27:52 AM 故渊

尘埃落定，英国 AI 芯片企业 Graphcore 已被软银收购

根据 Graphcore 官网，这家正处困境的英国 AI 芯片企业已被软银收购。根据协议，Graphcore 将成为软银的全资子公司，继续以现有名称运营。双方并未透露具体交易价值。Graphcore 于 2016 年成立于英国西南部城市布里斯托尔，曾推出过多代被称为 Intelligence Processing Unit（AI在线注：简称 IPU）的 AI 负载加速器。Graphcore 曾一度被视为“英国版英伟达”。然而自 2020 年以来，该企业未获得新的融资，也丢失了来自微软的重要订单，这使其资金紧张、运营

7/12/2024 9:26:09 AM 溯波（实习）

最近超火的用AI制作老照片视频，完整教程来啦！

Hello，大家好，我是益达，不知道大家有没有发现，最近小红书和抖音，出现了很多把老照片做成视频，并且数据都不错，今天我就来教大家如何制作。一、寻找或制作老照片 1. 百度寻找老照片可以在百度、谷歌搜索2. 自己制作老照片这个方法适合自己制作系列照片，统一风格，需要发内容的小伙伴，可以通过 Midjourney 或者一些 AI 绘画平台进行制作比如我用即梦做的老照片，出的风格都挺一致的，自己再做旧一下就可以使用了二、修复画质我以这张图片为例1. 腾讯 ARC 首先需要修复画质，可以通过腾讯 ARC：目前

7/12/2024 8:14:58 AM 益达

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

大家好，这里是和你们一起探索 AI 的花生~ 最近国内科技公司快手在 AI 方面接连发力，推出了类 Sora 视频生成模型「可灵 Kling」、人像动画控制模型「Liveportait」、以及文生图扩散模型「可图 Kolors」，质量均位于同类模型前列，在国外互联网上都引起了广泛的关注和讨论，颇有异军突起之势。其中「可图 Kolors」为开源模型，它不仅在生成质量上超过了前段时间推出的 SD3，与 Midjourney v6 模型不相上下，还支持识别中文提示词和生成中文字符，可谓是国产开源绘画模型之光，今天就为大

7/12/2024 8:01:31 AM 夏花生

ComfyUI 进阶篇！完整梳理 ComfyUI 的核心节点（一）

前言：学习 ComfyUI 是一场持久战。当你掌握了 ComfyUI 的安装和运行之后，会发现大量五花八门的节点。面对各种各样的工作流和复杂的节点种类，可能会让人感到不知所措。在这篇文章中，我们将用通俗易懂的语言对 ComfyUI 的核心节点进行系统梳理，并详细解释每个参数。希望大家在学习过程中培养自我思考的能力，真正掌握和理解各个节点的用法与功能。在实践中不断提升自己的技术水平。只有通过不断的探索和总结，才能在面对复杂的工作流时游刃有余。祝大家学习顺利，早日成为 ComfyUI 的高手！一、Load Check

7/12/2024 1:51:37 AM AI实战

三星 Galaxy AI 新增“作业帮手”功能，可教学生解数学题

在昨天的发布会上，三星不仅发布了两款全新折叠屏手机 Galaxy Z Fold 6 和 Galaxy Z Flip 6，还着重展示了 Galaxy AI 人工智能功能。三星自豪地宣布，到今年年底，搭载 Galaxy AI 的设备将达到 2 亿台。外媒 Sammobile 称，这是一个巨大的成就，要知道苹果尚未将任何近期发布的人工智能功能应用到手机上。而三星仍在不断推出新功能，其中一项可以帮助孩子们完成作业。据AI在线了解，“圈选搜索”是 Galaxy AI 的核心功能之一，这个功能允许用户通过长按虚拟主页键后圈选屏

7/11/2024 9:47:36 PM 远洋

商汤发布“东风”泰语大模型：全球首次实现可在泰 / 中 / 英环境下高效工作

商汤科技官方公众号今日晚间发文宣布，7 月 10 日，商汤联合泰国 DTGO 集团及旗下 Quinnnova 共同发布“东风”泰语大模型（DTLM）。“东风”号称全球首个能在泰文、中文、英文三种语言环境下高效工作的 AI 大语言模型，将商汤的基模型和算力优势与 DTGO 的泰国语言文化优势相结合，提供本地化的生成式 AI 体验。其能够实现自然、流畅的实时对话、文本阅读理解等功能。官方表示，“东风”来自在中泰两国都深受欢迎的中国古典名著《三国演义》，寓意两国自古以来的文化交流，借生成式 AI 时代的东风进一步发扬光大

7/11/2024 8:14:41 PM 清源

人形机器人将当上银行“大堂经理”，国内首个场景训练基地在上海浦东启用

据“上海金融官微”公众号，国内首个人形机器人银行大堂经理场景训练基地在建行上海浦东分行正式启用。银行大堂经理场景训练基地是业内首个商业银行场景应用训练基地，其首次采用开放式的创新训练模式，有助于加快提升人形机器人的能力，推动关键技术、重点产品和重点场景应用。据介绍，此次参训的机器人拥有高度仿生的躯干构型和拟人化的运动控制，结合视觉、听觉、语音等人工智能技术，科学家可以通过具身智能的推理和规划等对其进行训练。目前，该银行已对智能人形机器人开展银行大堂业务咨询、业务分流、智慧柜员机个性化操作指南、反欺诈宣传等面向客户的

7/11/2024 6:03:37 PM 清源

落幕再谈，「WAIC 2024」的一些细节与预判

机器之能报道作者：姜菁玲在这次的世界人工智能大会上，百度CEO李彦宏提到的一句话吸引了很多关注。他说，没有应用，光有基础模型，不管是开源还是闭源都一文不值。「大家不要去卷模型了，要去卷应用」。这句话虽然有些极端，但是在当下的阶段有几分代表性。正如这句话所表达的，如果说去年的WAIC上，各家厂商还在展示自己的大模型本身实力，今年的WAIC的主要观赏点则已经集中在应用上。一众AI厂商从去年的「占位」秀，来到了新阶段。应用成为新赛点大模型厂商应用大规模试错技术本身是抽象的，但应用却是具象的。在今年的WAIC现场，凝聚在观

7/11/2024 5:19:00 PM 机器之能

韩国美妆业拥抱 AI：机器人调配专属粉底，还能帮你选口红色号

据路透社报道，韩国美妆巨头爱茉莉太平洋的人工智能 (AI) 美容实验室最近客似云来。在这里，机器人可以根据顾客皮肤状况调配专属粉底，还能推荐最适合顾客的口红色号。32 岁的顾客 Kwon You-jin 在体验了定制护肤品服务后表示：“每个人的肤色都独一无二，但通常只能买到市面上最常见的色号。通过 AI 生成的数据更深入了解自己的肌肤状况，并能亲眼目睹前后对比，这太棒了！”在收到一份由 AI 生成的皮肤状况报告后，一台机器人随即为她调配了完美匹配其肤色的粉底液。AI在线注意到，如今，越来越多的化妆品公司开始拥抱 A

7/11/2024 5:16:23 PM 远洋

18个月326项能力，这家大厂猛猛上新生成式AI，如今纯靠Prompt就搞定企业级应用了

构建生成式 AI 应用，现在只需要几分钟。「生成式 AI 的半衰期只有六个月，」亚马逊云科技全球 AI 产品副总裁 Matt Wood 说道。2024 开启下半年，人们发现，生成式技术和落地之间的距离，已经不能用「远」或「近」完全概括。狂热的百模大战之后，即使生成式 AI 技术展现出了前所未有的能力，为何一部分企业还没有投身到新技术的变革之中？技术门槛和高昂的研发投入、应用成本是它们保持谨慎态度的主要影响因素。今天凌晨，亚马逊云科技给全世界带来了解决方案。一系列生成式 AI 技术的重磅发布，将全球最先进的大模型技术

7/11/2024 4:54:00 PM 机器之心

GitHub 8k Star，一作实习生，字节这个大模型成果被苹果选中了

字节跳动大模型团队成果 Depth Anything V2 现已被苹果官方收入 Core ML 模型库。本文介绍了 Depth Anything 系列成果的研发历程、技术挑战与解决方法，分享了团队对于 Scaling Laws 在单一视觉任务方面的思考。值得一提的是，Depth Anything V1 与 V2 两个版本论文一作是团队实习生。近日，字节跳动大模型团队开发的成果 Depth Anything V2 ，入选苹果公司 Core ML 模型库，目前已呈现在开发者相关页面中。Depth Anything 是一

7/11/2024 4:49:00 PM 机器之心

AI 根据声音内容帮照片“对口型”，蚂蚁集团开源 EchoMimic 项目

蚂蚁集团 10 日开源了名为 EchoMimic 的新项目，其能够通过人像面部特征和音频来帮人物“对口型”，结合面部标志点和音频内容生成较为稳定、自然的视频。该项目具备较高的稳定性和自然度，通过融合音频和面部标志点（面部关键特征和结构，通常位于眼、鼻、嘴等位置）的特征，可生成更符合真实面部运动和表情变化的视频。其支持单独使用音频或面部标志点生成肖像视频，也支持将音频和人像照片相结合做出“对口型”一般的效果。据悉，其支持多语言（包含中文普通话、英语）及多风格，也可应对唱歌等场景。 AI在线附相关链接：项目地址： G

7/11/2024 4:48:41 PM 清源

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉