AI在线 AI在线

图像

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。今年共有 10 篇论文获奖,其中 2 篇最佳论文,2 篇最佳学生论文,另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。作为计算机视觉(CV)领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成
6/20/2024 2:56:00 PM
机器之心

苹果文生图应用:仅生成卡通图片、元数据标注 AI 生成

苹果 WWDC 2024 全球开发者大会后续 The Talk Show Live 访谈中,苹果公司软件工程副总裁克雷格・费德里吉(Craig Federighi)简短地提到,iOS 将为生成的图片元数据会标注“AI 生成”。科技媒体 9to5Mac 挖掘 iOS 18 Beta 1 更新代码,在 VisualGeneration 框架中提到了用于标记和识别人工智能图像的“取证”(forensics)功能。IT之家从报道中获悉,苹果 Image Playground 应用只生成卡通化的图像,而不会生成逼真的照片,这
6/15/2024 9:33:40 AM
故渊

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通,那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域,但视觉与语言之间的连接尚未被彻底打通。举些例子,大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视
6/11/2024 2:45:00 PM
机器之心

GPT-4o 再秀神操作,“复现”OpenAI 总裁讲课,网友当真了

OpenAI 总裁兼联合创始人 Greg 再次大秀 GPT-4o 操作,结果网友直接缅怀 DALL-E。直接看效果。文本拼写达到惊人的一致!手部细节、光照全都有,甚至后背上的 Logo 也完全正确。有网友表示:恍惚间还以为真的是本人在讲课。也有人感叹图像生成技术发展的飞跃:Holy Cow!从完全破碎的文本到风格一致、拼写正确的写作,只用了一次迭代。GPT-4o 让网友直接缅怀 DALL-EGPT-4o 发布以来,简直就被玩儿疯了,尤其是图像生成这块。比如有网友发现,GPT-4o 在组合任意图像上面就像是打通了任督
5/16/2024 2:56:58 PM
清源

准确率 98%,OpenAI 推出专用 AI 工具:能识别 DALL・E 3 生成的图片

感谢OpenAI 公司今天发布新闻稿,宣布推出专用的 AI 检测工具,能够识别某张图片是否由 DALL・E 3 模型生成,且准确率高达 98%。OpenAI 公司在博文中表示,之所以推出这项新工具,主要是为了帮助研究人员研究内容真实性,此外该公司还宣布加入 C2PA(内容来源和真实性联盟)的指导委员会。C2PA 是一种广泛使用的数字内容认证标准,由包括软件公司、相机制造商和在线平台在内的众多参与者开发和采用,C2PA 可用于证明内容来自特定来源。OpenAI 表示自今年早些时候,在 ChatGPT 和 OpenAI
5/8/2024 7:44:38 AM
故渊

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]
5/1/2024 4:26:00 PM
机器之心

一键换装神器爆火,老黄换上抱抱脸 T 恤,CEO 本人:我被替代了,和他争 CEO 职位争不过

笑不活,最新虚拟试穿神器被网友们玩坏了。黄院士、马斯克、阿尔特曼、史密斯等一众大佬衣服集体被扒。前有老黄卸下皮衣套上糖果包装袋:后有阿尔特曼大秀花臂穿 GUCCI:再有老马变成了蛛蛛侠:好莱坞巨星史密斯也风格大变:但说回研究本身,确实正儿八经的研究。名为 IDM–VTON,由来自韩国科学技术院和 OMNIOUS.AI 公司的研究团队基于扩散模型打造。目前官方放出了 demo,大伙儿可以试玩,推理代码已开源。除了开头所展示的,抱抱脸研究员也玩得不亦乐乎,给老黄换上了专属战袍。其 CEO 连忙转发打趣:我被替代了,没法
4/28/2024 9:30:57 AM
清源

Adobe Photoshop 引入全新 Firefly Image 3 图像 AI 模型,Beta 版开放下载

去年以来,Adobe 一直在其各种软件产品中添加大量基于 AI 的功能,其中包括基于 Firefly AI 的图像生成功能,用于 Photoshop 等 Creative Cloud 应用。今天,Adobe 宣布推出新版 Photoshop,不仅包含一些新的 AI 图像编辑功能和改进,还包含新的 Firefly Image 3 Foundation Model,用于根据文本提示制作基于 AI 的内容。Adobe 在官方新闻稿中表示,与之前的版本相比,Firefly Image 3 将能够创建质量更高、种类更多、细节
4/23/2024 6:49:01 PM
汪淼

融合 ChatGPT+DALL・E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决

在开源社区中把 GPT-4 Dall・E 3 能⼒整合起来的模型该有多强?香港中文大学终身教授贾佳亚团队提出多模态模型 Mini-Gemini:更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,堪称王炸。Mini-Gemini 还提供了 2B 小杯到 34B 的超大杯,最强模型在多个指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多让。目前,Mini-Gemini 从代码、模型到数据已全部开源,登上了 PaperWithCode 热榜。Mini-Gemini
4/15/2024 4:07:17 PM
清源

AI在用 | 想让手机壁纸脱胎换骨?试试Midjourney

机器之能报道编辑:Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。周末了,我们分享一个轻松有趣的玩法——用图像生成器  Midjourney (v 6.0)DIY 漂亮壁纸。来自X用户@eslwithtinaX 用户 @umesh_ai 用一个简单提示就创建非常美丽壁纸!案例地址::w
4/12/2024 3:37:00 PM
机器之能

ChatGPT 网页 / 移动端整合文生图工具 DALL-E 3,加入图像局部修改功能

感谢今日凌晨,OpenAI 发文宣布:用户现在可以在 ChatGPT 中跨 Web、iOS 和 Android 使用 DALL-E 生成图像。除此之外,用户还可以通过添加、删除或调整图像中的元素来完善自己的 DALL-E 作品。用户可以通过选择工具选择图像的特定部分,并提供描述所需更改的文本提示。然后,DALL-E 将使用这些信息生成反映编辑内容的新版本图像。IT之家附官方演示视频: 前述 DALL-E 3 的编辑功能已经在本月初发布,但当时未被整合到 ChatGPT 中。OpenAI 表示通过引入该编辑器,进一步
4/4/2024 11:52:06 AM
清源

OpenAI 为 DALL-E 3 引入编辑功能:进一步精细化调整已生成图片

OpenAI 公司近日发布公告,宣布为 DALL-E 3 引入全新的编辑界面,在基于用户文本生成图片之后,可以继续根据用户描述精细化调整已生成的图片。DALL-E 编辑器提供两种主要编辑方法:基于选择区域的编辑:在 DALL-E 3 生成图片之后,用户可以选中已生成图片中的特定区域,然后再在聊天界面,输入提示词要求 DALL-E 3 进行微调。对话式编辑:在 DALL-E 3 生成图片之后,用户无需选择特定区域,在聊天窗口中直接描述自己的编辑内容,这种方法适用于编辑调整整个图像。OpenAI 表示通过引入该编辑器,
4/2/2024 9:01:47 AM
故渊

麻省理工学院携手 Adobe 演示 DMD AI 技术:每秒可生成 20 幅图像

主流文生图模型固然已经能生成非常逼真的图片,但通常渲染时间非常缓慢。麻省理工学院携手 Adobe 公司近日研发了 DMD 方法,在尽量不影响图像质量的情况下,加快图像生成速度。DMD 技术的全称是 Distribution Matching Distillation,将多步扩散模型简化为一步图像生成解决方案。团队表示:“我们的核心理念是训练两个扩散(diffusion)模型,不仅能预估目标真实分布(real distribution)的得分函数,还能估计假分布(fake distribution)的得分函数。”研究
3/27/2024 1:48:43 PM
故渊

登Nature子刊,哈佛医学院发布迄今最大计算病理学基础模型,适用30+临床需求

编辑 | X基础模型有望为医学领域带来前所未有的进步。在计算病理学 (CPath) 中,基础模型在提高诊断准确性、预后以及预测治疗反应方面发挥着关键作用。近日,美国麻省总医院(Massachusetts General Hospital)、哈佛医学院等组成研究团队设计了迄今为止最大的两个 CPath 基础模型:UNI 和 CONCH。这些基础模型适用于 30 多种临床和诊断需求,包括疾病检测、疾病诊断、器官移植评估和罕见疾病分析。新模型克服了当前模型的局限性,不仅在研究人员测试的临床任务中表现良好,而且在识别新的、
3/21/2024 3:55:00 PM
ScienceAI

无需提示词,Stability AI 演示 MindEye:目标想什么就能生成什么

AI 浪潮席卷而来,此前不少人认为“提示词工程师”会成为新兴工种,而 MindEye 的问世表明,这个岗位或许没有存在的价值了。此前不少人认为,未来 AI 时代并不在于某个模型是否强大,而是在于人类是否能够更高效利用这些 AI 模型,完成特定任务。这也诞生了“提示词工程师”概念,该工程师能够比普通人更能理解 AI,能够提出更准确的提示词,从而让 AI 满足其要求输出。而 StabilityAI 于 2023 年 7 月推出 MindEye1,近日再次推出了 MindEye2,让“提示词工程师”的价值大幅降低,该模型
3/21/2024 8:14:18 AM
故渊

Midjourney 能让角色保持一致了!网友实测称直呼“改变游戏规则”

Midjourney 发布新功能,网友直呼“不可思议”!现在你可以让生成的图像几乎保持角色一致,belike:所有超级英雄长一个模样盯着你。甚至动漫风、写实风等跨风格生成也同样适用:保持同一风格,感觉配上文字可以讲一个故事了:面部、着装、发型可调控,换装玩法 get:新功能名为角色参照(Character Reference),和之前的风格参照类似,不过这次不是保持风格一致,而是保持生成图像的角色与给定的参照角色一致。网友们已经玩嗨了,纷纷表示这是迄今为止 Midjourney 最大的更新:还有网友认为生成式 AI
3/12/2024 10:25:25 PM
清源

微软 Microsoft Designer 屏蔽特定提示词,避免 Copilot 生成不良价值导向图片

Microsoft Designer 是一款基于 Copilot / DALLE 3.0 的视觉设计应用,可以仅用几个提示词让 AI 为你生成所需图像,还能帮用户去除图片背景,生成个性化贴纸等。CNBC 发现,Microsoft Designer 在遇到一些特定的提示词时,例如“pro-choice”“four twenty” “pro-life”等,会生成一些涉及色情、暴力方面的不良图片,目前这些特定的提示词已经被微软禁用。注:pro life 与 pro choice 是伴随堕胎合法权而产生的一组词,可以理解为
3/9/2024 5:53:33 PM
问舟

阿里巴巴推出 AtomoVideo 高保真图生视频框架,兼容多种文生图模型

感谢阿里巴巴研究团队近日推出了 AtomoVideo 高保真图生视频(I2V,Image to Video)框架,旨在从静态图像生成高质量的视频内容,并与各种文生图(T2I)模型兼容。 ▲ 图源 AtomoVIdeo 团队论文IT之家总结 AtomoVideo 特性如下:高保真度:生成的视频与输入图像在细节与风格上保持高度一致性运动一致性:视频动作流畅,确保时间上的一致性,不会出现突兀的跳转视频帧预测:通过迭代预测后续帧的方式,支持长视频序列的生成兼容性:与现有的多种文生图(T2I)模型兼容高语义可控性:能够根据用
3/7/2024 11:10:04 AM
泓澄(实习)