AI在线 AI在线

图像

ECCV 2024 | 让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生,此工作为其在新加坡科技局实习期间完成,实习导师为本文通讯作者郭青研究员(主页:)。本文的共同第一作者
7/22/2024 11:25:00 AM
机器之心

Midjourney 的 Style Raw 模式到底怎么用? 一篇文章帮你弄懂!

大家好,这里是和你们一起探索 AI 的花生~ 与 stylize、chaos 一样,style raw 也是 Midjourney 出图中常用的的参数之一,可以帮我们实现特定的出图需求,但肯定有很多小伙伴依旧对它的具体作用不太了解,今天就通过这篇文章,详细为大家讲解一下 style raw 的适用场景和使用方法。 上期回顾:一、Style Raw 简介 之前我们提到过,Midjourney 的默认模型( v5.2、v6 等)是自带 “美学滤镜” 的,它们在生成图像时会进行一定的风格化处理,让画面更有艺术性、更好看。
7/5/2024 7:39:14 AM
夏花生

300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架!近期,
6/28/2024 6:26:00 PM
机器之心

涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型

作者 | 香港中文大学白帆编辑 | ScienceAI近日,香港中文大学和智源联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed 和 M3D-Bench,从数据集、模型和测评全方面推动 3D 医学图像分析的发展。(1)M3D-Data 是目前最大的 3D 医学图像数据集,包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四个子数据集。(2)M3D-LaMed 是目前最
6/21/2024 6:08:00 PM
ScienceAI

CVPR 2024全部奖项公布!近万人线下参会,谷歌华人研究员获最佳论文奖

北京时间 6 月 20 日凌晨,在西雅图举办的国际计算机视觉顶会 CVPR 2024 正式公布了最佳论文等奖项。今年共有 10 篇论文获奖,其中 2 篇最佳论文,2 篇最佳学生论文,另外还有 2 篇最佳论文提名和 4 篇最佳学生论文提名。作为计算机视觉(CV)领域的顶级会议,CVPR 每年都会吸引大量研究机构和高校参会。据统计,今年共提交了 11532 份论文,2719 篇被接收,录用率为 23.6%。根据佐治亚理工学院对 CVPR 2024 录用数据的统计分析,从研究主题来看,论文数量最多的是图像和视频合成与生成
6/20/2024 2:56:00 PM
机器之心

苹果文生图应用:仅生成卡通图片、元数据标注 AI 生成

苹果 WWDC 2024 全球开发者大会后续 The Talk Show Live 访谈中,苹果公司软件工程副总裁克雷格・费德里吉(Craig Federighi)简短地提到,iOS 将为生成的图片元数据会标注“AI 生成”。科技媒体 9to5Mac 挖掘 iOS 18 Beta 1 更新代码,在 VisualGeneration 框架中提到了用于标记和识别人工智能图像的“取证”(forensics)功能。IT之家从报道中获悉,苹果 Image Playground 应用只生成卡通化的图像,而不会生成逼真的照片,这
6/15/2024 9:33:40 AM
故渊

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通,那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域,但视觉与语言之间的连接尚未被彻底打通。举些例子,大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视
6/11/2024 2:45:00 PM
机器之心

GPT-4o 再秀神操作,“复现”OpenAI 总裁讲课,网友当真了

OpenAI 总裁兼联合创始人 Greg 再次大秀 GPT-4o 操作,结果网友直接缅怀 DALL-E。直接看效果。文本拼写达到惊人的一致!手部细节、光照全都有,甚至后背上的 Logo 也完全正确。有网友表示:恍惚间还以为真的是本人在讲课。也有人感叹图像生成技术发展的飞跃:Holy Cow!从完全破碎的文本到风格一致、拼写正确的写作,只用了一次迭代。GPT-4o 让网友直接缅怀 DALL-EGPT-4o 发布以来,简直就被玩儿疯了,尤其是图像生成这块。比如有网友发现,GPT-4o 在组合任意图像上面就像是打通了任督
5/16/2024 2:56:58 PM
清源

准确率 98%,OpenAI 推出专用 AI 工具:能识别 DALL・E 3 生成的图片

感谢OpenAI 公司今天发布新闻稿,宣布推出专用的 AI 检测工具,能够识别某张图片是否由 DALL・E 3 模型生成,且准确率高达 98%。OpenAI 公司在博文中表示,之所以推出这项新工具,主要是为了帮助研究人员研究内容真实性,此外该公司还宣布加入 C2PA(内容来源和真实性联盟)的指导委员会。C2PA 是一种广泛使用的数字内容认证标准,由包括软件公司、相机制造商和在线平台在内的众多参与者开发和采用,C2PA 可用于证明内容来自特定来源。OpenAI 表示自今年早些时候,在 ChatGPT 和 OpenAI
5/8/2024 7:44:38 AM
故渊

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]
5/1/2024 4:26:00 PM
机器之心

一键换装神器爆火,老黄换上抱抱脸 T 恤,CEO 本人:我被替代了,和他争 CEO 职位争不过

笑不活,最新虚拟试穿神器被网友们玩坏了。黄院士、马斯克、阿尔特曼、史密斯等一众大佬衣服集体被扒。前有老黄卸下皮衣套上糖果包装袋:后有阿尔特曼大秀花臂穿 GUCCI:再有老马变成了蛛蛛侠:好莱坞巨星史密斯也风格大变:但说回研究本身,确实正儿八经的研究。名为 IDM–VTON,由来自韩国科学技术院和 OMNIOUS.AI 公司的研究团队基于扩散模型打造。目前官方放出了 demo,大伙儿可以试玩,推理代码已开源。除了开头所展示的,抱抱脸研究员也玩得不亦乐乎,给老黄换上了专属战袍。其 CEO 连忙转发打趣:我被替代了,没法
4/28/2024 9:30:57 AM
清源

Adobe Photoshop 引入全新 Firefly Image 3 图像 AI 模型,Beta 版开放下载

去年以来,Adobe 一直在其各种软件产品中添加大量基于 AI 的功能,其中包括基于 Firefly AI 的图像生成功能,用于 Photoshop 等 Creative Cloud 应用。今天,Adobe 宣布推出新版 Photoshop,不仅包含一些新的 AI 图像编辑功能和改进,还包含新的 Firefly Image 3 Foundation Model,用于根据文本提示制作基于 AI 的内容。Adobe 在官方新闻稿中表示,与之前的版本相比,Firefly Image 3 将能够创建质量更高、种类更多、细节
4/23/2024 6:49:01 PM
汪淼

融合 ChatGPT+DALL・E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决

在开源社区中把 GPT-4 Dall・E 3 能⼒整合起来的模型该有多强?香港中文大学终身教授贾佳亚团队提出多模态模型 Mini-Gemini:更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,堪称王炸。Mini-Gemini 还提供了 2B 小杯到 34B 的超大杯,最强模型在多个指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多让。目前,Mini-Gemini 从代码、模型到数据已全部开源,登上了 PaperWithCode 热榜。Mini-Gemini
4/15/2024 4:07:17 PM
清源

AI在用 | 想让手机壁纸脱胎换骨?试试Midjourney

机器之能报道编辑:Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。周末了,我们分享一个轻松有趣的玩法——用图像生成器  Midjourney (v 6.0)DIY 漂亮壁纸。来自X用户@eslwithtinaX 用户 @umesh_ai 用一个简单提示就创建非常美丽壁纸!案例地址::w
4/12/2024 3:37:00 PM
机器之能

ChatGPT 网页 / 移动端整合文生图工具 DALL-E 3,加入图像局部修改功能

感谢今日凌晨,OpenAI 发文宣布:用户现在可以在 ChatGPT 中跨 Web、iOS 和 Android 使用 DALL-E 生成图像。除此之外,用户还可以通过添加、删除或调整图像中的元素来完善自己的 DALL-E 作品。用户可以通过选择工具选择图像的特定部分,并提供描述所需更改的文本提示。然后,DALL-E 将使用这些信息生成反映编辑内容的新版本图像。IT之家附官方演示视频: 前述 DALL-E 3 的编辑功能已经在本月初发布,但当时未被整合到 ChatGPT 中。OpenAI 表示通过引入该编辑器,进一步
4/4/2024 11:52:06 AM
清源

OpenAI 为 DALL-E 3 引入编辑功能:进一步精细化调整已生成图片

OpenAI 公司近日发布公告,宣布为 DALL-E 3 引入全新的编辑界面,在基于用户文本生成图片之后,可以继续根据用户描述精细化调整已生成的图片。DALL-E 编辑器提供两种主要编辑方法:基于选择区域的编辑:在 DALL-E 3 生成图片之后,用户可以选中已生成图片中的特定区域,然后再在聊天界面,输入提示词要求 DALL-E 3 进行微调。对话式编辑:在 DALL-E 3 生成图片之后,用户无需选择特定区域,在聊天窗口中直接描述自己的编辑内容,这种方法适用于编辑调整整个图像。OpenAI 表示通过引入该编辑器,
4/2/2024 9:01:47 AM
故渊

麻省理工学院携手 Adobe 演示 DMD AI 技术:每秒可生成 20 幅图像

主流文生图模型固然已经能生成非常逼真的图片,但通常渲染时间非常缓慢。麻省理工学院携手 Adobe 公司近日研发了 DMD 方法,在尽量不影响图像质量的情况下,加快图像生成速度。DMD 技术的全称是 Distribution Matching Distillation,将多步扩散模型简化为一步图像生成解决方案。团队表示:“我们的核心理念是训练两个扩散(diffusion)模型,不仅能预估目标真实分布(real distribution)的得分函数,还能估计假分布(fake distribution)的得分函数。”研究
3/27/2024 1:48:43 PM
故渊

登Nature子刊,哈佛医学院发布迄今最大计算病理学基础模型,适用30+临床需求

编辑 | X基础模型有望为医学领域带来前所未有的进步。在计算病理学 (CPath) 中,基础模型在提高诊断准确性、预后以及预测治疗反应方面发挥着关键作用。近日,美国麻省总医院(Massachusetts General Hospital)、哈佛医学院等组成研究团队设计了迄今为止最大的两个 CPath 基础模型:UNI 和 CONCH。这些基础模型适用于 30 多种临床和诊断需求,包括疾病检测、疾病诊断、器官移植评估和罕见疾病分析。新模型克服了当前模型的局限性,不仅在研究人员测试的临床任务中表现良好,而且在识别新的、
3/21/2024 3:55:00 PM
ScienceAI