图像
谷歌将重新开放 Gemini 生成人物图像功能,此前因“种族描述不当”引争议
感谢北京时间 29(今)日,据彭博社报道,谷歌宣布将恢复 AI 模型 Gemini 生成人物图像的功能,部分消费者将可以重新使用。谷歌表示,将开始向订阅 Gemini Advanced 套餐的英语用户推出生成人物图像功能。企业也将能够使用该工具,该功能将在未来几天内上线。谷歌产品管理高级总监戴夫・西特伦(Dave Citron)表示,该公司在通过 Imagen 3 生成人物描写方面取得了“重大进展”。“我们一直在努力对产品进行技术改进,并改进了评估集、红队练习和明确的产品原则。当然,Gemini 创建的每张图像都不
8/29/2024 10:26:42 AM
清源
Freepik Mystic 发布,号称目前最先进的 AI 图像生成器
Magnific AI 和 Freepik 今日联合推出了 Freepik Mystic,宣称是目前最先进的 AI 图像生成器,也是唯一可以直接生成全高清图像的 AI 图像生成器。与 Midjourney 和 OpenAI 的 Dall-E 不同,Mystic 并非基础模型,而是一个结合 Flux 基础模型、微调、高分辨率图像生成技术和参数调整的流程。Mystic 能够生成高质量的图像,包括写实肖像、动物、风景、奇幻场景、室内设计和建筑概念、像素艺术、游戏元素、表情包等多种类型的图像。这些图像由顶尖摄影师、数字艺术
8/28/2024 11:20:03 AM
远洋
防止黑客重建人脸,浙大 & 阿里推出人脸隐私保护新方案 FaceObfuscator
对人脸数据安全的担忧,有新解了!浙江大学与阿里安全部联手,推出了新的人脸隐私保护方案 FaceObfuscator。不法分子即使从数据库中获取到人脸特征,也无法使用各类重构攻击还原人脸数据、窃取人脸隐私。新型重构攻击,威胁人脸隐私人脸识别是一项基于人脸特征信息进行身份识别的生物识别技术,广泛应用于金融、安防与民生。在使用人脸识别系统前,首先需要录入人脸信息,这些人脸信息会以人脸特征的形式被保存在服务商的人脸数据库中用于之后的实时人脸识别与身份认证。▲ 主流的人脸识别架构然而,网络和数据安全保障机制的欠缺容易导致人脸
8/27/2024 4:27:56 PM
汪淼
云知声推出山海多模态大模型:实时生成文本、音频和图像
云知声于 23 日宣布推出山海多模态大模型。通过整合跨模态信息,山海多模态大模型能够接收文本、音频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。▲ 云知声山海助手微信小程序AI在线获悉,山海多模态大模型有如下特点:实时秒回,自由插话:与现实对话中人类的响应时间相似;支持对话随时打断,用户可在对话中任意插话感知情绪,表达情绪:通过语音文本判断用户情绪,还能捕捉用户语音的语气、节奏和音调等微妙变化,感知对方情绪状态音色自由切换:根据用户的个性化需求,自由切换音色;学习用户的音色、风格,复刻用户声音
8/26/2024 1:56:12 PM
沛霖(实习)
Meta 发布 Sapiens 视觉模型,让 AI 分析和理解图片 / 视频中人类动作
Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同,从 3 亿到 20 亿不等。它们采用视觉转换器架构,任务共享相同的编码器,而每个任务有不同的解码器头。二维姿势预估:这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应,有助于了解人的姿势和动作。身体部位分割:这项任务将图像分割成不同的身体部位,如头部、躯干、手臂和腿部。图像中的每个像
8/24/2024 2:36:02 PM
故渊
Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像
Meta AI 公司最新推出了 Transfusion 新方法,可以结合语言模型和图像生成模型,将其整合到统一的 AI 系统中。AI在线援引团队介绍,Transfusion 结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似,它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion
8/24/2024 6:57:06 AM
故渊
Meta 公司发布 Imagine Yourself:无需为特定对象微调的个性化图像生成 AI 模型
从社交媒体到虚拟现实,个性化图像生成因其在各种应用中的潜力而日益受到关注。传统方法通常需要针对每位用户进行大量调整,从而限制了效率和可扩展性,为此 Meta 公司创新提出了“Imagine Yourself” AI 模型。传统个性化图像生成方法挑战目前的个性化图像生成方法通常依赖于为每个用户调整模型,这种方法效率低下,而且缺乏通用性。虽然较新的方法试图在不进行调整的情况下实现个性化,但它们往往过度拟合,导致复制粘贴效应。Imagine Yourself 创新Imagine Yourself 模型不需要针对特定用户微
8/23/2024 1:41:31 PM
故渊
Midjourney 官宣网页版免费用,前谷歌大佬祭出 AI 生图 Ideogram 2.0
Midjourney 一度稳居 AI 生图的第一梯队,甚至是很多人心中的 Top1。但是 Ideogram 2.0 的发布,抢夺了 Midjourney 的荣光,不仅一举拉高了图像生成质量,还打起了价格战。曾经在 AI 图像生成领域无可匹敌的领导者 Midjourney,终于听劝了,上周五推出了网页版图像编辑器。新编辑器巧妙集成了重绘、缩放等核心功能。不仅提高了操作效率,而且使整体交互逻辑更加清晰,对于高频使用 Midjourney 的用户来说,绝对欣喜!今天,Midjourney 宣布,将升级后的新工具向所有人免
8/22/2024 11:27:13 PM
问舟
谷歌 Pixel 9 手机的 AI 图像生成工具“放飞自我”,或成“造假利器”
谷歌上周发布了 Pixel 9 系列智能手机,其中包含一系列以人工智能为核心的新功能。所有 Pixel 9 手机均支持 Gemini 人工智能,谷歌还加入了基于人工智能的图像生成和编辑工具。然而,评测人员测试了这些新功能后发现,人工智能图像生成很可能会成为谷歌的公关噩梦。据AI在线了解,谷歌为 Pixel 手机推出了一个名为 Pixel Studio 的人工智能图像生成应用,其能够通过文本提示创建贴纸和图像,功能与苹果计划推出的 Image Playground 非常相似。目前,评测人员能够使用 Pixel Stu
8/22/2024 6:59:00 AM
远洋
特朗普持枪火拼、哈里斯扮作小丑……发布不到一天的Grok 2,摊上大事了!
机器之能报道编辑:杨文Grok 2,你是懂如何背刺自家老板的。Grok 2 刚发布不到一天,就摊上事了。事情是这样的:昨天,马斯克旗下的 xAI 发布新一代大模型 Grok 2,并称已与初创公司 Black Forest Labs 展开合作,试验他们的 FLUX 模型。本来是强强联合的一件好事,但由于 FLUX 模型对于生成的图像没有严格的限制,导致 X 上充斥着大量让人瞠目结舌的图像。例如,扮作小丑的哈里斯开怀大笑:颇具喜感的特朗普持枪火拼:还有更离谱的,特朗普的枪口对准了一个黑人小男孩:要知道,现在正值美国大选
8/15/2024 6:04:00 PM
机器之能
号称 Elo 评分“凌驾竞品”,Black Forest Labs 推出文生图 AI 模型 FLUX.1
美国初创公司黑森林实验室(BlackForestLabs)在 8 月 1 日推出了 AI 文生图模型 FLUX.1,该模型据称在“潜在扩散、稳定扩散及对抗性扩散蒸馏”方面较为突出,能够即时根据用户提示词生成各种图像。官方将该模型与其他友商产品进行比拼,结果显示系列模型的 Elo 评分(AI在线注:Elo 评分系统是一种在国际象棋等竞技游戏中广泛使用的评分方法,主要用于计算比赛对手实力等级)“凌驾” Stable Diffusion 3 Ultra、Ideogram、Midjourney 6.0、DALL・E 3 等
8/12/2024 3:58:29 PM
漾仔
AI 美女全军覆没:赛博照妖镜下集体变“鬼”,AI 代码拆台 AI 生图
赛博照妖镜下,AI 美女全变鬼。来看它的牙。把图像饱和度拉满,AI 人像的牙齿就会变得非常诡异,边界模糊不清。整体图片的颜色也正常,麦克风部分更是奇怪。对比真实人类照片,则应该是这样的。牙齿是清晰的,图片色块都是均匀一致的。这个工具已经开放,人人都能拿着照片去试试。AI 生成视频中的某一帧,也难逃此大法。不漏牙的照片也会暴露问题。不过 BTW,这个工具出自 Claude 之手。用 AI 破解 AI,奇妙的闭环。有一说一,最近 AI 人像太逼真又引发了不小讨论,比如一组大火的“TED 演讲者视频”,其实没有一个是真人
8/12/2024 12:37:45 PM
汪淼
AIGCRank:2024年7月出海AI网站流量排行榜
AI在线 发布 2024年7月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!
8/9/2024 4:11:43 PM
最强开源文生图模型一夜易主:SD 原班人马打造,要发 SOTA 视频生成模型
感谢AI在线网友 刺客 的线索投递!最强开源文生图模型一夜易主!昨日晚间,开源文生图模型霸主 Stable Diffusion 原班人马,宣布推出全新的图像生成模型 FLUX.1。FLUX.1 包含专业版、开发者版、快速版三种模型,其中前两款模型击败 SD3-Ultra 等主流模型,较小规模的 FLUX.1 [schnell] 也超越了 Midjourney v6.0、DALL・E 3 等更大的模型。▲ FLUX.1 ELO 分数与主流模型对比FLUX.1 在文字生成、复杂指令遵循和人手生成上具备优势。以下是其最强
8/2/2024 2:22:20 PM
汪淼
ECCV 2024 | 让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作者分别来自南开大学、南洋理工大学和新加坡科技局。第一作者高森森为南开大学大四学生,此工作为其在新加坡科技局实习期间完成,实习导师为本文通讯作者郭青研究员(主页:)。本文的共同第一作者
7/22/2024 11:25:00 AM
机器之心
Midjourney 的 Style Raw 模式到底怎么用? 一篇文章帮你弄懂!
大家好,这里是和你们一起探索 AI 的花生~
与 stylize、chaos 一样,style raw 也是 Midjourney 出图中常用的的参数之一,可以帮我们实现特定的出图需求,但肯定有很多小伙伴依旧对它的具体作用不太了解,今天就通过这篇文章,详细为大家讲解一下 style raw 的适用场景和使用方法。
上期回顾:一、Style Raw 简介
之前我们提到过,Midjourney 的默认模型( v5.2、v6 等)是自带 “美学滤镜” 的,它们在生成图像时会进行一定的风格化处理,让画面更有艺术性、更好看。
7/5/2024 7:39:14 AM
夏花生
300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要研究方向包括图像和视频编辑以及多模态学习。前言本文提出了解决一般性编辑任务的统一框架!近期,
6/28/2024 6:26:00 PM
机器之心
涵盖文本、定位和分割任务,智源、港中文联合提出首个多功能3D医学多模态大模型
作者 | 香港中文大学白帆编辑 | ScienceAI近日,香港中文大学和智源联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed 和 M3D-Bench,从数据集、模型和测评全方面推动 3D 医学图像分析的发展。(1)M3D-Data 是目前最大的 3D 医学图像数据集,包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四个子数据集。(2)M3D-LaMed 是目前最
6/21/2024 6:08:00 PM
ScienceAI
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉