图像
九大成像模式一键解析,生物医学图像AI再迎突破!微软、UW等BiomedParse登Nature子刊
作者 | BiomedParse团队编辑 | ScienceAI生物医学图像解析在癌症诊断、免疫治疗和疾病进展监测中至关重要。 然而,不同的成像模式(如MRI、CT和病理学)通常需要单独的模型,造成资源浪费和效率低下,未能充分利用模式间的共性知识。 微软团队最新发布的基础模型BiomedParse,开创性地通过文本驱动图像解析将九种成像模式整合于一个统一的模型中,通过联合预训练处理对象识别、检测与分割任务,实现了生物医学图像解析的新突破。
11/20/2024 4:23:00 PM
ScienceAI
2024年10月出海AI网站流量排行榜
AI在线 发布 2024年10月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!
11/12/2024 3:41:37 PM
智源推出全能视觉生成模型 OmniGen:支持文生图、图像编辑等
北京智源人工智能研究院(BAAI)推出了新的扩散模型架构 OmniGen,这是一种用于统一图像生成的多模态模型。 ▲ 文本生成图像,编辑生成图像的部分元素,根据生成图像的人体姿态生成重绘图像,从另一图像中提取所需对象与新图像融合官方表示,OmniGen 具有以下特点:统一性:OmniGen 天然地支持各种图像生成任务,例如文生图、图像编辑、主题驱动生成和视觉条件生成等。 此外,OmniGen 可以处理经典的计算机视觉任务,将其转换为图像生成任务。
10/29/2024 4:11:56 PM
沛霖(实习)
图像伪造照妖镜:北大发布多模态 LLM 图像篡改检测定位框架 FakeShield
北京大学的研究人员开发了一种新型多模态框架 FakeShield,能够检测图像伪造、定位篡改区域,并提供基于像素和图像语义错误的合理解释,可以提高图像伪造检测的可解释性和泛化能力。 随着生成式人工智能(AIGC)的迅猛发展,图像编辑与合成技术变得愈加成熟与普及。 这一趋势为图像内容创作带来了便捷的同时,也显著增加了篡改检测的难度。
10/24/2024 11:36:51 PM
问舟
谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型
科技媒体 The Decoder 昨日(10 月 22 日)发布博文,报道称谷歌 DeepMind 团队携手麻省理工学院(MIT),推出了全新的“Fluid”模型,在规模达到 105 亿参数时候,能取得最佳的文生图效果。 目前在文生图领域,行业内的一个共识是自回归模型(Autoregressive Models)不如扩散模型(Diffusion Models)。 AI在线简要介绍下这两种模型:扩散模型 (Diffusion Models): 这是一种最近非常热门的内容生成技术,它模拟的是信号从噪声中逐渐恢复的过程。
10/23/2024 1:35:00 PM
故渊
AIGC时代如何打击图片造假诈骗?合合信息文档篡改检测有妙招
近日,第七届中国模式识别与计算机视觉大会(简称“PRCV 2024”)在乌鲁木齐举办。大会由中国自动化学会(CAA)、中国图象图形学学会(CSIG)、中国人工智能学会(CAAI)和中国计算机学会(CCF)联合主办,新疆大学承办。作为模式识别和计算机视觉领域学术盛会,PRCV 2024吸引了众多国内外科研工作者及行业从业者参与,分享最新理论研究进展和技术研发成果,促进产学研交流与合作。
10/22/2024 2:40:00 PM
机器之心
Midjourney 下周上线新图像编辑器:让“二创”AI 图片变得更简单
首席执行官 David Holz 昨日在 Discord 平台宣布,将于下周为 Midjourney 推出全新的 AI 图像编辑器工具。用户上传图像后可展开包括放大、缩小、调整角度等多种操作,这些操作不再需要 Discord,只需简单命令即可完成;用户可以使用数字画笔进行修补,进行更精细的修改。此外该 AI 图像编辑器还可以基于上传图像的深度信息生成新图片,保留原始构图和内容不变的情况下,彻底改变纹理、颜色和细节。
10/22/2024 11:51:31 AM
故渊
智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统
感谢智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。
10/21/2024 11:25:48 PM
沛霖(实习)
RTX 4090 笔记本 0.37 秒直出大片:英伟达联手 MIT 清华祭出 Sana 架构,速度秒杀 FLUX
一台 4090 笔记本,秒生 1K 质量高清图。英伟达联合 MIT 清华团队提出的 Sana 架构,得益于核心架构创新,具备了惊人的图像生成速度,而且最高能实现 4k 分辨率。一台 16GB 的 4090 笔记本,仅需 0.37 秒,直接吐出 1024×1024 像素图片。
10/17/2024 11:35:00 PM
问舟
Adobe 推出多款 AI 工具:可构建 3D 场景、消除路人、清洁镜头
据 The Verge 今天凌晨报道,Adobe 近期展示了多款实验性的 AI 工具,可用于动画制作、图像生成、照片及视频的优化等领域,未来有望被整合到 Creative Cloud 中。Project Scenic:该工具可让用户在使用 Firefly 模型生成图像时拥有更大的控制权。其能够生成一个完整的 3D 场景,用户可以自由添加、移动、调整场景中的物体大小,最终结果会根据 3D 场景生成相应的 2D 图像。
10/16/2024 7:04:50 AM
清源
微软探索音生图 AI 模型,实时视觉化会议演讲者语音讲述的场景
科技媒体 MSPoweruser 昨日(10 月 14 日)发布博文,报道称微软公司获得了一项新的专利,描述了基于用户实时输入的语音来生成图片。根据美国商标和专利局最新公示的清单,该专利共计 20 页,微软于 2023 年 4 月 5 日提交申请,于 10 月 10 日获批。根据专利描述,该系统可以在会议或讲座中实时捕捉音频,随后通过语言模型进行总结,并生成相应的 AI 图像。
10/15/2024 11:57:27 AM
故渊
智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App
感谢智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ,该系列模型的能力已经上线“智谱清言”App。据介绍,CogView3 是一个基于级联扩散的 text2img 模型,其包含如下三个阶段:第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。
10/14/2024 11:13:47 AM
清源
AIGCRank:2024年9月出海AI网站流量排行榜
AI在线 发布 2024年9月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!
10/8/2024 11:53:44 PM
阿里妈妈开源全新 AI 图像修复模型 FLUX-Controlnet-Inpainting
阿里妈妈创意团队宣布开源 FLUX-Controlnet-Inpainting AI 图像修复模型。该模型宣称结合了 FLUX.1-dev 和 ControlNet 的优势,能高质量修复图像。模型可以理解用户语言描述,并修复图像且支持改变风格,官方示例如下:FLUX-Controlnet-Inpainting 与 SDXL-Inpainting 相比,生成内容效果对比如下(输入图像 | 蒙版图像 | SDXL 修复 | 最终效果):FLUX-Controlnet-Inpainting 目前处于 Alpha 测试阶段
9/30/2024 11:16:35 AM
汪淼
准确率87.6%,南农、国防科大、苏大等发布显微图像分类AI新方法
编辑 | 萝卜皮在医学显微图像分类(MIC)领域,基于 CNN 和 Transformer 的模型得到了广泛的研究。然而,CNN 在建模长距离依赖关系方面存在短板,限制了其充分利用图像中语义信息的能力。相反,Transformer 受到二次计算复杂性的制约。为了解决这些挑战,南京农业大学、国防科技大学、湘潭大学、南京邮电大学、苏州大学组成的联合研究团队提出了一个基于 Mamba 架构的模型:Microscopic-Mamba。具体来说,该团队设计了部分选择前馈网络(PSFFN)来取代视觉状态空间模块(VSSM)的最
9/23/2024 11:55:00 AM
ScienceAI
阿里提出结构保持的AI视觉算法:显著提升HDR图像转LDR图像质量
9月21日,记者在2024云栖大会上获悉,阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的AI视觉算法,可将高动态范围(HDR)场景图像自动转换为低动态范围(LDR)图像并保持其纹理细节,在常规显示设备上的图像质量相比业界提升7%。HDR图像同时包含强光源照射下的极亮区域和阴影、逆光下的极暗区域,容易出现明亮区域过曝、或者黑暗区域纯黑的情况,必须经过宽动态技术处理才能适配常规显示设备。传统的宽动态技术由于缺失自适应的局部与全局处理方法,会损失大量信息,生成结果局部粗糙或者全局锐化。业界也在探索基于AI的宽动
9/23/2024 11:17:00 AM
新闻助手
文生图 AI Midjourney 雄心:7.0 版未来 1-2 月登场、开发新图像编辑器、探索 3D 系统、踏足硬件领域
科技媒体 The Decoder 昨日(9 月 12 日)发布博文,报道称在最近的“Office Hours”活动中,Midjourney 创始人兼首席执行官 David Holz 在 Discord 分享了当前项目的最新进展,并回答了社区的提问。Midjourney 7.0 版本Holz 更新了 Midjourney 7.0 版本时间表,表示将会在未来 1-2 月内发布。让更多人体验 MidjourneyHolz 表示公司并不急于推出新的 AI 模型,而是提高现有技术的易用性,让工具深入融入到专业人士的日常工作中
9/13/2024 7:36:39 AM
故渊
阿里通义千问推出 Qwen2-VL:开源 2B / 7B 模型,处理任意分辨率图像无需分割成块
通义千问团队今天对 Qwen-VL 模型进行更新,推出 Qwen2-VL。Qwen2-VL 的一项关键架构改进是实现了动态分辨率支持(Naive Dynamic Resolution support)。与上一代模型 Qwen-VL 不同,Qwen2-VL 可以处理任意分辨率的图像,而无需将其分割成块,从而确保模型输入与图像固有信息之间的一致性。这种方法更接近地模仿人类的视觉感知,使模型能够处理任何清晰度或大小的图像。另一个关键架构增强是 Multimodal Rotary Position Embedding(M-
8/30/2024 8:51:15 AM
沛霖(实习)
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉