AI在线 AI在线

应用

让视觉语言模型搞空间推理,谷歌又整新活了

视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展,包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难,比如需要理解目标在三维空间中的位置或空间关系的任务。关于这一问题,研究者们常常从「人类」身上获得启发:通过具身体验和进化发展,人类拥有固有的空间推理技能,可以毫不费力地确定空间关系,比如目标相对位置或估算距离和大小,而
2/19/2024 2:22:00 PM
机器之心

Sam Altman7万亿美元芯片计划被怼,“硅仙人”:我只用不到1万亿

机器之能报道编辑:Sia不是每个业内人士都买这笔疯狂数字的账。Sam Altman 最近登上了头条新闻,背后的原因有些夸张。这位从未设计过一个芯片的聪明人认为半导体行业需要他,正在推动一个旨在提高全球芯片制造能力的项目。为此,他需要筹集 5 万亿至 7 万亿美元,并正与包括阿联酋政府在内的不同投资者进行谈判。OpenAI 发言人表示,“ OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论,这对于人工智能和相关行业至关重要。鉴于国家优先事项的重要性,我们将继续向美国政府通报情况,并期待
2/19/2024 12:59:00 PM
机器之能

OpenAI允许员工出售股份,交易后估值超800亿,Altman在线招人

今日,《纽约时报》援引三位知情人士消息,OpenAI 已经完成一项允许员工出售公司股份的交易。这家旧金山 AI 公司估值也因此水涨船高至 800 亿美元或更高(彭博社报道的估值是 860 亿美元)。去年 4 月,OpenAI 曾以近 300 亿美元的估值完成了首轮股票出售。当时,风险投资公司 Thrive Capital、红杉资本、Andreessen Horowitz 和 K2 Global 同意收购 OpenAI 的股票,对该公司的估值约为 290 亿美元。如今不到 10 个月的时间里,OpenAI 估值几乎翻
2/19/2024 12:00:00 PM
机器之心

第二波!2024年2月精选实用设计工具合集

大家好,这是 2024 年 2 月的第 2 波干货合集!这一期干货合集包含最新的 AI 文生视频工具 Sora 的案例合集,最新的设计师作品分享和求职社区推荐,新晋在线幻灯片制作工具和字体设计工具,以及最新的抠图工具和免费的 LOGO 设计素材。 当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货: 1、SORA 文生视频内容案例合集 Open AI 近期推出的文生视频王炸产品 SORA,这让很多视频创作者提供了新的素材来源和近乎无限的创作空间。这个名为 Soravideos.ai
2/19/2024 1:51:06 AM
陈子木

Galileo 1.0 公测开放!一键生成高保真UI设计,可导入Figma 编辑

大家好,我是花生~ 一年前我向大家介绍过一款 AI 设计工具 Galileo,它是首批提出 “Text to UI” 概念的产品之一,可以根据文本生成高质量的 UI 设计原型,不过产品一直以来都是内测状态,所以使用范围不是很广。最近 Galileo 推出了新的 Galileo 1.0 模型,并对所有人开发测试,今天我们就一起来看看新模型的效果如何。 相关推荐:Galileo 1.0 Galileo AI 官网: Galileo 目前主要有两大功能,通过文本生成 UI 设计和通过图像生成 UI 设计。官网的 Exp
2/19/2024 1:01:10 AM
夏花生

手把手教程!教你从零开始设计雨水节气海报

2024 年 2 月 19 日,二十四节气——雨水。大地即将苏醒,万象正在更新,也标志着整个行业的春天正在来临(这是大家的憧憬),一切都开始朝着积极的方向有条不紊的方向运行。 企业或品牌方如果借此机会通过设计创意来展示一些愿景和理念,必定能够有效传达出该企业的正能量。 今天的文章,我们来探索一下「雨水节气」主题相关的创意设计,再通过以 Midjourney 为代表的 AIGC 工具输出一些海报设计样例,以闭环整个文章链路。一、学会用思维导图进行概念拆解 我比较喜欢用思维导图的方式进行概念拆解和延伸,我们来看看「雨水
2/19/2024 12:30:14 AM
阿琦Aqi

5条实用经验,教你如何用AI轻松开发产品!

用 AI 能开发产品吗? 我的回答是:完全可以。全民爱画就是一款用 AI 开发的产品。全民爱画是一个 AI 装饰画创作和实物画订购工具,它利用 AI 技术完成了产品的核心功能,包括 AI 绘画,用户账号和订单支付等。产品大部分的前后端开发工作都由 AI 完成,而我的主要工作是进行产品架构设计、UI 设计、代码调试和产品部署。简单来说,就是让 AI 来完成开发过程中的前后端工作,这样可以极大降低开发难度,提高开发效率,让你更轻松地实现自己的产品想法。 更多干货:利用 AI 进行产品开发,其实质是通过人机交互来解决问题
2/19/2024 12:01:15 AM
Nile

CVPR 2024 Workshop | AIGC质量评价挑战赛启动!

NTIRE (New Trends in Image Restoration and Enhancement) 是近年来计算机视觉领域中具有广泛影响力的全球性研讨会之一,其涵盖了绝大部分底层视觉任务并提供了相应挑战赛。其中,NTIRE 2024 AIGC质量评价挑战赛由上海交通大学刘笑宏、闵雄阔、翟广涛教授团队与华为技术有限公司共同主办。第九届NTIRE研讨会将于2024年6月18日(暂定)与CVPR 2024一同举行。大赛背景:随着生成式人工智能的兴起,近年来涌现了大量文生图、文生视频模型。 此类算法的主要目标是
2/18/2024 5:09:00 PM
新闻助手

效率翻倍!ComfyUI 必装的工作流+模型管理插件 Workspace Manager

大家好我是花生~ 前不久为大家推荐的秋葉大佬的 ComfyUI 整合安装包,今天继续为大家推荐一个目前非常受欢迎的 ComfyUI 插件 Workspace Manager,它可以让我们轻松管理、调用自己的工作流文件和模型,有效提升我们使用 ComfyUI 的效率。 上期回顾:一、Workspace Manager 安装方式 插件 Github 网址: 如果你没有安装 Workspace Manager 插件,可以通过以下 2 种方式安装: ① 通过 ComfyUI Manager 安装(推荐)。进入 Comfy
2/18/2024 12:53:45 AM
夏花生

AI 到底有多强?万字干货盘点最新大模型应用和动态!

前言 距离上次写大模型应用的文章已经过去了大半年:​这期间 AI 如火如荼,虽然我个人感知大模型应用生态并没有太多变化,但还是想记录下近期在大模型应用现象上的观察和浅显见解。 这篇文章会从 GPTs、大模型中间层(Dify、Coze)、大火的虚拟社交(Character.AI 等)聊到 AI Agent、大模型的多模态能力、产品推荐,涵盖了 23 年下半年至今大模型应用领域的最新进展。 一、Chatbot 是自然衍生的产品形态 1. GPTs 2023 年 11 月的 OpenAI 开发者大会上,OpenAI 推出
2/18/2024 12:26:31 AM
Bay的设计奥德赛

让AI生成更准确!解析 Midjourny 的逆向生成方法

网上关于 MIdjourny 的教程很多,但是基本都是正向思维。正向思维导致的结果就是你提供的关键词,并不一定能够输出我想要的效果。 这篇文章主要从逆向思维来剖析,如何以图生图,对目标效果图进行反编译的方法,输出一套属于自己想要的效果图。 更多干货:一、关于逆向生成 「逆向生成」无非就是站在巨人的肩膀上,对原有的目标创作效果进行反向编译,从而学习里面隐藏的技术点,供自己所用。 MIdjourny 提供了一个很好的工具指令就是 describe。上传一张目标效果图,解析一下即可生成 4 段文本分析。 记得上大学的时候
2/17/2024 12:13:57 AM
阿琦Aqi

春节大礼包!OpenAI首个视频生成模型发布,60秒高清大作,网友已叹服

欢迎来到 bling zoo!北京时间今天凌晨,OpenAI 正式发布了文本到视频生成模型 Sora,继 Runway、Pika、谷歌和 Meta 之后,OpenAI 终于加入视频生成领域的战争。山姆・奥特曼的消息放出后,看到 OpenAI 工程师第一时间展示的 AI 生成视频效果,人们纷纷表示感叹:好莱坞的时代结束了?OpenAI 声称,如果给定一段简短或详细的描述或一张静态图片,Sora 就能生成类似电影的 1080p 场景,其中包含多个角色、不同类型的动作和背景细节。Sora 有哪些特别之处呢?它对语言有着深
2/16/2024 5:41:00 PM
机器之心

谷歌Gemini1.5火速上线:MoE架构,100万上下文

今天,谷歌宣布推出 Gemini 1.5。Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上,包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。谷歌现在推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型,针对多种任务的扩展进行了优化,其性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 配备了 128000
2/16/2024 5:39:00 PM
机器之心

我在模拟世界!OpenAI刚刚公布Sora技术细节:是数据驱动物理引擎

机器之心报道机器之心编辑部先安排好演员,再让他们来演绎。今天,我们都在感受 Sora 的带来的魅力。OpenAI 的首个视频生成模型 Sora,让「一句话生成视频」的前沿 AI 技术向上突破了一大截,引发了业界对于生成式 AI 技术方向的大讨论。Sora 生成的视频范例。提示词:「两艘海盗船在一个咖啡杯中航行、互相战斗的逼真特写视频。」来源:,我们已经见证过许多创业公司提出的视频生成模型。相比之下,OpenAI 提出的新模型不论是效果还是理念上,似乎都具有划时代的意义。有人第一时间总结道,Sora 不是一个简单的视
2/16/2024 5:34:00 PM
机器之能

我们还需要Transformer中的注意力吗?

状态空间模型正在兴起,注意力是否已到尽头?最近几周,AI 社区有一个热门话题:用无注意力架构来实现语言建模。简要来说,就是机器学习社区有一个长期研究方向终于取得了实质性的进展,催生出 Mamba 两个强大的新模型:Mamba 和 StripedHyena。它们在很多方面都能比肩人们熟知的强大模型,如 Llama 2 和 Mistral 7B。这个研究方向就是无注意力架构,现在也正有越来越多的研究者和开发者开始更严肃地看待它。近日,机器学习科学家 Nathan Lambert 发布了一篇题为《状态空间 LLM:我们需
2/16/2024 5:31:00 PM
机器之心

RAG还是微调?微软出了一份特定领域大模型应用建设流程指南

检索增强生成(RAG)和微调(Fine-tuning)是提升大语言模型性能的两种常用方法,那么到底哪种方法更好?在建设特定领域的应用时哪种更高效?微软的这篇论文供你选择时进行参考。在构建大语言模型应用程序时通常有两种常见的方法来整合专有和特定领域的数据:检索增强生成和微调。检索增强生成通过外部数据增强提示,而微调将额外的知识整合到模型本身中。不过,对这两种方法的优缺点了解的却不够充分。本文中,来自微软的研究者引入一个新的关注点:为需要特定背景和自适应响应的行业(农业)创建 AI 助手。本文提出了一个全面的大语言模型
2/16/2024 5:27:00 PM
机器之心

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。在语音处理和文本到语音(TTS)领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。在最近的一项研究中,亚马逊正式推出了 BASE TTS,将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。论文标题:BASE TTS: Lessons from building a billion-paramet
2/16/2024 5:22:00 PM
机器之心

生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了

硬件要求越来越低,生成速度越来越快。Stability AI 作为文本到图像的「元老」,不仅在引领该领域的潮流方向,也在模型质量上一次次进行新的突破,这次是性价比的突破。就在前几天,Stability AI 又有新动作了:Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新,它引入了一个三阶段方法,为质量、灵活性、微调和效率设定了新的基准,重点是进一步消除硬件障碍。此外,Stability AI 发布了训练和推理代码,允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推
2/16/2024 5:20:00 PM
机器之心