应用
让AI出图速度提高10倍!用 SDXL Turbo 实现快速出图!
大家好,这里是和你们一起探索 AI 绘画的花生~
前段时间 Stabilty AI 官方发布了一个开源模型 SDXL Turbo,它和我们之前讲过的 LCM 一样,只需 1-4 步就能完成图像生成,同时图像质量依旧保持的不错。如果将 SDXL Turbo 部署到本地, 我们就可以免费在自己电脑上实现 AI 图像实时生成
今天就为大家推荐几种在本地部署使用 SDXL Turbo 模型的方法,包括 Stable Diffusion WebUI、ComfyUI 和 Fooocus,经测试可以将图像的生成速度提升 6-10
12/5/2023 7:55:07 AM
夏花生
R-CNN作者Ross Girshick离职,何恺明、谢赛宁回归学界,Meta CV走出了多少大神
Yann LeCun 表示:「人才离开 FAIR 是我们的损失,但自己仍为他们感到高兴」。FAIR 又一位大佬级研究科学家「出走了」,这次是 R-CNN 作者 Ross Girshick。近日,Meta 首席科学家 Yann LeCun 发推宣布,Ross Girshick 将离开 FAIR,加入艾伦人工智能研究所(AI2)。此前离职的还有 ResNeXt 一作谢赛宁(加入纽约大学任助理教授)、Georgia Gkioxari(加入 Caltech 任助理教授)等。图源: Ross Girshick 的个人主页,证
12/4/2023 5:29:00 PM
机器之心
NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA
类别级 6D 物体位姿估计是一个基础且重要的问题,在机器人、虚拟现实和增强现实等领域应用广泛。本文中,来自北京大学的研究者提出了一种类别级 6D 物体位姿估计新范式,取得了新的 SOTA 结果,论文已被机器学习领域顶会 NeurIPS 2023 接收。6D 物体位姿估计作为计算机视觉领域的一个重要任务,在机器人、虚拟现实和增强现实等领域有众多应用。尽管实例级别的物体位姿估计已经取得了显著进展,但它需要事先了解物体的特性,因此无法轻松适用于新的物体,这限制了其实际应用。为了解决这一问题,近年来,越来越多的研究工作集中
12/4/2023 5:04:00 PM
PKUAgibotLab
OpenAI同意从一家初创公司购买5100万美元的类脑芯片,CEO Altman是它的股东
机器之能报道编辑:大盘鸡、吴昕据连线杂志报道,OpenAI 签署过一份意向书,斥资 5100 万美元购买初创公司 Rain 开发的类脑芯片。OpenAI CEO Sam Altman 此前曾对这家初创芯片公司进行过个人投资, 拥有股份。Rain 的总部距离 OpenAI 旧金山总部不到一英里,正在开发一种名为神经形态处理单元 (NPU) 的芯片,拥有不同的芯片架构——结构和功能上高度模拟人脑计算原理。公司目前拥有约 40 名员工,其中包括人工智能算法开发和传统芯片设计方面的专家。在此之前,人们最为熟知的类脑芯片可能
12/4/2023 3:09:00 PM
机器之能
任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2
研究者表示,CoDi-2 标志着在开发全面的多模态基础模型领域取得了重大突破。今年 5 月,北卡罗来纳大学教堂山分校、微软提出一种可组合扩散(Composable Diffusion,简称 CoDi)模型,让一种模型统一多种模态成为可能。CoDi 不仅支持从单模态到单模态的生成,还能接收多个条件输入以及多模态联合生成。近日,UC 伯克利、微软 Azure AI、Zoom、北卡罗来纳大学教堂山分校等多个机构的研究者将 CoDi 升级到了 CoDi-2。论文地址::
12/4/2023 11:43:00 AM
机器之心
驶向未来,首个多视图预测+规划自动驾驶世界模型来了
Drive-WM 模型通过多视图世界模型,能够想象不同规划路线的未来情景,并根据视觉预测获取相应的奖惩反馈,从而优化当前的路线选择,为自动驾驶系统的安全提供了保障。近期,世界模型的概念引发了火热浪潮,而自动驾驶领域岂能隔岸观「火」。来自中科院自动化所的团队,首次提出了一种名为 Drive-WM 的全新多视图世界模型,旨在增强端到端自动驾驶规划的安全性。网站:: CVPR2023 自动驾驶的研讨会上,特斯拉和 Wayve 两大科技巨头狂秀黑科技,一种名为「生成式世界模型」的全新概念随之火爆自动驾驶领域。Wayve 更
12/4/2023 11:35:00 AM
机器之心
一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制
视频 PS 可以灵活到什么程度?最近,微软的一项研究提供了答案。在这项研究中,你只要给 AI 一张照片,它就能生成照片中人物的视频,而且人物的表情、动作都是可以通过文字进行控制的。比如,如果你给的指令是「张嘴」,视频中的人物就会真的张开嘴。如果你给的指令是「伤心」,她就会做出伤心的表情和头部动作。当给出指令「惊讶」,虚拟人物的抬头纹都挤到一起了。此外,你还可以给定一段语音,让虚拟人物的嘴型、动作都和语音对上。或者给定一段真人视频让虚拟人物去模仿。如果你对虚拟人物动作有更多的自定义编辑需求,比如让他们点头、转头或歪头
12/4/2023 11:12:00 AM
机器之心
用GPT-4V和人类演示训练机器人:眼睛学会了,手也能跟上
微软提出使用人手运动视频直接教机器人完成任务的新方法,这种方法使用 GPT-4V 分解视频中的动作,结合大语言模型生成对应的行为表述并作为任务列表,训练机器人只需要动动手就能完成。如何将语言 / 视觉输入转换为机器人动作?训练自定义模型的方法已经过时,基于最近大语言模型(LLM)和视觉语言模型(VLM)的技术进展,通过 prompt 工程使用 ChatGPT 或 GPT-4 等通用模型才是时下热门的方法。这种方法绕过了海量数据的收集和对模型的训练过程,展示出了强大的灵活性,而且对不同机器人硬件更具适应性,并增强了系
12/4/2023 11:05:00 AM
机器之心
专注图表理解,腾讯、南洋理工等开源图表羊驼大模型ChartLlama
在图像理解领域,多模态大模型已经充分展示了其卓越的性能。然而,对于工作中经常需要处理的图表理解与生成任务,现有的多模态模型仍有进步的空间。尽管当前图表理解领域中的最先进模型在简单测试集上表现出色,但由于缺乏语言理解和输出能力,它们无法胜任更为复杂的问答任务。另一方面,基于大语言模型训练的多模态大模型的表现也不尽如人意,主要是由于它们缺乏针对图表的训练样本。这些问题严重制约了多模态模型在图表理解与生成任务上持续进步。近期,腾讯联合南洋理工大学、东南大学提出了 ChartLlama。研究团队创建了一个高质量图表数据集,
12/4/2023 10:52:00 AM
机器之心
智加科技获全国首张重卡无人驾驶开放道路测试牌照
2023年12月1日,智加科技获得苏州市智能网联汽车无人化测试牌照。该牌照也是江苏省及国内首张无人重卡开放高速公路全路段全场景全息路网(S17苏台高速)道路测试牌照。该重卡无人驾驶开放道路测试牌照,经由苏州市智能网联汽车联席小组及产业专家评审决议颁出,企业可以在指定路段展开无人重卡的自动驾驶测试。此牌照的发放是苏州市大力推进智能车联网产业的重要举措,旨在为未来无人重卡的商业化运营提供有力支撑。此前,智加科技无人重卡已在中国首条满足车路协同式自动驾驶等级的全息感知智慧高速公路苏台高速S17上完成了全球首次示范运营。搭
12/1/2023 5:39:00 PM
新闻助手
国科大&首师大合作综述,「白盒」张量网络:增强量子机器学习的可解释性和效率
编辑 | 紫罗深度机器学习在 AI 的各个领域取得了显著的成功,但同时实现高可解释性和高效率仍然是一个严峻的挑战。张量网络(Tensor Network,TN)是一种源自量子力学的成熟数学工具,在开发高效的「白盒」机器学习方案方面显示出了其独特的优势。近日,首都师范大学的冉仕举和中国科学院大学的苏刚从量子力学中汲取灵感,综述了一种基于 TN 的创新方法,为协调深度机器学习的可解释性和效率这一长期挑战提供了一个有前景的解决方案。一方面,TN ML 的可解释性可以通过基于量子信息和多体物理的坚实理论基础来实现。另一方面
12/1/2023 4:26:00 PM
ScienceAI
不服、愤怒....Sam Altman首次回应重返岗位经过,完善OpenAI治理结构需要时间
机器之能报道编辑:Sia在一场持续了五天的董事会政变之后,Sam Altman 昨日正式重返 OpenAI 首席执行官一职。该公司最大的投资者微软也在董事会中占有一个无投票权的席位。除了一封致全体员工的公开信,重返岗位的 Altman 还为一度因潜在利益冲突而遭外界猜疑但仍留任董事会的 Adam D'Angelo(也是 Quora CEO)进行了澄清,信任他会恪职尽责,「Quora 是 OpenAI 的大客户,董事会中有客户代表很有帮助。」甚至在社交平台上与之互动。同时,Ilya 在 OpenAI 的存在方式仍然不
12/1/2023 4:23:00 PM
机器之能
IDC MarketScape2023年分布式数据库报告:OceanBase位列“领导者”类别,产品能力领先
12月1日,全球领先的IT市场研究和咨询公司IDC发布《IDC MarketScape:中国分布式关系型数据库2023年厂商评估》(Document number:# CHC50734323)。报告认为,头部厂商的优势正在扩大,OceanBase(蚂蚁集团旗下的自研原生分布式数据库)位列“领导者”类别。作为一款原生分布式数据库,OceanBase在产品能力上表现突出,处于领先地位。IDC MarketScape厂商评估模型旨在为特定市场中信息和通信技术(ICT)厂商的竞争力提供一个概述。研究方法采用严格的定性和定量
12/1/2023 3:15:00 PM
新闻助手
720亿参数大模型都拿来开源了!通义千问开源全家桶,最小18亿模型端侧都能跑
目前,通义千问开源全家桶已经有了 18 亿、70 亿、140 亿、720 亿参数量的 4 款基础开源模型,以及跨语言、图像、语音等多种模态的多款开源模型。「Qwen-72B 模型将于 11 月 30 日发布。」前几天,X 平台上的一位网友发布了这样一则消息,消息来源是一段对话。他还说,「如果(新模型)像他们的 14B 模型一样,那将是惊人的。」有位网友转发了帖子并配文「千问模型最近表现不错」。这句话里的 14B 模型指的是阿里云在 9 月份开源的通义千问 140 亿参数模型 Qwen-14B。当时,这个模型在多个权
12/1/2023 3:07:00 PM
机器之心
踹不倒!国产人形机器人整活,售价不到9万美元
最近,一个人形机器人过障碍的视频火了。视频中,人形机器人顺利走过木板、圆盘形成的障碍:被踹一脚会踉跄一下,但是跌倒是不可能跌倒的:负重 30kg,行走速度有所放缓:上几节台阶再一步下来,一气呵成:加点难度,来个人往前拉、往后推,照样可以在障碍上行走自如:最后再表演个前进后退,脚下障碍一样能过:这款人形机器人是国内知名机器人公司宇树科技推出的通用人形机器人 H1。相比于 8 月发布的首个版本,这次爆火视频中的人形机器人是宇树科技最新推出的 2.0 升级版。外形上,H1 身高约 1.8 米,体重约 47 kg。和其他独
12/1/2023 2:52:00 PM
机器之心
昆仑万维发布「天工 SkyAgents」平台,零代码打造AI智能体
12月1日,昆仑万维正式发布「天工SkyAgents」平台,助力大模型走入千家万户。「天工SkyAgents」是国内领先的AI Agents开发平台,基于昆仑万维「天工大模型」打造,具备从感知到决策,从决策到执行的自主学习和独立思考能力。用户可以通过自然语言构建自己的单个或多个“私人助理”。并且将不同任务模块化,通过操作系统模块的方式,实现执行包括问题预设、指定回复、知识库创建与检索、意图识别、文本提取、http请求等任务。在「天工SkyAgents」平台上,用户可以通过自然语言和简单操作,无需代码编程,即可在几分
12/1/2023 11:45:00 AM
新闻助手
用 AI 生成的图像享有著作权吗?法院判决结果出来了!
大家好,这里是和你们一起去探索 AI 绘画的花生~
自 AI 绘画出现以来,关于其生成图片版权问题的争论就一直存在。最近,国内首个 AI 文生图著作权案的审判结果出来了,法院判决原告享有对涉案 AI 图片的著作权,这对之后 AI 绘画作品著作权的裁量和认定具有重要意义。
参与讨论:
案件的起源要追溯到今年 2 月份,原告李某某用 AI 绘画工具 Stable Diffusion WebUI 生成了一张人物图片,并将该图片以“春风送来了温柔”为名发布在自己的小红书账号上,打上了 AI 相关标签,图片也有平台自动附上的
12/1/2023 7:13:03 AM
夏花生
Altman正式重掌CEO大权,微软获董事会观察员席位,辞任独董罕见发文回应
机器之能报道编辑:吴昕OpenAI 今天在官网正式宣布 Sam Altman 回归担任 OpenAI CEO 。Mira Murati 继续担任 CTO。Greg Brockman 继续担任总裁。一个多礼拜之前该公司已经就 Altman 回归达成原则性协议,但直到今天才正式完结。微软也在周三宣布,将在控制 OpenAI 的非营利组织董事会中获得一个没有投票权的观察员席位。由于决定突然解雇 Altman 的四名董事会成员中的三名现已离职,OpenAI 的新董事会由主席 Bret Taylor、Larry Summer
11/30/2023 3:24:00 PM
李亚洲
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Gemini
Stable Diffusion
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
Sora
3D
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind