应用
视频生成要有自己的系统!尤洋团队历时半年开源VideoSys
视频时代需要自己的基础设施。VideoSys 的目标是使视频生成对于每个人而言都简便、迅速且成本低廉。自今年起,OpenAI 的 Sora 和其他基于 DiT 的视频生成模型在 AI 领域掀起了又一波浪潮。但由于起步较晚,视频生成领域的很多基础设施都还有待完善。今年 2 月份,新加坡国立大学尤洋团队开源的一个名为 OpenDiT 的项目为训练和部署 DiT 模型打开了新思路。这是一个易于使用、快速且内存高效的系统,专门用于提高 DiT 应用程序的训练和推理效率,包括文本到视频生成和文本到图像生成。项目上线后非常受欢
8/26/2024 8:57:00 AM
机器之心
上交大新型SRAM存内计算架构「COMPASS」,开启类脑计算新时代
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]团队信息:这一工作由上海交大先进计算机体系结构实验室蒋力教授和刘方鑫助理教授所在课题组(IMPACT)完成,同时也获得了上海期智研究院的支持。第一作者是博士生汪宗武。会议介绍MICRO 全
8/26/2024 8:54:00 AM
机器之心
国内首家人工智能标准化研究机构,北京人工智能标准化研究院揭牌成立
感谢AI在线从“北京亦庄”公众号获悉,在 8 月 25(昨)日的 2024 世界机器人大会人工智能赋能未来产业与组织发展论坛上,国内首家人工智能标准化研究机构 —— 北京人工智能标准化研究院揭牌成立,落地北京经济技术开发区。据介绍,北京人工智能标准化研究院将围绕人工智能前沿关键技术、行业场景应用、风险防范治理等领域开展全链条标准化研究。聚焦基础支撑和关键技术,开展包括算力、算法、数据等方面的标准研究;聚焦人工智能技术发展带来的潜在社会治理风险、伦理、准入等内容开展标准研究,确保人工智能安全、可靠、可控;聚焦标杆应用
8/26/2024 8:35:07 AM
清源
前微软图形学大佬童欣被曝投身 AGI 创业团队,B站前直播老大也加入
童姥下天山之后,新动向已确定。前微软全球研究合伙人、图形学大佬童欣被曝已加盟 AGI 创业团队,担任首席研究员。一个月前,他刚刚结束微软亚洲研究院 25 年的研究生涯,如今剑指 AGI 开启全新旅程。而他所加盟公司 Anuttacon,前B站副总裁直播老大王宇阳也在,担任用户生态总裁。目前童姥谷歌学术上已经显示 Anuttacon Research Manager。这就来看看他加入的是家什么公司?童欣加盟 Anuttacon:用 AGI 突破互动娱乐的界限Anuttacon,一个新成立不久的 AGI 创业公司。在新
8/26/2024 8:02:34 AM
汪淼
海报一键生成+自带文字排版,AI 神器 Ideogram 2.0 终于来了!
大家好,我是花生~
AI 绘画发展至今,我们已经可以直接通过文本生成以假乱真的高清图像、风格各异的精美插图,只需经过简单的后期处理和文字版式设计,就可以将其制作成一张海报,有效提升了设计师的工作效率。但如果我说现在我们可以直接通过文本生成海报,还是那种带版式设计、可以直接用的海报, 你相信吗?
如果不相信也没关系,我们直接看图。下面是 2 张直接通过文本生成的海报,可以看到它们并不是简单地在画面中生成几个单词,而是真的有在 “排版设计”,并且字体的风格样式和主题也是契合的,感觉一个初级设计师做出来的效果也差不多就是
8/26/2024 8:01:28 AM
夏花生
《大都会》预告片风波:虚假影评人引言系 AI 生成
近期备受瞩目的科幻电影《大都会》(Megalopolis)因其预告片中的虚假影评人引言而引发争议。经调查证实,这些虚假引言是由人工智能(AI)生成的。该预告片在发布数小时后被撤下。据《Deadline》报道,负责该片预告片宣传材料的负责人 Eddie Egan 已被撤职。经调查确认,这些引言并非 Egan 或片方狮门影业有意伪造,而是 AI 生成的结果。这些虚假引述内容声称是影评人对导演弗朗西斯・福特・科波拉过往作品的批评,例如将《教父》评价为“松散、自恋的电影”,将《现代启示录》称为“一部史诗级的垃圾”。然而,真
8/26/2024 7:34:35 AM
远洋
集成 Photoshop 功能的强大节点!ComfyUI layer style节点保姆级教程(四)
前言:
学习 ComfyUI 是一场持久战,而 ComfyUI layer style 是一组专为图片设计制作且集成了 Photoshop 功能的强大节点。该节点几乎将 PhotoShop 的全部功能迁移到 ComfyUI,诸如提供仿照 Adobe Photoshop 的图层样式、提供调整颜色功能(亮度、饱和度、对比度等)、提供 Mask 辅助工具、提供图层合成工具和工作流相关的辅助节点、提供图像效果滤镜等。旨在集中工作平台,使我们可以在 ComfyUI 中实现 PhotoShop 的一些基础功能。一、安装方式
方
8/26/2024 12:51:04 AM
AI实战
Midjourney 地位不稳?AI 绘图又一黑马出现,附 4 款产品一手实测
AI 圈,再次开卷图像生成。一连串进展扎堆:8 月 21 日,Ideogram 正式推出 2.0 版本,声称文本渲染能力更强。没错,就是那个成立于去年 8 月,由谷歌 AI 绘画 4 大牛集体离职创业的项目,曾获得过一众 AI 大佬投资。此番 Ideogram 还公开叫板 Flux,官方自信表示其人类评估明显优于 Flux Pro。要知道,Flux 由 Stable Diffusion 原班人马打造,最近正在因生成以假乱真的 TED 演讲“照片”而走红各大网络。除此之外,一周前,谷歌正式放出了 Imagen 3,在
8/25/2024 1:35:02 PM
远洋
亚马逊 CEO 安迪・贾西:AI 助手 Amazon Q 可节省约 4500 个开发人员一年工作量
亚马逊 CEO 安迪・贾西昨天在其领英主页发帖称,将亚马逊的生成式 AI 开发助手“Amazon Q”集成到内部系统后,利用新的代码转换功能,Amazon Q 将应用程序升级到 Java 17 的平均时间从开发人员的 50 天左右缩短到了几个小时,估计节省了约 4500 个开发人员一年的工作量。对于软件开发团队来说,最乏味(但却最关键)的任务之一就是更新基础软件。这不是新功能的工作,也不会让人感觉到你在推动体验向前发展。Amazon Q 是我们的 GenAI 软件开发助手,它正试图为这些繁重的工作带来些许曙光。据A
8/24/2024 2:40:43 PM
清源
Meta 发布 Sapiens 视觉模型,让 AI 分析和理解图片 / 视频中人类动作
Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型,适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同,从 3 亿到 20 亿不等。它们采用视觉转换器架构,任务共享相同的编码器,而每个任务有不同的解码器头。二维姿势预估:这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应,有助于了解人的姿势和动作。身体部位分割:这项任务将图像分割成不同的身体部位,如头部、躯干、手臂和腿部。图像中的每个像
8/24/2024 2:36:02 PM
故渊
程序员为何容易爱上 AI?MIT 学者研究:「智性恋」浓度过高
OpenAI 警告说,跟人工智能语音聊天可能会产生「情感依赖」。这种情感依赖是怎么产生的呢?MIT 的一项研究指出,这可能是「求仁得仁」的结果,无怪乎连软件工程师也会对 AI 着迷。「请不要爱上我们的人工智能聊天机器人。」这个月,OpenAI 在发布的官方报告中,特意提到,不希望用户与 ChatGPT-4o 建立情感联系。OpenAI 的这种担心并不是多余的,对一百万个 ChatGPT 交互日志的分析表明,AI 的第二大流行用途居然是性角色扮演。论文地址: AI 伴侣上瘾的不仅包括对技术不甚了解的普通用户,连软件工
8/24/2024 1:34:53 PM
清源
Transformer 作者 Aidan Gomez 预警:只卖模型玩不过 OpenAI
Transformer 八子中最年轻的 Aidan Gomez 在最新的采访中感叹:只卖模型真的不赚钱!谷歌版的 Aidan Gomez,是给 AI 领域带来深远影响的 Transformer 作者之一。而现在的 Aidan Gomez,是估值飙升 55 亿美元的 Cohere 公司的联合创始人兼 CEO(此前推出了 Command R 系列开源大模型)。在这次与 20VC 主理人 Harry Stebbings 的对话中,Aidan Gomez 大谈特谈 AI 的发展趋势。其中的一些话题引发了网友们的关注和讨论,
8/24/2024 1:17:41 PM
清源
前 OpenAI 研究人员警告“老东家”:若 AI 无监管将造成灾难性伤害
据《商业内幕》北京时间今天上午报道,OpenAI 公开表示了对加州 SB 1047 法案(AI 安全法案)的反对意见之后,两名 OpenAI 的前研究人员则站出来公开反对自己的“老东家”,并提出警告。美国加州 AI 安全法案将要求 AI 公司采取措施,防止其模型造成“严重损害”,例如开发可能导致大量人员伤亡的生物武器或造成超过 5 亿美元(AI在线注:当前约 35.66 亿元人民币)的经济损失。这些前员工向加州州长加文・纽森和其他立法者致信称,OpenAI 对该法案的反对令人失望,但并不令人意外。两名研究人员威廉・
8/24/2024 12:31:10 PM
清源
腾讯推出“全球首个”语音指挥 FPS AI 队友,可据输入指令推测玩家意图
感谢AI在线从腾讯魔方工作室获悉,在 8 月 21 日的 2024 科隆游戏展上,《暗区突围》端游海外版《Arena Breakout: Infinite》亮相。同时,由魔方工作室群技术团队联合《暗区突围》项目团队推出了号称“全球首个”的语音指挥 FPS AI F.A.C.U.L. 。 据官方介绍,该产品是全球第一个“能听懂人类语言”的 FPS AI 队友,应用了生成式 AI 技术,包括语音输入、大语言模型、实时语音合成和环境识别等。其支持玩家用语音直接输入复杂战术指令,还能以此推测玩家意图并用 AI 语音实时反
8/24/2024 11:02:46 AM
清源
“国内首个能力追齐 GPT-4o 语音能力的模型”,心辰 Lingo 语音 AI 模型开放内测预约
金科汤姆猫投资的西湖心辰于今年 8 月推出心辰 Lingo 语音大模型,是国内首个端到端语音大模型,已于今天(8 月 24 日)开启内测预约。在 8 月 21 日发布的公告中,官方介绍称相比较传统 TTS,端到端语音大模型则是一种更为全面的技术,它不仅可以语音识别,还集成了自然语言处理、意图识别、对话管理以及语音合成等多个环节,实现了从语音输入到语音反馈的完整交互过程,极大地丰富了人机交互的深度和广度。AI在线援引官方新闻稿,心辰 Lingo 语音模型是国内首个能力追齐 GPT-4o 语音能力的模型,技术能力上具备
8/24/2024 9:56:44 AM
故渊
集成 Photoshop 功能的强大节点!ComfyUI layer style节点保姆级教程(三)
前言:
学习 ComfyUI 是一场持久战,而 ComfyUI layer style 是一组专为图片设计制作且集成了 Photoshop 功能的强大节点。该节点几乎将 PhotoShop 的全部功能迁移到 ComfyUI,诸如提供仿照 Adobe Photoshop 的图层样式、提供调整颜色功能(亮度、饱和度、对比度等)、提供 Mask 辅助工具、提供图层合成工具和工作流相关的辅助节点、提供图像效果滤镜等。旨在集中工作平台,使我们可以在 ComfyUI 中实现 PhotoShop 的一些基础功能。一、安装方式
方
8/24/2024 7:53:35 AM
AI实战
Ideogram 倒逼 Midjourney“拔剑”,开放网页版后再向免费用户开放 AI 文生图提示词描述工具
科技媒体 testingcatalog 昨日(8 月 23 日)发布博文,或许是 Midjourney 感受到来自 Ideogram 最新模型的压力,在昨日开放网页版,并附赠 25 张文生图试用额度之外,还向免费用户推出了“Tools with the Lab”工具。AI在线注:该功能此前已经向购买 Pro 专业版订阅的用户开放,现在向免费用户也开放体验,用户点击后会进入“Describe”页面。用户可以上传任意照片,然后该工具就会提供 4 种不同的描述,之后用户可以将其作为提示词,通过 Midjourney 创建
8/24/2024 7:43:05 AM
故渊
Meta 研发新方法:整合语言和扩散 AI 模型,降低计算量、提高运算效率、优化生成图像
Meta AI 公司最新推出了 Transfusion 新方法,可以结合语言模型和图像生成模型,将其整合到统一的 AI 系统中。AI在线援引团队介绍,Transfusion 结合了语言模型在处理文本等离散数据方面的优势,以及扩散模型在生成图像等连续数据方面的能力。Meta 解释说,目前的图像生成系统通常使用预先训练好的文本编码器来处理输入的提示词,然后将其与单独的扩散模型结合起来生成图像。许多多模态语言模型的工作原理与此类似,它们将预先训练好的文本模型与用于其他模态的专用编码器连接起来。不过 Transfusion
8/24/2024 6:57:06 AM
故渊
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉