AI在线 AI在线

应用

最强开源多模态生成模型MM-Interleaved:首创特征同步器

过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。想象一下,AI 不仅会聊天,还长了「眼睛」,能看懂图片,甚至还会通过画画来表达自己!这意味着,你可以和它们谈天说地,分享图片或视频,它们也同样能用图文并茂的方式回应你。最近,上海人工智能实验室联合香港中文大学多媒体实验室(MMLab)、清华大学、商汤科技、多伦多大学等多家高校、机构,共同发布了一个多才多艺的最强开源多模态生成模型 MM-Interleaved,
2/1/2024 2:34:00 PM
机器之心

Mistral-Medium意外泄露?冲上榜单的这个神秘模型让AI社区讨论爆了

「我现在 100% 确信 Miqu 与 Perplexity Labs 上的 Mistral-Medium 是同一个模型。」近日,一则关于「Mistral-Medium 模型泄露」的消息引起了大家的关注。泄露传闻与一个名为「Miqu」的新模型有关,在评估语言模型情商的基准 EQ-Bench(EQ-Bench 与 MMLU 的相关性约为 0.97、与 Arena Elo 的相关性约为 0.94)上, Miqu 直接吊打了除 GPT-4 之外的所有大模型,而且它的得分与 Mistral-Medium 非常接近:图源::
1/31/2024 3:09:00 PM
机器之心

陶哲轩上新项目:Lean中证明素数定理,研究蓝图都建好了

借助 Lean,陶哲轩又开始了新的项目。「由 Alex Kontorovich 和我领导的一个新的 Lean 形式化项目刚刚正式宣布,该项目旨在形式化素数定理(prime number theorem,PNT)的证明,以及伴随而来的复分析和解析数论的支持机制,并计划给出进一步的结果如 Chebotarev 密度定理。」著名数学家陶哲轩在个人博客中写道。素数定理是数学中的一个重要定理,描述了素数在自然数中的分布规律,该定理在数论中是一个比较重要的研究方向。形式化证明本质上是一种计算机程序,但与 C 或 Pytho
1/31/2024 3:05:00 PM
机器之心

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。基于此,来自北京大学、中山大学等机构的研究者联合提出了一种新颖的 LVLM 训练策略 ——MoE-Tuning。MoE-Tuning 可以构建参数数量惊人但计算成本恒定的稀疏模型,并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。该研究还提出了一种基于 MoE 的新型稀疏 LVLM 架构 ——MoE-LLaVA 框架。该框架独特地在部署过程中通过路
1/31/2024 3:01:00 PM
机器之心

多模态LLM多到看不过来?先看这26个SOTA模型吧

多模态大型语言模型进展如何?盘点 26 个当前最佳多模态大型语言模型。当前 AI 领域的关注重心正从大型语言模型(LLM)向多模态转移,于是乎,让 LLM 具备多模态能力的多模态大型语言模型(MM-LLM)就成了一个备受关注的研究主题。近日,腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布了一份综述报告,全面梳理了 MM-LLM 的近期进展。文中不仅总结了 MM-LLM 的模型架构和训练流程,而且还梳理了 26 个当前最佳的 MM-LLM。如果你正考虑研究或使用 MM-LLM,不妨考
1/31/2024 2:56:00 PM
机器之心

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

随着人工智能和机器人技术的迅速发展,功能操控(Functional Manipulation)在机器人学中的重要性愈加突出。传统的基准测试已无法满足目前机器人对复杂操控任务的需求,呼吁新的操控基准(Functional Manipulation Benchmark)出现。概述机器人操控面临两个主要挑战:机器人如何智能地处理复杂的接触动力学以及如何应对环境和物体的多样性。针对这些挑战,机器人学习技术被视为关键的解决手段。因此,该领域需要一个全面易得的框架,提供有挑战性的实际任务、高质量数据、易于复制的设置,集合了基线
1/31/2024 2:51:00 PM
机器之心

金出武雄和他的中国学生们,计算机视觉五十载风云

突破性的成就对金出武雄来说并不新鲜。 自上世纪八十年代以来,金出武雄(Takeo Kanade)一直是卡内基梅隆大学的基础。 他发起、领导、合作了几个主要的自主移动机器人和各种应用系统,譬如该校的无人驾驶汽车(NavLab)、自主直升机(Robocopter)、计算机辅助髋关节置换手术系统(HipNav)和视频监控系统(VSAM),只要是与计算机视觉技术的相关项目,总能看到金出武雄的名字。
1/31/2024 11:09:00 AM
吴彤

如何用Midjourney轻松搞定微信红包封面设计?案例来了!

在这篇文章中,我们将深入探讨如何利用 Midjourney 来设计微信红包,让你的红包更具个性和吸引力。通过学习和应用这一技术,你将能够轻松地为自己的红包设计出独特的封面,让你的红包在众多传统红包中脱颖而出,成为一道亮丽的风景线。同时,我们还将分享一些实用的技巧和建议,帮助你更好地运用 Midjourney 进行设计,让你的设计之路更加顺畅。让我们一起踏上这场充满创意与惊喜的设计之旅,探索 AI 技术与设计领域的无限可能。 更多红包教程:在这个快速发展的数字化时代,人工智能技术已经渗透到了我们生活的方方面面,成为了
1/31/2024 7:08:43 AM
团队58UXD

Stable Diffusion ComfyUI 基础教程(八):如何使用 Controlnet

一、前言 终于到了最激动人心的时刻,我们使用 Stable Diffusion 最重要的就是他的可控性,其中 Controlnet(控制网络)的作用居功至伟,它可以引入更多的条件来让我们出图更加可控。 往期回顾:在最开始之前我们需要安装 Controlnet 预处理器插件以及下载 Controlnet 模型: ①Controlnet 预处理器插件:插件地址: 如果安装后,运行 ComfyUI 显示无法导入插件 请运行“ComfyUI\custom_nodes\comfyui_controlnet_aux”目录下的
1/31/2024 6:35:11 AM
搞设计的花生仁

这款国产免费编程工具火了!清华博士团队开发,响应延迟短、准确率高

在过去一年中,随着大模型技术的广泛应用,我们已经见证了 AI 如何深刻地改变着我们的工作方式。在程序编写领域,AI 的介入同样将为程序员们带来前所未有的便利。近日,非十科技推出了一款基于自研代码大模型打造的 AI 代码助手 ——Fitten Code,它可以帮助程序员更迅捷、更准确、更高质量地完成编码任务,大幅提升编码效率,并且向用户免费开放使用!产品官网地址: Code 自上次发布以来迅速走红。开发团队日以继夜地工作,带来了功能、性能和速度上的重大升级。此外,还增加了对更多编辑器的支持,为开发者们提供了全新的福利
1/30/2024 3:16:00 PM
机器之心

大模型时代,南大周志华埋头做学件,最新论文上线

机器学习在众多领域取得巨大成功,海量的优质机器学习模型被不断开发。但同时,普通用户想要得到适合自己任务的模型并不容易,更不用说从头开始构建新模型了。南京大学周志华教授提出的「学件」范式通过模型 规约的思路构建学件市场(现称学件基座系统),让用户根据需求从中统一地选择和部署模型。如今学件范式迎来了首个开源的基础平台 —— 北冥坞(Beimingwu)。在经典的机器学习范式中,为一项新任务从头训练高性能的模型需要大量的高质量数据、专家经验和计算资源,无疑耗时耗力且成本高昂。此外,复用已有的模型也存在很多问题,比如很
1/30/2024 3:10:00 PM
机器之心

马斯克:Neuralink首次将芯片植入人体,产品已在路上

第一个商用产品名字有了:Telepathy。马斯克的脑机接口公司 Neuralink,终于开始人体临床研究了。今天早晨,伊隆・马斯克宣布了一个重要消息。根据他在推特上的说法,Neuralink 已在上周日首次将脑机接口设备植入了一个人体,患者「恢复良好」。这是 Neuralink 在去年获得 FDA 批准开展人体临床研究,于秋季开始招募患者后进行的首次人体临床试验。也是 Neuralink「脑后插管」技术通往商业化道路上的最新一步。与 SpaceX 火箭、特斯拉电车相比,马斯克旗下的脑机接口创业公司 Neurali
1/30/2024 3:05:00 PM
机器之心

小扎官宣Code Llama重量级更新,新增70B版本,但还有能力限制

功能更强大的 Code Llama 70B 模型来了。今天,Meta 正式发布 Code Llama 70B,这是 Code Llama 系列有史以来最大、性能最好的型号。我们正在开源一个全新的改进版 Code Llama,包括一个更大的 70B 参数模型。编写和编辑代码已成为当今人工智能模型最重要的用途之一。事实证明,编写代码的能力对于人工智能模型更严谨、更合理地处理其他领域的信息也非常重要。我为这一进展感到自豪,并期待着将这些进展纳入 Llama 3 和未来的模型中。Code Llama 70B 提供与之前发布
1/30/2024 2:52:00 PM
机器之心

ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3

动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。当前的大型语言模型如 GPT、LLaMA 等在自然语言处理领域取得了显著进展,能够理解和生成复杂的文本内容。但你是否想过,如果能够将大语言模型这强大的理解和生成能力迁移到多模态数据上,就可以轻松理解海量的图像与视频,并辅助创作图文并茂的内容。近期,来自快手和北大合作的最新多模态大模型 LaVIT, 正在让这个想法逐步变为现实。论文标题:Unified Language-Vision Pretraining in LLM wi
1/30/2024 2:48:00 PM
机器之心

AI Infra 往事之异构计算篇:吴韧与他的学生们

2013年9月底,吴韧受百度邀请,以杰出科学家的身份加入百度深度学习研究院(IDL),此时正值他五十知天命的年纪。 吴韧在人工智能领域耕耘多年,当时已是一名顶尖的AI计算科学家。 2012年深度学习崛起前后,多年在AI领域的研究和工作经验让他坚信:这一轮人工智能竞争其实比拼的是计算能力。
1/30/2024 2:35:00 PM
张进

采摘场面如此魔性,难怪比尔·盖茨也要给它点赞

机器之能报道编辑:sia2023 年,位于意大利东北部艾米利亚-罗马涅波河畔的城市费拉拉迎来苹果收获季节。在意大利三大顶尖种植基地 Vivai Mazzoni 田园诗般的果园里,八个会飞的采摘机器人正熟练地收获苹果。2023 年苹果收获季节,在意大利费拉拉的 Mazzoni 集团果园机器人自如盘旋在果树旁,在 AI 和计算机视觉算法帮助下精确评估每个苹果的大小和颜色,然后用高吸力臂毫不费力地摘下完全成熟的果实,轻轻地放入传送带,滚入收集箱。系统由八个自动飞行机器人组成,连接到自动传送带上,每 2.5 秒采摘并存放一
1/30/2024 11:50:00 AM
机器之能

第五波!2024年1月精选实用设计工具合集

大家好,这是 2024 年 1 月的第5波干货合集!这一期干货合集中有一些非常稀有的东西,比如来自瑞士工作室的在线字体设计工具,也有非常有用的工具,比如免费的 3D 角色素材和免费的 3D 材质库,当然还有非常新的工具,比如可以调整照片内容的 AI 工具。 当然,在此之前记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货: 1、在线字体排版设计网站 、包豪斯,对于相关的设计感兴趣,那么很大概率你会爱上这个网站。这其实是来自瑞士的独立设计工作室 Studio Feixen 的网站功能的一部分,这个生
1/30/2024 2:24:51 AM
陈子木

Midjourney 再更新!V6 模型支持外绘拓展与局部重绘了!

大家好我是花生~ 上周末 Midjourney 又更新了一波新内容,一是 V6 版本增加了 3 个功能,二是 Alpha 内测网站调低了进入门槛,用户只要生成图像超过 5000 张就能体验网站内的图像生成功能,今天就为大家详细介绍一下相关内容~ 相关推荐:一、V6 功能完善 此次更新最值得关注的就是 Zoom Out 外绘拓展、Pan 平移外绘和 Vary (Region) 局部重绘 3 种图像编辑功能终于能在 V6 版本中使用了,用法还是和之前也是一样的:先将图像放大,然后通过底部的按钮进行对应操作。官方提到 V
1/30/2024 1:14:20 AM
夏花生