AI在线 AI在线

应用

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是现有的 MLLM 的研究主要关注提升多模态任务的能力,如何平衡模态协作的收益与模态干扰的影响仍然是一个亟待解决的重要问题。论文地址:: 体验地址:  体验地址:,阿里多模态大模型 mPLUG-Owl 迎来大升级,通过模态协
12/25/2023 2:33:00 PM
李亚洲

Midjourney V6迎来大升级:网友惊呼生成效果太逼真

和 DALL-E 3 等图像生成模型相比,谁的效果会更好呢?你真的会被 Midjourney V6 alpha 版本测试的生成效果震撼到。输入提示:「电影镜头,一个 50 岁留着灰胡子、穿着棕色夹克、戴着红色围巾的黑人男子站在一个 20 岁左右的白人女子旁边,她穿着深蓝和乳白色千鸟格外套,戴着黑色针织帽。午夜,他们走在街道中央,被路灯柔和的橙色光芒照亮。」图源:,v 5.2 的生成效果肉眼可见的差距,人物脸部细节刻画的不是很细致,衣服纹理、褶皱表现的很少:Midjourney V6 生成雨中的马斯克:图源::图源:
12/25/2023 12:04:00 PM
机器之心

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。论文链接:: 代码实现: 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩
12/25/2023 11:54:00 AM
机器之心

大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?

这就是2024年的新趋势吗?近日,一项名为 AppAgent 的创新技术引起了广泛关注。简单来说,AppAgent 的智能代理能力可以用于操作任何 App,它在 50 个复杂手机任务上展示了强大的能力。AppAgent 幕后团队来自腾讯,相关技术论文也已经公布。论文地址::,这项技术通过引入一种基于大型语言模型(LLMs)的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。与传统的智能助手如 Siri 不同,AppAgent 不依赖于系统后端访问,而是通过模拟人类的点击和滑动等操作,直接与手机应
12/25/2023 11:34:00 AM
机器之心

2024年怎么过?这是Sam Altman希望你早些知道的事

机器之能报道编辑:吴昕这个家伙正在塑造世界,如果他学到了什么,我们应该注意。「日子很长,但几十年很短。」Sam Altman 九年前写下这篇箴言体博客时,不知是否预感过自己会成为那个领导 AI 革命的人。2023 年行将结束之际,他时隔多年重拾箴言体,发布了一篇题为《那些我希望有人告诉我的(事)》的博客,将过去一年所学凝结在了十七条短句中。(下文黑体部分,对黑体部分的解读来自编辑。)过去一年激动又疯狂。Altman 领导的 OpenAI 推出了一个世人真正喜欢并从中受益的 AI 工具,世界也开始认真对待 AI 。从
12/22/2023 6:35:00 PM
机器之能

Nature|从1.07亿个分子中发现新抗菌化合物,MIT团队开发用于抗生素发现的DL方法

编辑 | 萝卜皮当前,迫切需要发现新结构类别的抗生素来解决持续存在的抗生素耐药性危机。深度学习方法有助于探索化学空间;这些通常使用黑盒模型并且不提供化学见解。麻省理工学院(MIT)的研究人员开发了一种用于抗生素发现的深度学习方法,并表明它可以从大型化学库中识别出潜在的抗生素。研究人员用该方法从药物再利用中心(包含约 6,000 个分子)中发现了 halicin 和 abaucin,并从 ZINC15 库中的约 1.07 亿个分子中发现了新的抗菌化合物。图示:Yann LeCun 转发了这项研究的 Twitter 报
12/22/2023 3:20:00 PM
ScienceAI

医渡科技发布自研医疗大模型,多个医疗任务场景评测表现超越GPT

2023年12月21日,由医渡科技主办、华为技术有限公司(以下简称“华为”)协办的“2023医疗智能大会”在京举行。大会以“智绘医疗,创见未来”为主题,深入探讨了人工智能等新技术为医疗行业带来的机遇与变革。会上,医渡科技自主研发的医疗垂域大模型正式发布,这是国内首个面向医疗垂直领域多场景的专业大语言模型,医渡科技医疗场景解决方案也随之迎来全面升级。与此同时,医渡科技与华为在会上签署深化合作协议,并联合推出智慧医疗解决方案,加速推动医疗健康行业的智能化转型。医渡科技CEO、联合创始人徐济铭表示,与以往AI浪潮不同,此
12/21/2023 7:59:00 PM
新闻助手

成立仅半年,Mistral估值暴涨七倍,开源重塑AI战局

机器之能报道编辑:Sia烧钱的闭源,逆袭的开源。当 LLaMA 被泄露出去、任何人都可以下载时,开源的命运齿轮已经开始转动,并在 Mistral AI 最新一轮融资中达到高潮。七个月前,来自 Meta 和谷歌的研究人员在巴黎成立了 Mistral AI 。短短六个月,这家拥有22名员工的初创企业在最近 A 轮融资中筹集了 4.15 亿美元,估值从 2.6 亿美元狂飙到 20 亿美元,涨了七倍多。同时,公司也低调发布了大模型 Mixtral 8X7B。Mixtral 8x7B 采用了一种独特的架构方法——专家混合 (
12/21/2023 6:37:00 PM
机器之能

“数智说”工业智能化论坛成功举办

为了进一步汇聚起推进新型工业化的强大合力,推动数字蝶变行动落地见效,12 月 16 日,数智上海 2023 峰会“数智说”工业智能化论坛在上海市杨浦区举办,邀请高校知名专家学者、高端制造业企业和科技企业代表,共享工业数智化丰富经验成果与未来趋势洞见。活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导,上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办,中国联合网络通信有限公司上海市分公司联合主办,机器之心(上海)科技有限公司承办。上海市经济和信息化委员会软
12/21/2023 5:49:00 PM
新闻助手

”数智说”算力新基建论坛圆满举办

作为助推数字经济发展的“重要底座”,我国算力基础设施建设近年来正不断跑出建设“加速度”,为千行百业的数字化转型提供着坚实的算力支撑。12 月 16 日,数智上海 2023 峰会“数智说”算力新基建论坛在上海杨浦顺利举办。相关政府主管部门领导,智算服务供应商、运营商、云计算服务商、AI 芯片企业代表以及上海市算力网络协会代表齐聚一堂,共论产业发展新趋势、新格局。本次活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导,上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进
12/21/2023 5:45:00 PM
新闻助手

开创全新通用3D大模型,VAST将3D生成带入「秒级」时代

生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。传统 3D 建模涉及游戏、影视、建筑等多个行业,普遍依赖专业人员手动操作,生产周期短则几天,多则以月为单位,单个 3D 模型的创建成本至少需要几千元。生成式 AI 技术在 2D 图像生成领域的成功经验,让人们看到了 AI 在变革 3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启,但当前市面上的 3D 生成类的 AI 技术仍然存在各种不足,大家都在期待出现一个让自己眼前一亮的产品。2021 年 1 月初,OpenAI 发布
12/21/2023 3:03:00 PM
机器之心

做大模型时代的最佳云底座,百度智能云打出三套「组合拳」

不破不立,重构云计算这件事,百度智能云公布了最新进展。
12/21/2023 2:57:00 PM
机器之心

再也不怕合照缺人,Anydoor为图片编辑开了一道「任意门」

「能不能把这张图里的产品,都放到另一张图的桌子上?」面对这样的要求,设计师肯定会脑瓜嗡嗡的。把指定物品放进另一张图片不像贴张贴纸一样简单,想要做到无缝接入,贴图的形状、材质、光影等等都需要在编辑软件里细致地调整。如果有一种能让贴图穿进背景图里,它们根据你的指令自动摆好姿势、站位的「魔法」呢?来自香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品,只需要一张照片,就能被传送到另一张图片的世界中。论文链接::,想让这只柯基按照涂鸦的姿势,在墙角站卧坐躺,没有问题。让哆啦 A
12/21/2023 2:37:00 PM
机器之心

只需一张图片、一句动作指令,Animate124轻松生成3D视频

Animate124,轻松将单张图片变成 3D 视频。近一年来,DreamFusion 引领了一个新潮流,即 3D 静态物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步,逐渐融入单视角图像,进而发展到整合多种控制信号。与此相较,3D 动态场景生成仍处于起步阶段。2023 年初,Meta 推出了 MAV3D,标志着首次尝试基于文本生成 3D 视频。然而,受限于开源视频生成模型的缺乏,这一领域的进展相对缓慢。然而,现
12/21/2023 2:28:00 PM
机器之心

“数智说”金融科技与数实融合论坛成功举办

为了进一步加强现代金融机构和金融基础设施建设,推动金融更好地服务实体经济和科技创新,12 月 16 日,数智上海 2023 峰会“数智说”金融科技与数实融合论坛成功举办。论坛汇聚来自高校、行业协会、金融机构、金融科技企业以及数字供应链企业的众多代表,共同探讨了金融科技创新与赋能之道。本论坛活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导,上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办,中国联合网络通信有限公司上海市分公司联合主办,机器之心(上海)科技
12/20/2023 6:28:00 PM
新闻助手

4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%

机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队,刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址::?在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上,PowerInfer 对比 llama.cpp 实现了 11 倍加速!PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU
12/20/2023 6:01:00 PM
机器之心

大模型+搜索构建完整技术栈,百川智能用搜索增强给企业定制化下了一剂「猛药」

用好企业知识库是大模型应用破局的关键。从 ChatGPT 最初发布算起,虽然大模型的热潮已经持续了一年多,但大部分时间依然停留在学术前沿和技术创新层面,深入具体场景实现产业价值的案例并不多见。实际落地的种种挑战最终指向一个方向:行业知识。面对各行各业的垂直场景,依靠网络公开信息和知识预训练的通用模型很难搞定准确性、稳定性、性价比等问题。如果在外部实时信息搜索之余辅以强大的专门的企业知识库,让模型对行业知识的理解大大增强,效果自然更好。这就好比我们熟悉的「开卷考试」模式,人类大脑的「内存容量」越强越好,但终归有上限,
12/20/2023 3:40:00 PM
机器之心

卷生成式AI的旗舰手机,2024年会引发一场交互革命

生成式 AI 已经改变了我们的交互形态。最近,各家手机厂商都在不约而同地做着一件事:把生成式 AI 搬上手机。先是在 10 月份的骁龙峰会上,小米放出消息,能在手机端侧运行的 60 亿参数大模型。他们提出的 AI 模型搭载在新一代手机系统中,可以回答人们提出的各种复杂问题,帮你生成文章、表格,或是帮你写代码。荣耀提前展示了下一代旗舰机 Magic 6 的生成式 AI 能力,在手机上通过自然语言发出指令,你就能让 AI 去找你拍摄的素材,寻找合适的部分整合成一段视频。随后在 11 月份,vivo、OPPO 等厂商发布
12/20/2023 3:36:00 PM
机器之心