AI在线 AI在线

应用

可多模态数据集成、插补和跨模态生成,中科院&树兰医院&北师大团队开发带有掩码模块的深度生成框架

编辑 | 红菜苔随着单细胞技术的发展,许多细胞特性可以被测量。此外,多组学分析技术可以同时联合测量单个细胞中的两个或多个特征。为了快速处理积累的各种数据,需要多模态数据集成的计算方法。树兰医院、中国科学院和北京师范大学的合作团队提出了 inClust ,一个用于多组学分析的深度生成框架。它建立在之前针对转录组数据所开发的 inClust 的基础上,并增加了两个专为多模式数据处理设计的掩码模块:编码器前面的输入掩码模块和解码器后面的输出掩码模块。InClust 可用于整合来自相似细胞群的 scRNA-seq 和 M
2/5/2024 6:14:00 PM
ScienceAI

王长虎:PixVerse 实测效果已超过 Pika,抖音经验让我们有足够优势

今年 4 月宣布创办爱诗科技,加入视频生成赛道后,王长虎就消失在舆论场中了。他在抖音的职业经历,让爱诗科技在视频生成的牌桌上拥有一席重要位置。2017 年,王长虎加入字节跳动开始担任 AI Lab 总监,在这个岗位上,他为抖音和 Tiktok 从 0-1 构建了视频AI能力。用王长虎本人的话说,为抖音所做的工作,让他的团队涉猎了几乎所有与视频智能相关的领域,包括且不限于数据处理、内容生成、安全问题处理、视频内容精准理解以及全方位广告场景。近期,王长虎接受了机器之心的独家专访。在采访中,王长虎详细介绍了抖音的视频智能
2/5/2024 3:25:00 PM
机器之心

罕见!苹果开源图片编辑神器MGIE,要上iPhone?

拍张照片,输入文字指令,手机就开始自动修图?这一神奇功能,来自苹果刚刚开源的图片编辑神器「MGIE」。                               把背景中的人移除                              在桌子上添加披萨最近一段时间,AI 在图片编辑这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLLM)可以自然地将图像视为输入,并提供视觉感知响应。另一方面,基于指令的编辑技术可以不依赖于详细描述或区域掩码,而是允许人类下达指令,直接表达如何编辑以及编辑
2/5/2024 3:05:00 PM
机器之心

2亿参数时序模型替代LLM?谷歌突破性研究被批「犯新手错误」

照箭画靶,跑分自设标准?最近,谷歌的一篇论文在 X 等社交媒体平台上引发了一些争议。这篇论文的标题是「A decoder-only foundation model for time-series forecasting(用于时间序列预测的仅解码器基础模型)」。简而言之,时间序列预测就是通过分析历史数据的变化趋势和模式,来预测未来的数据变化。这类技术在气象预报、交通流量预测、商业销售等领域有着广泛的应用。例如,在零售业中,提高需求预测的准确性可以有效降低库存成本并增加收入。近年来,深度学习模型已成为预测丰富的多变量
2/5/2024 2:56:00 PM
机器之心

CMU&ETH实现突破:机器狗点满敏捷值天赋,超高速穿越障碍,速度与安全兼备!

足式机器人领域又一次迎来创新!CMU 与 ETH Zurich 团队联合研发了一个名为 「敏捷但安全」(ABS,Agile But Safe)的新框架,为四足机器人在复杂环境中实现高速运动提供了解决方案。ABS 不仅在避免碰撞方面展现出高效能力,还在极速上达到了前所未有的 3.1 米秒!在高速机器人运动领域,实现同时兼顾速度和安全一直是一大挑战。但现在,卡内基梅隆大学(CMU)和苏黎世联邦理工学院(ETH)的研究团队带来了突破性进展。他们开发的新型四足机器人算法,不仅能在复杂环境中高速行进,还能巧妙避开障碍,真正做
2/5/2024 2:52:00 PM
机器之心

“女巴菲特”惊人预测人形机器人将于2030年进入家庭,通用AI出现,赞中国开源力量

机器之能报道编辑:sia年关将近,方舟投资(ARK Invest )2024 年《 Big ideas 》报告如期而至,深入分析了 AI 、机器人等颠覆性技术融合及其巨大的行业和经济变革潜力。作为一家专注投资颠覆性创新( Disruptive Innovation )的公司,ARK 主要投资AI、区块链、储能、机器人等技术。他们认为,这些领域将改变世界的运作方式,同时也创造了长期的投资机会。这张图表被认为很有可能是对2024年AI发展做出了预测,并被视为2024最重要的AI图表之一,正是出自方舟投资。过去几年,方舟
2/5/2024 2:37:00 PM
机器之能

专访面壁曾国洋:踩过 1000 次大模型的坑后 ,造一个性能小钢炮

2月1日,刚成立一年的面壁智能发布了两个在海内外大模型领域「炸裂级」的存在——面壁 MiniCPM 2B 旗舰端侧大模型与面壁OmniLMM多模态大模型。 MiniCPM 2B 有着当之无愧的「小钢炮」称号,其炸裂的点在于,从规模大小和性能来看,仅用2B 规模和1T tokens精选数据,便已在多项主流评测榜单、中英文平均成绩中超越被称为“欧洲最佳大模型”的Mistral-7B。 在与其他同等规模大模型的对比中,面壁MiniCPM表现依旧领先,大幅超越了 Llama2-7B, Mistral7B,Gemini Nano,Qwen-1.8B等一众模型,甚至还能越级比肩 Llama2-13B、Falcon 40B和Cohere 54B此类比自己庞大数十倍规模的模型。
2/5/2024 2:34:00 PM
王悦

AI拜年火了,通义千问上线一张照片生成拜年视频

2月5日,春节将至年味渐浓,阿里云通义千问APP上线多项免费新应用,涵盖全家福、拜新年、万物成龙等图像生成的新玩法,共提供超300套照片模板,用户上传照片即可生成全家福、团圆照、拜年照、千里江山主题照;此外,一个月前火爆全网的全民舞王应用也迎来上新,用户可通过一张照片生成拜年视频,用更轻松、接近真人出镜的方式向亲朋好友传递新年的美好祝福。足不出户即可免费「拍」全家福春节是中国人约定俗成的团圆时刻。AI大模型技术正在让人们突破时空阻碍,用最便捷的方式相聚、庆祝,春节团圆的仪式感拉满。在通义千问APP照相馆应用的全家福
2/5/2024 12:06:00 PM
新闻助手

浙大团队发布 75 页科学 LLM 调查,重点关注生物和化学领域,指出七个未来发展方向

编辑 | X大型语言模型 (LLM) 已成为增强自然语言理解的变革力量,代表着通用人工智能的重大进步。LLM 的应用超越了传统的语言界限,涵盖了科学领域各学科中开发的专业语言系统。这也导致了科学 LLM 的出现。作为科学人工智能(AI for Science)领域的一个新兴领域,科学 LLM 值得全面探索。然而,目前缺乏系统的、最新的调查来介绍它们。近日,来自浙江大学的研究团队,系统地描述了「科学语言」的概念,同时对科学 LLM 的最新进展进行了全面回顾。鉴于科学学科领域广阔,该分析重点关注生物和化学领域。这包括对
2/5/2024 10:22:00 AM
ScienceAI

Midjourney 又变强了!一文详解新功能 Style Reference

大家好我是花生~ 没错今天依旧是 Midjourney 的相关内容, 因为它又推出了一个非常重要的新功能—— Style Reference (风格参考),可以学习一张图像的风格并生成相似新图像。 新功能的用法是怎样的?与 Image Prompt 垫图又有什么区别呢?一起来看看吧~ 上期回顾:一、 Style Reference 使用介绍 如果说 Style Tuner 让我们能探索出更多独特的新风格,那么 Style Reference 就让复制某种特定风格变得更加容易,作用类似于 SD 里的 controln
2/5/2024 8:46:45 AM
夏花生

重磅发布!大淘宝设计部 2023 年度AI设计实践报告出炉

22 年中,绘制头像还在用 3D 进行建模,到了年末,就已经用 AI 直接生成了。 22 年末,面对 AI 工具设想能不能在我们业务中进行尝试,到了 23 年中,AI 工具已经覆盖我们团队所承接的所有营销场景业务。 23 年初,团队同学讲到 AI 工具的应用时觉得这是一个专业亮点,到了 23 年末,AI 工具已成为我们团队设计师的基础能力。 这一切,都变的太快。 这一年,也积累了些心得。 首先 AI 工具带来降本增效,让我们的创意效果快速产生,设计方案有效达成。 其次增效不仅仅增的是效率,还有设计效果。设计自由度极
2/5/2024 7:54:22 AM

大的要来了:谷歌Bard被曝将更名为Gemini,Ultra 1.0更强但收费、安卓App也会来

也许,谷歌此举是为了提前应对 OpenAI 可能于今年推出的 GPT-4.5 或 GPT-5。终于,谷歌去年 12 月承诺的 Gemini Ultra 要与大家见面了吗?今天,推特网友爆出的谷歌 Bard「大料」引发了社媒广泛热议。这位爆料者提供了一张谷歌 Bard 的更新日志截图,显示接下来几天会迎来一次非常重大的调整。谷歌 Bard 预计将从以下两个方面进行调整:一是 Bard 将正式更名为 Gemini,并亮相 Gemini Ultra 1.0 模型;二是 Gemini 安卓应用程序也将到来。对于这份日志更新
2/4/2024 4:08:00 PM
机器之心

不分割成token,直接从字节中高效学习,Mamba原来还能这样用

给出一句「Hello, world!」你要怎么把它喂给 AI 模型?目前常见的方法是利用某种算法将它分为若干 token,比如 ["Hello", ",", "world", "!"]。模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token。但这种方法依赖于有效的 token 分割算法,而且可能无法很好地处理新词、专有名词或非标准用法。因此,不少研究者也在尝试另一种方法:直接让模型从字节中学习。在 Mamba 问世之后,这条路似乎有希望了。在定义语言模型时,通常会使用一种基
2/4/2024 3:56:00 PM
机器之心

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。MoE 的广泛应用,使得在计算成本相对不变的条件下,模型容量能够得到显著扩展。此特性无疑使得 MoE 成为推动 LLM 发展的关键技术。MoE 设计的初衷,是使模型的学习更加 “术业有专攻”,其有效性已得到业界肯定。然而现有 MoE
2/4/2024 3:49:00 PM
机器之心

中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了

ChatGPT 等通用大模型支持的功能成百上千,但是对于普通日常用户来说,智能写作一定是最常见的,也是大模型最能真正帮上忙的使用场景之一。尽管大模型经常能写出看起来像模像样的文字,但是大多数情况下内容的创意程度和文风都经不起深究。尤其是在创作领域,大模型常见的 “GPT 文风” 更是让利用大模型进行创意写作看起来简单,实际却困难重重。近日,波形智能的大模型团队发布了一款专精 AI 写作的专业大模型 Weaver。通过写作领域专业预训练和一套创新性的数据生成和 Alignment 算法,Weaver 在写作领域的各种
2/4/2024 3:45:00 PM
机器之心

看房、打碟、开特斯拉车门、吸尘攒金币:刚刚,第一批把Vision Pro抱回家的人已经开玩了

在全新的 App Store 中,Vision Pro 已经有超过 600 种第三方应用程序体验可供用户探索,包括 OpenAI 的 ChatGPT。切洋葱不用怕辣眼睛、吃油条不用怕弄脏键盘、吸尘不用怕无聊…… 谁能想到,一下子解决这么多问题的居然是苹果 Vision Pro。在刚刚过去的一天,第一批用户已经从苹果零售店拿到了自己的 Vision Pro,第一个拿着它走出来的人甚至享受了明星般的待遇。这一天,苹果 CEO 库克也亲自到场,为取货的人打开大门。有人说,买家现在的心态就像这样:  因为选错提货方式还没拿
2/4/2024 3:41:00 PM
机器之心

击败OpenAI,权重、数据、代码全开源,能完美复现的嵌入模型Nomic Embed来了

模型参数量只有 137M,5 天就能训练好。一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联,也更容易执行聚类或检索等任务。可见,嵌入在 NLP 领域是非常重要的。不过,OpenAI 的嵌入模型并不是免费给大家使用的,比如 text-embedding-3-small
2/4/2024 3:31:00 PM
机器之心

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一直以来,让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下,AI 需要根据用户的要求自动操作手机,逐步完成任务。随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 实现手机操作助手成为了可能。本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil
2/4/2024 3:25:00 PM
机器之心