应用
深度解析!ControlNet模型的工作原理与应用场景(附案例解析)
一、川言川语
大家好,我是言川。本期文章是 2024 年的第一篇文章,也是 2023 年农历的最后一篇文章。截至这篇文章完成时,距离春节也只有最后一周的时间了,我无法单独向支持我的朋友们传达祝福之意。所以在本篇文章的开头,向大家说一些祝福之词:
2024 年,祝大家在新的一年里事业有成,大展宏图,前程似锦。同时在事业之外,祝大家健康、快乐以及幸福。
2024 年,辰龙年,祝大家龙飞凤舞,事业腾飞;祝大家金龙献瑞,好运连连;祝大家龙年吉祥,幸福安康。
最后,新年快乐,准备准备回家吃饺子咯~二、生成式 AI 回顾
开始
1/30/2024 12:11:46 AM
言川Artie
基于量子辅助深度学习的逆向分子设计
作者 | 康奈尔大学 Fengqi You 团队编辑 | ScienceAI康奈尔大学Fengqi You教授团队,通过结合量子计算(QC)与生成式AI的优势,提出了一个新颖的逆向分子设计框架。该框架利用QC辅助的深度学习模型来学习和模拟化学空间,从而预测并生成具有特定化学性质的分子结构。生成式AI在此过程中起着核心作用,它能够从大量的分子数据中学习潜在的结构-性质关系,并生成新的分子候选物,这些分子不仅符合预设的性质,还考虑到合成的可行性。量子计算的加入则为这一过程提供了高效的计算能力和优化算法,克服了传统计算机
1/29/2024 5:56:00 PM
ScienceAI
王延峰:迫切需要重新审视我国大模型科研组织模式
ChatGPT 掀起的通用人工智能热潮仍在快速向前,产业竞争关键要素日渐明确,中美在通用人工智能领域的竞争也进入更高的战略层面。上海是中国人工智能发展最先进的城市之一。在 1 月 26 日结束的上海市第十六届人民代表大会第二次会议上,第十六届上海市人大代表王延峰教授提交了《关于上海加快建设具有全球影响力的大模型创新集聚区的建议》(下称《建议》)。王延峰建议,上海应当集中精力,抢抓发展机遇,加快建设具有全球影响力的大模型创新集聚区,避免中美大模型方面的差距进一步拉大。王延峰是上海人工智能实验室主任助理、上海交通大学人
1/29/2024 3:22:00 PM
机器之心
500行代码构建对话搜索引擎,贾扬清被内涵的Lepton Search真开源了
你可以说我「借鉴」,但我是真开源。来了,贾扬清承诺的 Lepton Search 开源代码来了。前天,贾扬清在 Twitter 上公布了 Lepton Search 的开源项目链接,并表示任何人、任何公司都可以自由使用开源代码。项目链接:,你也可以用不到 500 行 Python 代码构建自己的对话搜索引擎了。今天,Lepton Search 又登上了 GitHub trending 榜单。此外已经有人将这个开源项目用来构建自己的 Web 应用程序了,并表示质量非常高,与 AI 驱动的搜索引擎 Perplexity
1/29/2024 3:17:00 PM
机器之心
哈工大联合快手提出CogGPT:大模型也需要认知迭代
在认知科学领域,人类通过持续学习改变认知的过程被称为认知迭代(Cognitive Dynamics)。形象地说,认知迭代就像是我们大脑的「软件更新」过程,手机应用通过不断的更新来修复 bug 和增加新功能,我们的大脑也通过不断学习新知识、经验,来改善和优化思考方式。从我们判断感冒吃什么药效果好,到一代代数学家如何证明费马大定理,无论是个人的心智发展还是人类文明的进步,认知迭代都扮演了不可或缺的角色。如今,像 GPT-4 等大型语言模型(Large Language Models,LLMs)为通用人工智能(Artif
1/29/2024 2:27:00 PM
机器之心
OpenAI新模型用的嵌入技术被网友扒出来了
学起来吧。前几天,OpenAI 来了一波重磅更新,一口气宣布了 5 个新模型,其中就包括两个新的文本嵌入模型。我们知道,嵌入是表示自然语言或代码等内容中概念的数字序列。嵌入使得机器学习模型和其他算法更容易理解内容之间的关联,也更容易执行聚类或检索等任务。使用更大的嵌入(比如将它们存储在向量存储器中以供检索)通常要比更小的嵌入消耗更高的成本、以及更多的算力、内存和存储。而 OpenAI 此次推出的两个文本嵌入模型分别是更小且高效的 text-embedding-3-small 模型和更大且更强大的 text-embe
1/29/2024 11:36:00 AM
机器之心
线上课程开售!暨视频生成前沿研究与应用 AI 技术论坛圆满收官
致力于助力企业和广大从业者掌握 AI 视频生成技术前沿,把握时代机遇的“视频生成前沿研究与应用”——机器之心 AI 技术论坛日前圆满收官。活动当天,北京西城昆仑巢论坛现场门庭若市,来自全国十余个城市的 200 多名参会者亲临现场,在 10 位视频生成领域的技术专家带领下,系统拆解了 AI 视频生成的关键技术,了解并学习了多家国内顶尖团队的技术方案和技术创新,活动的最后依然是两个技术实操来巩固所学知识,高效完成了视频生成技术的积累和升级。快来看看现场的精彩瞬间吧!嘉宾精彩分享每一位嘉宾都带来了精彩的分享,现场收获满满
1/29/2024 11:31:00 AM
机器之心
更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目
近期,随着多模态大模型(LMM) 的能力不断进步,评估 LMM 性能的需求也日益增长。与此同时,在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。在这一背景下,M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多学科多模态理解和推理基准 CMMMU(Chinese Massive Multi-discipline Multimodal Understanding and Reasoning),用于评估基本模型在中文各种任务中的专家级多模式理解能力。CMMMU 涵盖 6 个大类
1/29/2024 11:27:00 AM
机器之心
被大V推荐的AI论文,被引量会翻倍?两位推特博主5年推文背后影响揭秘
在 AI 领域,推特博主的影响力可能比想象中要大。经常在 X 平台(推特)上浏览 AI 论文的研究者应该都很熟悉两位博主:AK (@_akhaliq) 和 Aran Komatsuzaki (@arankomatsuzaki)。他们每天都会精选一些论文进行展示,方便大家重点阅读。数据显示,AK 在 X 平台上的粉丝数已经接近 28 万,Aran Komatsuzaki 也超过了 8 万。一般来说,能够得到这两位博主推荐的论文通常质量都相对有保证,后续也能得到更多研究者的关注。但是,二人的影响力到底有多大,被推荐和不
1/29/2024 11:23:00 AM
机器之心
Llama-2+Mistral+MPT=? 融合多个异构大模型显奇效
融合多个异构大语言模型,中山大学、腾讯 AI Lab 推出 FuseLLM随着 LLaMA、Mistral 等大语言模型的成功,各家大厂和初创公司都纷纷创建自己的大语言模型。但从头训练新的大语言模型所需要的成本十分高昂,且新旧模型之间可能存在能力的冗余。近日,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用于「融合多个异构大模型」。不同于以往的模型集成和权重合并,前者需要在推理时同时部署多个大语言模型,后者需要合并模型具备相同的结果,FuseLLM 能够从多个异构大语言模型中外化知识,将各自的知识
1/29/2024 11:02:00 AM
机器之心
15岁开公司,22岁再创业公司估值超20亿美金,Cohere CEO自述开挂人生
机器之能报道编辑:SiaAidan Gomez 是明星生成式 AI 创业公司 Cohere 的联合创始人兼 CEO,曾入选 2023 年《时代》杂志 100/AI AI 领域最具影响力人物名单。前段时间,这家位于加拿大多伦多的创业公司完成 C 轮融资,支持者包括英伟达、Salesforce、甲骨文等,估值超 21 亿美元。公司天使轮投资人包括李飞飞、Geoffrey Hinton、Pieter Abbeel 等大腕儿。作为 OpenAI 最大竞争对手之一,与非常注重 2C 部署的 ChatGPT 不同,Cohere
1/29/2024 10:41:00 AM
机器之能
AI全链路营销公司「奥创光年」完成1500万美元A+轮融资,美图、凯辉联合领投
今日,AI全链路营销公司「奥创光年」(Mogic Ai)对外宣布,已获得1500万美元A 轮融资。本轮融资由美图公司、凯辉基金联合领投、彬复资本、万物创投跟投,其中凯辉基金为奥创光年A轮领投基金,万物创投曾参与奥创光年天使轮投资,本轮继续追加投资。这是奥创光年于2023年8月首次披露其A轮千万级美元融资后,仅在半年内再度公布的新一轮融资,本轮融资由华兴资本担任独家财务顾问。奥创光年是一家AI Native营销公司,团队现已推出SaGa视频内容生成模型及Mogic Content AI Studio(CAS)全链路营
1/29/2024 10:08:00 AM
机器之心
手把手教程!用AI快速做挂件+动态的微信红包封面!
春节马上就要到了,一年一度的微信红包封面大战又要开始了。微信公众号奖了我一万多个红包封面,所以这次我打算挑战一下做个最复杂的红包封面,也就是挂件 动态,并且借由这个测试下现在 AIGC 的能力边界。
更详细的红包教程 7 款AIGC 工具教程:本次测试用到的工具有:图像生成:WHEE
视频生成:Runway
图像编辑:Photoshop sketch
视频剪辑:剪映
图像压缩:iloveimg官方文件与帮助文档:、封面图生成
1. 目标拆解
带挂件的红包封面→需要 png 格式→需要抠图→好扣的图→扁平风
扁
1/29/2024 12:51:18 AM
逗砂
Runway 王炸更新!5个笔刷让人人都能成为神笔马良
前言
上周 Runway 再次升级 Gen-2「运动笔刷」更名为「多头运动笔刷」(Multi Motion Brush),这次可以说是 AI 视频可控性的王炸进化!5 个笔刷,可以对视频局部调整,人人秒变神笔马良。
目前所有用户都可以免费使用,额度 100 秒,每使用一次消耗 4 秒。
接下来让我们一起来试一试吧。
更多AI视频干货:一、使用体验
目前,Runway 可以在官网上或者下载手机 APP 使用。
1. 登录网址
打开官网:
进入 Runwayml 主页,点击图片上的粉色「Start with imag
1/29/2024 12:36:24 AM
yaoyao
全方位盘点!7个常用的数字人 AI 设计神器
数字人 IP 设计是一项复杂而富有挑战性的任务,需要借助各种工具来实现。在这个领域,有许多优秀的工具可供选择,它们可以帮助我们创建出逼真、生动的数字人。本文将介绍一些常用的数字人制作工具,包括 MJ SD、虚幻引擎、Blender/C4D/MAYA、SadTalker、微软 Azure、PIKA 和 runway。这些工具在数字人设计的不同方面都有着独特的优势,我们将逐一探讨它们的功能和特点。通过了解这些工具,你将能够更好地掌握数字人设计的技术,实现你的创意想象。
更多数字人干货:一、形象生成工具
1. MJ SD
1/29/2024 12:17:40 AM
团队58UXD
让IP替品牌讲好故事!夸克x变形金刚联名设计过程复盘
当下越来越多的品牌加入跨界 IP 营销队伍,可以看到如国潮、潮流服饰、二次元、影视等的联名,其底层逻辑还是品牌在寻找一种流量变现。
对于夸克,我们认为与其说教式的结合或博眼球式的曝光,不如换个角度,找到两者的契合点。把品牌的理念、能量寄托到 IP 上,由场景角色的化身为你讲好品牌故事,可能更容易让人记住。在不久前的期末备考期,夸克跟变形金刚电影的联名中,我们实践了这种思路。
而说到这次跨界营销中的亮点,夸克与变形金刚电影的联名手办作为一种新的营销策略,为品牌带来了更多的曝光和关注度。
更多IP设计干货:一、定位
生
1/27/2024 9:05:16 AM
团队Alibaba Design
多模态大模型,阿里通义千问能和GPT-4V掰手腕了
通义千问的图像推理能力,最近有了大幅提升。2024 年,大模型领域要卷什么?如果没有思路的话,不妨看看各家大厂都在押注什么方向。最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。谷歌随后跟上,发布的 Gemini 成为了业界第一个原生的多模态大模型,它可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。很明显,新的方向就是多模态。继 GPT-4 在语言方向的里程碑式突破之后,业界普遍认为「视觉」是下一个爆发的赛道。毕竟人类的五感之中有 80
1/26/2024 2:53:00 PM
机器之心
Mamba论文为什么没被ICLR接收?AI社区沸腾了
基于 Mamba 的创新正不断涌现,但原论文却被 ICLR 放到了「待定区」。2023 年,Transformer 在 AI 大模型领域的统治地位被撼动了。发起挑战的新架构名叫「Mamba」,它是一种选择性状态空间模型( selective state space model),在语言建模方面可以媲美甚至击败 Transformer。而且,它可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度序列,并实现 5 倍的推理吞吐量提升。在发布之后的一个多月里,Mamba 逐渐展现出自己的影
1/26/2024 2:46:00 PM
机器之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Gemini
Stable Diffusion
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
Sora
3D
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind