应用
超10秒高分辨率,北大Open Sora视频生成更强了,还支持华为芯片
北大团队联合兔展发起的 Sora 复现计划,现在有了新成果。OpenAI 在今年年初扔出一项重大研究,Sora 将视频生成带入一个新的高度,很多人表示,现在的 OpenAI 一出手就是王炸。然而,众多周知的是,OpenAI 一向并不 Open,关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。今年 3 月初,北大团队联合兔展启动了 Sora 复现计划 ——Open Sora Plan,该项目希望通过开源社区的力量复现 Sora。项目上线一个月,星标量已经达到 6.6k。项目地址
4/8/2024 2:50:00 PM
机器之心
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性,也为更多视觉场景下的应用探索了新的道路。尽管如此,在将 LMM 应用到计算机视觉任务上时,我们仍面临一个关键挑战:大多数 LMM 目前只限于文本输出,这限制了它们在处理更细粒度的视觉任务,如图像分割方面的能力。此外,图像分割领域内部的需求多样化,任务各异 —— 实例分割需为每个对象分配唯一 ID 并计算类别信赖度,指代分割(RES)则需要基于描述性语句来识别
4/8/2024 2:42:00 PM
机器之心
CVPR 2024|FairCLIP:首个多模态医疗视觉语言大模型公平性研究
作者 | 哈佛大学、纽约大学团队编辑 | ScienceAI公平性在深度学习中是一个关键问题,尤其是在医疗领域,这些模型影响着诊断和治疗决策。尽管在仅限视觉领域已对公平性进行了研究,但由于缺乏用于研究公平性的医疗视觉-语言(VL)数据集,医疗VL模型的公平性仍未被探索。为了弥补这一研究空白,我们介绍了第一个公平的视觉-语言医疗数据集(FairVLMed),它提供了详细的人口统计属性、真实标签和临床笔记,以便深入检查VL基础模型中的公平性。使用FairVLMed,我们对两个广泛使用的VL模型(CLIP和BLIP2)进
4/8/2024 2:18:00 PM
ScienceAI
加拿大政府公布人工智能领域一揽子预算,价值 24 亿加元
加拿大政府昨日公布了面向人工智能领域的一揽子措施,以确保该国在此领域的优势。这些措施将在加拿大政府本财年的预算中占到 24 亿加元(IT之家备注:当前约 127.92 亿元人民币)。具体而言,这部分 24 亿加元的预算将包含六大措施:投资 20 亿加元,为加拿大人工智能研究者和企业提供算力和基础设施,并促进主权人工智能发展;投资 2 亿加元,促进人工智能初创企业的技术商业化,加速人工智能在关键领域的应用;投资 1 亿加元,资助加拿大国家研究理事会的 IRAP AI Assist 项目,该项目通过部署人工智能解决方案
4/8/2024 11:15:29 AM
溯波(实习)
通义千问开源320亿参数模型,已实现7款大语言模型全开源
4月7日消息,阿里云通义千问开源320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡,为企业和开发者提供更高性价比的模型选择。目前,通义千问共开源了7款大语言模型,在海内外开源社区累计下载量突破300万。通义千问此前已开源5亿、18亿、40亿、70亿、140亿和720亿参数的6款大语言模型并均已升级至1.5版本,其中,几款小尺寸模型可便捷地在端侧部署,720亿参数模型则拥有业界领先的性能,多次登上HuggingFace等模型榜单。此次开源的320亿参数模型,将在性能、效率和内存占用之间实
4/8/2024 9:32:00 AM
新闻助手
效率翻倍!5 款不容错过的免费 AI 神器(三)
大家好,这里是你们一起探索 AI 的花生~
今天我们继续 AI 效率神器推荐第三期,内容包括 AI 实时绘画、AI 风格化头像、AI 高清放大工具等。
上期回顾:一、SunoMV
网址直达:
这段时间 AI 神器 Suno 爆火,想必很多小伙伴都体验过它强大的歌曲生成能力了。SunoMV 则是一个专门针对 Suno 推出的 MV 免费生成平台,用户只需提供自己的 Suno 歌曲链接,就能在几分钟内生成一个歌词同步,并且具有精美视觉效果的歌曲短片,非常方便我们在社交平台上展示推广自己的作品。
SunoMV 支持横屏
4/8/2024 8:48:48 AM
夏花生
超详细!写给设计师的LoRa模型训练SOP
写在前面:
在推进 AIGC 技术在我们业务中的应用过程中,我发现许多同事,特别是设计师和跨部门协作的团队,对 LoRA 模型在图像生成中的真正价值理解还不够深入。我们似乎更多地停留在"别人在做,我也要做"的从众心态,而没有真正认识到 LoRA 模型的战略意义和变革潜力。
这种认知差距可能会导致我们在实践中走一些弯路,无法充分发挥 LoRA 模型的优势,也难以实现 AIGC 技术在业务中的最大化赋能。因此,我针对 LoRA 模型训练流程进行了系统梳理和优化,希望能给大家一些启发,帮助我们更好地理解和应用这一强大的工
4/8/2024 6:51:01 AM
NIC
百度文心一言上线新功能,可快速定制自己的 AI 声音
感谢近日百度文心一言上线了新功能,仅需几秒钟即可定制自己的声音。据IT之家了解,想要体验这一功能,只需打开文心一言 App,点击下方“ ”,然后选择创建智能体。在声音选项里,会发现一个名为“创建我的声音”的功能。根据系统提示读出一段话,只需两秒左右的时间,系统便能捕捉到你的声音特点,为你生成一个独特的“语音助手”。在确认声音质量后,你的专属“语音库”就在瞬间构建完成。今后,在与智能体的每一次对话中,你都可以点击播放键,使用自己合成的音色进行语音播报。此外,还可以点击对话框上的通话按钮,与你自己构建的数字分身实时对话
4/7/2024 3:10:28 PM
远洋
AMD:锐龙 8040 系列处理器 AI 性能完胜英特尔酷睿 Ultra 处理器
AMD 近日公布了一系列基准测试,声称其锐龙移动版 7040 Phoenix 系列和 8040 系列处理器在运行大型语言模型 (LLMs) 方面,性能最高可领先于英特尔最新的 Core Ultra Meteor Lake CPU 达 79%。IT之家注意到,本次测试对比的是 AMD 锐龙 7 7840U 和英特尔 Core Ultra 7 155H 处理器,两款芯片均配备了硬件神经网络处理单元 (NPU)。AMD 展示了多张幻灯片,对比了这两款处理器的 Mistral 7b、Llama v2 和 Mistral I
4/7/2024 2:46:07 PM
远洋
超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k
在大模型落地应用的过程中,端侧 AI 是非常重要的一个方向。近日,斯坦福大学研究人员推出的 Octopus v2 火了,受到了开发者社区的极大关注,模型一夜下载量超 2k。20 亿参数的 Octopus v2 可以在智能手机、汽车、个人电脑等端侧运行,在准确性和延迟方面超越了 GPT-4,并将上下文长度减少了 95%。此外,Octopus v2 比 Llama7B RAG 方案快 36 倍。不少网友感叹:设备端 AI 智能体的时代到来了!论文:Octopus v2: On-device language mod
4/7/2024 2:41:00 PM
机器之心
谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡
Gecko 是一种通用的文本嵌入模型,可用于训练包括文档检索、语义相似度和分类等各种任务。文本嵌入模型在自然语言处理中扮演着重要角色,为各种文本相关任务提供了强大的语义表示和计算能力。在语义表示上,文本嵌入模型将文本转换为高维向量空间中的向量表示,其中语义上相似的文本在向量空间中距离较近,从而捕捉了文本的语义信息,这种表示有助于计算机更好地理解和处理自然语言;在文本相似度计算上,基于文本嵌入的向量表示,可以轻松地计算文本之间的相似度,从而支持各种应用,如信息检索、问答系统和推荐系统;在信息检索上,文本嵌入模型可以用
4/7/2024 2:33:00 PM
机器之心
“看起来不像手机”,Altman和Jony Ive的AI硬件公司拟融资10亿美元
机器之能报道编辑:SiaJony Ive 和 Sam Altman 的 AI 设备初创公司正在与 Emerson Collective 和 Thrive Capital 进行融资谈判。Ive 希望筹集高达 10 亿美元的资金。据 The Information 独家消息,由前苹果设计师 Jony Ive 和 OpenAI CEO Sam Altman 创立的神秘 AI 硬件公司目前已经开始与一些最知名的风险投资公司进行融资谈判。The Information执行主编表示,它看起来不像手机据一位参与该过程的人士和另一
4/7/2024 11:28:00 AM
机器之能
美国与欧盟计划借助 AI 寻找半导体生产中“永久化学品”PFAS 替代品
感谢据美国白宫官网,美国-欧盟贸易和科技委员会在近日的联合声明中表示计划借助 AI 寻找半导体生产中“永久化学品”PFAS 的替代品。这份声明是在该委员会于 4 月 4~5 日举办的第六次部长级会议上公布的。声明宣称:我们计划继续努力寻找在芯片中使用全氟和多氟物质(PFAS)的替代品的研究合作机会。例如,我们计划探索使用 AI 能力和数字孪生来加速发现合适的材料,以取代半导体制造中的 PFAS。PFAS 类有机物包含由完全氟化的碳原子组成的碳原子链。由于碳氟键的高强度,PFAS 具有化学惰性,难以同其他物质反应,故
4/7/2024 10:33:00 AM
溯波(实习)
金山办公 WPS 365 宣布 4 月 9 日全新发布:“一站式 AI 办公”
感谢金山办公生产力大会官宣 4 月 9 日 15 点举行,宣称“WPS 365 全新发布”。官方海报写有“一站式 AI 办公生产力即刻起飞”,暗示 WPS 365 将迎来更多 AI 功能升级。2023 年 4 月,金山办公面向政企客户发布了数字办公品牌 WPS 365,该服务提供一系列内容创作应用和办公协作工具,涵盖了内容创作、沟通创作、数字资产管理、开放生态四大版块,包含 WPS Office、文档中心、金山协作、金山会议、邮件、日历等通用办公套件。IT之家查询 WPS 365 官网获悉,该服务的体验版免费使用,
4/7/2024 8:24:39 AM
汪淼
消息称马斯克的 XAI 人工智能公司寻求 30 亿美元融资,估值达 180 亿美元
感谢据华尔街日报援引知情人士消息,埃隆・马斯克 (Elon Musk) 旗下的人工智能创业公司 xAI 正与投资者洽谈融资事宜。此次融资规模达到 30 亿美元(IT之家备注:当前约 217.2 亿元人民币),这将使 XAI 的估值达到 180 亿美元(当前约 1303.2 亿元人民币)。报道称,考虑参与 xAI 融资的投资方包括风投公司 Gigafund 和投资人 Steve Jurvetson。Gigafund 由曾联合创办 PayPal 的 Stephen Oskoui 和 Luke Nosek 于 2017
4/7/2024 7:58:25 AM
远洋
报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4
本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,O
4/7/2024 7:02:17 AM
汪淼
DomoAI 6大新功能详解!可自动扣除背景,支持人物一键跳舞
大家好,这里是和你们一起探索 AI 的花生~
之前为大家介绍了一款 AI 视频工具 DomoAI,它能一键将真人视频转为多种不同的风格,比如动漫、3D 卡通、像素、中式水墨等。过去一段时间内,DomoAI 又连续推出了很多新功能,不仅风格更多样、转绘质量进一步提升,还新增了和 Viggle 一样的角色动态功能,今天我们就一起来看一下这些新功能的用法~
相关推荐:一、DomoAI 新网站
官方网站:
DomoAI 用法详解:视频一键转风格!详解 AI 视频神器 DomoAI 用法
DomoAI 虽然目前依旧将视频生
4/7/2024 1:16:20 AM
夏花生
拒绝白人与亚洲人同框,Meta图像生成器的「歧视」,被人挖出来了
AI 生成工具的偏见何时休?在人工智能构筑的世界中,AI 有时会像人一样存在着某种偏见或倾向性。比如对于大语言模型而言,由于训练数据的影响会不可避免地存在性别偏见、种族刻板印象,等等。当然,这种偏见或倾向性在图像生成工具中同样存在。今年 2 月,谷歌 Gemini 被曝出拒绝在图像中描绘白人,生成大量违背基本事实(性别、种族、宗教等)的图片。 马斯克也被系统过分矫正了。近日,外媒 The Verge 的一篇文章指出,Meta 的 AI 图像生成器无法准确生
4/7/2024 12:23:00 AM
机器之心
资讯热榜
OpenAI 开源模型被 Meta 研究员“逆改”!只动0.3%参数,gpt-oss-20B 解锁无约束基座
奥特曼:我承认GPT-5发布搞砸了
首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
阿里千问踢馆子了!Qwen3新作秒杀ChatGPT,侧脸杀切换第一人称视角,表情包绝绝子,小编:再也不用美图秀秀去水印了
小红书发布DynamicFace人脸生成技术,实现高质量图像视频人脸融合
摩根士丹利:AI 革命将为标准普尔 500 指数企业每年节省近 1 万亿美元
OpenAI加速推进GPT-6开发,奥尔特曼承诺打造"有记忆"的个性化AI助手
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
论文
Anthropic
英伟达
代码
训练
算法
Stable Diffusion
芯片
AI新词
LLM
蛋白质
腾讯
开发者
生成式
Claude
苹果
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
具身智能
RAG
字节跳动
大型语言模型
场景
深度学习
预测
伟达
视觉
Transformer
视频生成
AGI
架构
神器推荐
亚马逊
Copilot
DeepMind
特斯拉
应用