应用
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知能力,主要涉及多模态编码器与语言模型的集成,从而使其能够跨各种模态处理信息,并利用 LLM 的文本处理能力来产生连贯的响应。然而,该策略仅限于文本生成,不包含多模态输出。一些开创性工作通过在语言模型中实现多模态理解和生成取得了重大进展,但这些模型仅包含单一的非文本模态
3/4/2024 2:47:00 PM
机器之心
一句话让图片动起来,苹果发力大模型动画生成,可直接编辑结果
苹果最新的 AI 工具可以使用文本描述为图像制作动画。现阶段,大模型惊人的创新能力持续影响着创意领域,尤其是以 Sora 为代表的视频生成技术,更是引领了新一代潮流。当大家都为 Sora 感到震撼的同时,或许苹果的这项研究也值得大家关注一下。在一篇名为 「Keyframer: Empowering Animation Design using Large Language Models 」的研究中,来自苹果的研究者发布了一个可以利用 LLM 生成动画的框架 Keyframer,该框架允许用户采用自然语言提示来创建静
3/4/2024 2:35:00 PM
机器之心
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
近期,清华大学和哈尔滨工业大学联合发布了一篇论文:把大模型压缩到 1.0073 个比特时,仍然能使其保持约 83% 的性能!自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目前,主流方法可以在几乎不损失模型性能的情况下把已有模型压缩至 4bit。然而,低于 3bit 的量化像一堵不可逾越的高墙,让研究人员望而生畏。
3/4/2024 11:58:00 AM
机器之心
Sora 发布两周后,关于 Sora 的一些冷思考
两周前的今天,北京时间 2 月 16 日,OpenAI 、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果,但只有 OpenAI 的 Sora 在这场角逐中破圈而出,成功抢占全球的注意力。 可以说,Sora 打响了文生视频大模型行业 2024 年的第一炮。 面对 Sora 着实优异的视频生成效果,短时间内 AIGC 行业内掀起一轮又一轮讨论,一方面,没人想到 OpenAI 的动作如此之快,令人激动兴奋的同时也来不及招架,另一方面,也都在为其 “60秒超长长度”、“单视频多角度镜头”和“世界模型”的等炸裂的效果震惊,并声称会迎来行业洗牌。
3/4/2024 11:48:00 AM
林军
大一统视频编辑框架:浙大&微软推出UniEdit,无须训练、支持多种编辑场景
随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。除了视频生成,在现实生活中,如何对视频进行编辑同样是一个重要的问题,且应用场景更为广泛。以往的视频编辑方法往往局限于「外观」层面的编辑,例如对视频进行「风格迁移」或者替换视频中的物体,但关于更改视频中对象的「动作」的尝试还很少。 UniEdit 视频编辑结果(动作编辑、风格迁移、背景替换、刚性 / 非刚性物体替换)本文中,来自浙江大学、微软亚洲研究院、和北京大学的研究者提出
3/4/2024 11:43:00 AM
机器之心
马斯克起诉OpenAI:他们做出了AGI还授权给微软,这是对创始协议赤裸裸的背叛
AGI 做出来了吗?创始协议在哪儿?马斯克起诉 OpenAI 的诉讼文件疑点满满。在刚刚过去的一天,「沉湎于戏剧性冲突」的马斯克又做了一件新鲜事:他起诉了自己参与创立的 OpenAI。在诉讼文件中,他指控 OpenAI 不计后果地开发人类级别的人工智能,并将其移交给微软。马斯克的诉讼针对的是 OpenAI 及其两名高管 —— 首席执行官 Sam Altman 和总裁 Greg Brockman,他们两人与马斯克合作,于 2015 年创立了这家公司。诉讼称,这两人违反了与马斯克最初达成的「创始协议」,该协议承诺公司将
3/4/2024 11:32:00 AM
机器之心
2万多亿美元,英伟达市值创新高,华尔街排第三
这么看来,老黄的身家又涨了。英伟达,现在已是「地球上最重要的一支股票」了。据路透社消息, 在戴尔发布乐观报告后,英伟达股市价值在周五收盘首次超过 2 万亿美元。重新点燃了华尔街由人工智能驱动的涨势。英伟达股价在戴尔发布乐观预测后上涨了 4%。戴尔公司在周四晚些时候指出,英伟达针对人工智能优化的服务器订单激增。由于自身销售的高端服务器采用了英伟达的处理器,戴尔股价一度飙升 38%,创下历史新高,收盘时涨幅为 32%。周五的涨势使得英伟达市值达到 2.06 万亿美元,使其成为仅次于微软和苹果的华尔街第三大价值公司,微软
3/4/2024 11:26:00 AM
机器之心
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分
在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的研究,这很大程度上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式
3/4/2024 11:13:00 AM
机器之心
效率翻倍!6 款不容错过的免费 AI 神器
大家好,这里是你们一起探索 AI 的花生~
好久没有做效率神器推荐了,最近接连看到了好几个非常有意思 AI 小工具,今天正好整理一下推荐给大家~
相关推荐:一、Catjourney
网址直达:
Catjourney 是由 @歸藏 和 @ LysonOber 联合开发的一个提示词网站,专门收录高质量的 AI 绘画提示词,可以一键复制并用于 Midjourney、Dall·E 3 的出图;最近还新增了 Catjourney Weekly 版块,后续会在里面更新一些 Midjourney 的基础使用技巧。整个网站设计得
3/4/2024 12:52:32 AM
夏花生
如何用AIGC制作MV视频?全流程教程来了!
春节利用AIGC工具制作了一首嘻哈《恭喜发福》MV。这首歌很喜庆鬼畜,满满画面感。
(歌手:孙旭/讲究制噪/DJ Baker/西略CRAT)当视频在手机上无法加载,可前往PC查看。接下来给大家拆解一下整个设计流程。
更多AI视频神器:2024年,注定是AIGC发展的重要一年!
从去年12月从Runway、Pika到前几天OpenAI发布劲爆更新Sora模型!AI视频直接生成60s,短短三个月 AI视频开始爆发式增长。
3/3/2024 6:52:22 AM
yaoyao
美图AI局部重绘技术大揭秘!想怎么改,就怎么改!美图局部重绘让你随心所欲
最近,靠着出其不意的扩图效果,“AI扩图”功能凭借搞笑的补全结果频频出圈,火爆全网。网友们踊跃尝试,180度的大反转也让网友们直呼离谱,话题热度高居不下。在带来欢笑和热度的背后,也代表人们在时刻关注着AI究竟能不能真正帮助他们解决实际问题,优化使用体验。但可以预见的是,随着AIGC技术的快速发展,正在加速推动AI应用场景落地,我们也将迎来一场全新的生产力变革。近日,美图公司旗下WHEE等产品上线AI扩图及AI改图功能,只需简单的提示性输入,用户就可以任意修改图像、移除画面元素、扩充画面,凭借便捷的操作与惊艳的效果,
3/1/2024 6:50:00 PM
新闻助手
“国家队”评测30个大模型数学能力,九章、文心、星火位列前三
去年ChatGPT横空出世后,我国也迎来“百模大战”,大模型能力测评成为业界前沿课题。近日,大模型数学能力权威测评基准MathEval围绕数学能力,对国内外30个大模型(含同一模型的不同版本)开展测评。根据测评结果,学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中,学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中,都具备领先优势。 数据显示,截至去年10月,国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域,包括数学问题解决、数据分析、学术研究、学习辅导等。目前,通用或垂类
3/1/2024 6:01:00 PM
新闻助手
这下火了,半个硅谷科技圈都投了它
机器之能报道编辑:SIA几小时前,人形机器人公司 Figure 宣布完成惊人的 6.75 亿美元 B 轮融资,公司估值达到更惊人的 26 亿美元。一眼望去,感觉半个硅谷科技圈的腕儿都投了它:微软、英特尔、OpenAI Startup Fund(也投了 1X )、Amazon Industrial Innovation Fund (也投了 Digit )、英伟达、贝索斯、“木头姐”的方舟投资、Parkway Venture Capital、Align Ventures 等。自 2023 年 1 月退出隐身模式以来,F
3/1/2024 4:10:00 PM
机器之能
“国家队”入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资
近日,杭州联汇科技股份有限公司(以下简称 “联汇科技”)宣布完成新一轮数亿元战略融资,投资方由中国移动产业链发展基金中移和创投资、前海方舟(前海母基金管理机构)旗下中原前海基金和齐鲁前海基金等多家头部国资与市场化机构组成。领投方中国移动产业链发展基金中移和创投资是贯彻落实中央企业现代产业链链长工作要求,由中国移动与北京市政府、上海市政府发起成立,服务于数字经济、移动信息现代产业链发展、战略新兴产业等国家战略。据悉,本轮融资将主要用于多模态大模型及自主智能体的技术研发、产品创新及市场拓展,扩大其在运营商、能源电力、媒
3/1/2024 3:31:00 PM
机器之心
白宫发文,呼吁开发者放弃C、C++:Rust被「钦点」内存安全
近年来,C、C 编程语言成了美国官方的「眼中钉」,而内存安全的 Rust 等语言摇身一变成了「新宠」。近日,在一份 19 页的报告《回归基础构件:通往安全软件之路》中,白宫国家网络主任办公室(ONCD)呼吁开发者使用「内存安全的编程语言」,比如 Rust 语言。报告指出,从一开始就选择内存安全的编程语言,是以安全设计方式开发软件的重要途径。此外,ONCD 表示,报告中的建议是与包括科技公司、学术界和其他机构合作制定的,并收集了包括惠普、埃森哲和 Palantir 在内等多家科技公司支持报告的意见。报告地址:,这
3/1/2024 3:25:00 PM
机器之心
首批类Sora模型出现,色拉布上线Snap Video,效果优于Pika、不输Gen-2
文生视频这个战场,入局的玩家越来越多了。这次是阅后即焚 SnapChat 背后的公司。最近,OpenAI 视频生成模型 Sora 的爆火,给基于 Transformer 的扩散模型重新带来了一波热度,比如 Sora 研发负责人之一 William Peebles 与纽约大学助理教授谢赛宁去年提出的 DiT(Diffusion Transformer)。当然,随着视频生成这波 AI 趋势的继续演进,类似架构的模型会越来越多。就在昨天,开发出 SnapChat 图片分享软件的 Snap 公司、特伦托大学等机构联合发布了
3/1/2024 3:06:00 PM
机器之心
能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了
2023 年我们正见证着多模态大模型的跨越式发展,多模态大语言模型(MLLM)已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。以 Llama 2,Mixtral 为代表的大语言模型(LLM),以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而,它们的能力缺乏细致且偏应用级的评测,可信度和因果推理能力的对比也尚存空白。近日,上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学(深圳)等院校合作发布 308 页详细报告,对 G
3/1/2024 2:46:00 PM
机器之心
英特尔宣布成立全新独立运营的FPGA公司:Altera
今天,英特尔宣布成立全新独立运营的 FPGA 公司 ——Altera。在上午举行的 FPGA Vision 线上研讨会期间,首席执行官 Sandra Rivera 和首席运营官 Shannon Poulin 进行了分享,展示其在超过 550 亿美元的市场中保持领先性的战略规划,强调将通过打造集成 AI 功能的 FPGA 等举措,进一步丰富公司的产品组合,同时亦表明将持续助力客户应对不断增加的挑战。会上,Altera 也作为新公司的品牌正式对外公布。Altera 首席执行官 Sandra Rivera 表示,“现阶段
3/1/2024 12:17:00 PM
新闻助手
资讯热榜
蚂蚁集团携手北医三院成立AI医疗联合实验室 打造专属AI就医助理
首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
OpenAI豪赌5000亿美元估值神话:60亿股权大甩卖背后,GPT-5却遭用户冷遇
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能
摩根士丹利:AI 革命将为标准普尔 500 指数企业每年节省近 1 万亿美元
心理学家警告:与 AI 聊天可能导致严重心理健康问题
OpenAI加速推进GPT-6开发,奥尔特曼承诺打造"有记忆"的个性化AI助手
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
论文
Anthropic
代码
训练
算法
Stable Diffusion
AI新词
芯片
LLM
蛋白质
腾讯
开发者
苹果
生成式
Claude
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
RAG
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
伟达
视频生成
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用