应用
没有等来OpenAI开源GPT-4o,等来了开源版VITA
开源领域又传来好消息。大语言模型 (LLM) 经历了重大的演变,最近,我们也目睹了多模态大语言模型 (MLLM) 的蓬勃发展,它们表现出令人惊讶的多模态能力。特别是,GPT-4o 的出现显著推动了 MLLM 领域的发展。然而,与这些模型相对应的开源模型却明显不足。开源社区迫切需要进一步促进该领域的发展,这一点怎么强调也不为过。本文 ,来自腾讯优图实验室等机构的研究者提出了 VITA,这是第一个开源的多模态大语言模型 (MLLM),它能够同时处理和分析视频、图像、文本和音频模态,同时具有先进的多模态交互体验。研究者以
同时操控手机和电脑,100项任务,跨系统智能体评测基准有了
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]跨平台的多模态智能体基准测试 CRAB 由 CAMEL AI 社区主导,由来自牛津、斯坦福、哈佛、KAUST、Eigent AI 等机构的研究人员合作开发。CAMEL AI 社区开发的 C
新成绩!毫末用户智驾里程突破2亿公里
在自动驾驶技术的快速发展浪潮中,毫末智行再次迎来新成绩。8月14日,毫末智行宣布其用户智能驾驶行驶里程突破2亿公里大关,这一成绩不仅是毫末技术实力的迈进,也标志着毫末数据闭环能力的迈上新台阶。在自动驾驶技术的研发与量产落地方面,毫末智行始终走在行业前列。经过四年多的发展,毫末乘用车智能驾驶产品HPilot搭载车辆超过20款,毫末用户智能驾驶行驶里程已达2亿公里,是中国量产自动驾驶领军者。目前,搭载毫末HPilot的乘用车已广泛行驶于中国数百个城市,为用户带来安全、便捷、智能的出行体验。截至目前,毫末已推出三代七款智
OpenAI 找回场子:chatgpt-4o-latest AI 模型力压谷歌 Gemini 1.5 Pro,多项跑分重夺第一
谷歌上周发布最强 Gemini 1.5 Pro 模型,在 LMSYS 的聊天机器人竞技场(Chatbot Arena)比赛中取得第一名,而 OpenAI 迅速“找回场子”,最新 chatgpt-4o-latest 模型重夺第一。chatgpt-4o-latest 简介OpenAI 公司上周发布了 gpt-4o-2024-08-06,其 API 支持结构化输出;昨日再次发布了名为 chatgpt-4o-latest 的全新前沿模型,是 GPT-4o 的最新版本,上下文窗口输入最高 128000 个词元(tokens)
谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒
翻车,大翻车。就在今天凌晨,谷歌版 Her——Gemini Live 正式发布。毕竟明显是对标 OpenAI 家的 GPT-4o,可以说是吸足了科技圈的眼球。在官网发布的 demo 中,拍照问答功能的效果是这样的:它大致实现的功能,是用手机拍摄演唱会的海报,并让 Gemini 查看用户的日历,看看行程是否适合参加。以及还可以基于此进行一系列后续的操作,包括定时间查票价等等。然而…… 当来到发布会现场演示环节的时候,画风却 180° 大变样。请看 VCR: 第一次:失败了。第二次:失败了。第三次:换手机,成功了。嗯…
AI 斗图神器:普通视频秒变 meme,手绘动画轻松融入
哎鸭,鸭鸭摔倒了!鸭鸭是真的,摔跤是真的,但端的咖啡和端咖啡的手,是 AI 给 p 上去的。△ 还好手里的咖啡只洒了亿点点来自一个开源项目,VideoDoodles,这两天在外网上的讨论度直线上升。这项目妙就妙在,能给视频加上手绘风格的涂鸦,可可爱爱的也行,奇奇怪怪的也行。就跟人工一帧一帧画上去的没差。这对目前市场上大多数的 2D 视频编辑软件来说,还是比较难的。想要达成同等效果,一般还是得创作者真・一帧一帧画上去。怪费力气的。但 VideoDoodles 能靠在视频中重建 3D 场景,然后在其中放置平面画布,来生
我用AI帮义乌老板重新设计全红婵“丑鱼”拖鞋
作者:马蕊蕾编辑:林杰鑫最近巴黎奥运会火得不止运动员,和他们相关的“奥运”同款,商品搜索量和销量一路暴涨。 全红婵的同款“丑鱼”拖鞋,这周在某宝的上升热度提升了113%,搜索关键词全红婵,第一个提示词就是“丑鱼”拖鞋。 你有想过为啥每次订单爆了,都能及时供上货?
谷歌介绍 Call Notes AI 功能:本地运行,摘录通话内容
谷歌公司在今天凌晨 1 点举办的 Made By Google 活动中,在发布 Pixel 9 系列手机之外,还介绍了全新的 Call Notes 功能,可摘录、总结通话内容。Call Notes 功能简介Call Notes 功能隶属于 Call Assist 工具集,可以调用 AI 来摘录用户的通话内容,如果用户在没有纸笔的情况下,想要梳理通话内容或者想要记录某个电话号码,该功能可以非常方便地处理重要信息。用户操作也非常简单,打开 Google Phone 应用程序,点击联系人,就能看到最近一次的通话摘要,而且
昆仑万维发布全球首个 AI 流媒体音乐平台 Melodio:持续、稳定生成特定风格歌曲
昆仑万维今日宣布,正式发布全球首个 AI 流媒体音乐平台 Melodio,并同步推出 AI 音乐商用创作平台 Mureka。据介绍,用户根据此刻的场景或心情在 Melodio 输入 Prompt(提示),Melodio 便会持续生成相应风格的定制化音乐。用户在 Melodio 音乐生成与播放过程中可以随时修改输入文案,改变音乐生成内容,还能够实时查询生成的歌词,并对于喜欢的片段进行保存、分享。▲ Melodio 使用页面官方还表示,Melodio 是业内首个能够持续、稳定生成特定风格歌曲(如:中国风、Rap、DJ
全球最强AI程序员:GPT-4o加持,需求到跑通只需84秒
大家都在排 waitlist。大模型正在「替代人类程序员」的道路上快速前进。今年 3 月,人工智能软件工程师 Devin 引爆了 AI 社区,该产品由 OpenAI 的 GPT-4 基础大型语言模型(LLM)提供支持,可以在收到自然语言文本指令后自主编写和编辑代码。但在生成式 AI 领域,快速发展是主旋律,现在技术又迭代了。本周,一家 Y Combinator 支持,名为 Cosine 的创业公司宣布推出自己的全新自主 AI 工程师 Genie。该公司表示,Genie 的表现轻松超越了 Devin,在第三方基准测试
Fireworks乔琳:AI产品上市时间从五年压缩到五天,我们的秘诀是什么?
在大模型革命的第一波浪潮中,许多初创公司和企业基于领先的闭源模型,如OpenAI的ChatGPT设计自己的商业模式。 然而,随着越来越多新的开源模型的出现,大模型从训练转向推理,基于大模型的商业模式也在悄然改变。 最近,在人工智能领域,一家名为Fireworks AI的公司迅速崭露头角。
浩瀚智驾2.0首发,2025款极氪001、极氪007全能上市
今日,极氪智能科技正式发布2025款极氪001与2025极氪007,官方起售价分别为25.90万元和20.99万元。即日起,用户可通过极氪App、极氪官网、极氪小程序、全国各大城市的极氪门店等官方渠道进行预定。8月14日,2025款极氪001、极氪007将正式开启全国交付。2025款极氪001购车权益:2024年8月13日到2024年9月30日24:00(含)支付定金5000元的用户可享限时购车权益:极氪新车首任车主,于2024年9月 30日24:00(含)前下定的首台2025款极氪001可享10000元尾款抵扣。
AMD 6.65 亿美元收购 Silo AI;Genie 击败 Devin、GPT-4,刚获 250 万美元融资丨AI情报局
今日融资快报AMD 收购欧洲第一私人AI实验室 Silo AI 交易价值约6.65亿美元AMD 宣布,已经正式完成了对Silo AI的收购,后者是欧洲规模最大的私人人工智能实验室之一。 此次交易的价值约为6.65亿美元,折合人民币约47.7亿元,AMD将全部以现金方式支付。 这笔交易是自 Google 在 2014 年以约 4 亿英镑收购英国 DeepMind 之后,欧洲最大规模的私人 AI 创新公司并购案。
集体诉讼已受理:艺术家指控 Stability AI、Midjourney 等公司非法利用其版权内容训练 AI
美国当地法院主审法官昨日(8 月 13 日)裁定,可以继续推进 AI 图片训练集体诉讼案件,不过驳回了部分诉求。AI在线从报道中获悉,原告由多名艺术家组成,被告为 Stability AI、Midjourney 和其它 AI 相关公司,原告指控其非法使用版权作品用于训练 AI。该集体诉讼原告表示,目前诸多主流 AI 文生图服务所使用的数据集中,包含了他们创造的版权作品。法官威廉・奥里克(William Orrick)批准了针对 Stability 公司的额外诱导性版权侵权索赔,并受理原告对 DeviantArt(该
快手推出“飞船”App:基于“快意”AI 模型,主打虚拟陪伴
快手在发布可灵图生视频模型之后,最新推出了“飞船”(Kraft)AI 对话助手,提供个性化的对话体验。官方介绍称,飞船(Kraft)智能助手 App 是一款基于先进 AI 技术的互动软件,旨在提升用户的生活质量和工作效率。用户可以通过文字或语音与 AI 助手进行交流,解答疑问、获得娱乐、进行创作和角色定制等。用户在飞船平台上扮演“船长”角色,名为快快的 AI 少女领航员引导用户体验,飞船基于快手自研大模型“快意”,更侧重于虚拟陪伴,拥有快速的回复速度和逼真的语音体验。用户可以在该应用中创建和定制专属 AI 虚拟角色
谷歌发布 Gemini Live:支持 AI 语音聊天,可模拟面试场景、推荐演讲技巧
谷歌在今天召开的 Pixel 9 系列手机发布会上,发布了 Gemini Live 服务,将于今天开始率先面向使用英语的 Gemini Advanced 订阅用户开放。 推动自然、流畅的对话交流谷歌表示 Gemini Live 提供了一种移动对话体验,让用户和 Gemini 展开自由流畅的对话。Gemini Live 可以说是对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式(限量 Alpha 测试),采用了增强型语音引擎,可以展开更连贯、更有情感表达力、更逼真的多轮对话。谷歌表示用
谷歌发布 Pixel Studio 本地 AI 文生图应用:基于 Imagen 3 模型,2 秒内生成
谷歌公司在今天召开的 Pixel 9 系列手机发布会上,推出名为 Pixel Studio 的全新图像生成应用,并表示将预装在每台 Pixel 9 系列手机上。用户可以在 Pixel Studio 应用中输入提示词,要求其生成图片。谷歌 Pixel Studio 应用采用本地运行生成,基于谷歌自己的 Imagen 3 模型,主要生成艺术风格的图片,而写实风格的图片效果比较差。以生成下面这张小猫为例,生成时间不超过 2 秒。谷歌 Pixel Studio 应用依赖谷歌 Tensor G4 SoC 芯片来生成图片,如果
神器大盘点!B站700万人气的AI整活视频都是如何完成的?
大家好,这里是和你们一起探索 AI 的花生~
巴黎奥运会已经结束了,这段时间除了观看激动人心的竞赛,我的另一大乐趣就是在 B 站看各种奥运会的吐槽/整活视频。而在这个过程中,我也发现不少视频都用上了 AI 技术,给人带来了新的观看体验。那么今天就和大家聊聊其中比较新奇有趣的效果以及相关实现方法,说不定哪天你也用得上~
相关推荐:一、视频角色替换
首先是一个调侃在奥运 会开幕式上出场的 “蓝精灵” 的视频。由于 “蓝精灵” 的装扮造型和 86 版《西游记》里的青狮怪非常相似,于是一个 B 站 up 主借用了电影《美人
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉