AI在线 AI在线

应用

GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难

难度大升级的多任务长视频理解评测基准 MLVU 来了!由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢?最终排名第一的 GPT-4o 单选正确率还不足 65%。而且研究发现,大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明,提升上下文窗口,提升图像理解能力,以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开,具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计,大部分视频的长度都在 1
6/22/2024 4:32:26 PM
清源

Hugging Face CEO:越来越多 AI 初创公司创始人希望出售自家公司

据 The decoder 本周四报道,开源 AI 社区 Hugging Face 首席执行官 Clément Delangue 本月中旬接受采访时表示,越来越多的 AI 初创公司创始人希望出售他们的公司,这可能预示着 AI 市场即将出现整合。而在 6 月 13 日,Hugging Face 宣布以 1000 万美元(IT之家备注:当前约 7281.9 万元人民币)的价格收购一家名为 Argilla 的小公司,这是 Hugging Face 迄今为止发起的第四次收购。与此同时,Hugging Face 收到了来自更
6/22/2024 2:04:27 PM
清源

生成式 AI“上车”,大众高尔夫、途观、帕萨特等海外版车型现已支持 ChatGPT

当地时间 21 日,大众汽车宣布配备新一代信息娱乐系统的车型现已加入对 ChatGPT 的支持。在欧洲地区,引入 ChatGPT 的车型包括纯电动 ID.系列、新款高尔夫、新款途观、新款帕萨特,用户可通过车辆内置 IDA 语音助手访问 ChatGPT。据介绍,AI“上车”之后带来的体验远远超出以往,用户可以要求汽车直接读出搜索结果,或使用自然语言与汽车进行交互。例如,接入 ChatGPT 的车机可以提供旅游景点信息、报道过去的足球比赛或帮助解决数学问题。驾驶员只需用自然语言与助手交谈,无需将视线从道路上移开。与现有
6/22/2024 12:05:43 PM
清源

差评如潮,“首部”AI 制作电影《最后的编剧》首映式遭取消

据《卫报》当地时间周四报道,在遭到强烈反对后,伦敦一家电影院取消了号称是“首部”(未说明是否全球首部)AI 制作的电影的英国首映式。位于伦敦西区的查尔斯王子影院原定于本周日放映一部名为《最后的编剧》的新片,但该影院近日发布声明称,该片放映计划已经取消。该影院在声明中表示,“在宣传这部电影后,我们在过去 24 小时内收到的反馈表明,许多观众对使用 AI 代替作家表示强烈关注,这反映了行业内更广泛的问题。”IT之家注:《最后的编剧》讲述了一位“著名编剧”的故事,他在遇到一个尖端的 AI 编剧系统时,发现自己的世界动摇了
6/22/2024 11:33:33 AM
清源

获超 1 亿美元投资,消息称 Stable Diffusion 开发商 Stability AI 已任命 Prem Akkaraju 为新任 CEO

外媒 The Information 援引参与决定的人士报道,英国人工智能初创公司 Stability AI 已任命 Prem Akkaraju 为新任首席执行官。视觉特效公司维塔 Wētā FX 前首席执行官 Prem Akkaraju 是包括前 Facebook 总裁 Sean Parker 在内的投资者中的一员。报道称,这些投资者总共出资超过 1 亿美元(IT之家备注:当前约 7.28 亿元人民币),新的资金可能会缩减一些现有投资者的股份。目前,Stability AI 公司拒绝发表评论。IT之家此前报道,S
6/22/2024 9:44:22 AM
泓澄(实习)

有望发力搜索领域,OpenAI 收购数据库分析公司 Rockset

当地时间 6 月 21 日,OpenAI 宣布完成了对数据库检索和分析公司 Rockset 的收购。公司将整合 Rockset 的技术和人员,强化各项产品的检索基础设施。OpenAI 在新闻稿中强调,AI 将有机会改变人们组织、利用自身数据的方式,这便是公司收购 Rockset 的原因。后者是一个提供“世界级”的数据索引、查询功能的实时分析数据库。据悉,Rockset 将使用户、开发人员和企业能够更好地利用自己的数据,并在使用 AI 产品和构建更智能的应用程序时访问实时信息。OpenAI 首席运营官 Brad Li
6/22/2024 9:33:34 AM
清源

OpenAI 首席技术官:GPT-5 将在一年半后发布,部分领域智能达到“博士”级别

美国达特茅斯工程学院本周四公布了对 OpenAI 首席技术官米拉・穆拉蒂的采访。穆拉蒂把 GPT-4 到 GPT-5 的飞跃描述为从高中生到博士生的成长。图源 Pexels“如果你看一下(GPT)进化的轨迹,像 GPT-3 这样的系统可能只有幼儿智力水平,而像 GPT-4 这样的系统则更像是聪明的高中生智力水平,在接下来的几年里,我们期待在特定任务上达到博士的智力水平。事情正在飞速变化、改善。”穆拉蒂强调“博士级”的智能仅适用于某些任务。“这些系统在特定任务中已经达到了人类水平(Human-level),当然,在许
6/22/2024 8:20:43 AM
清源

8500字干货!生成式AI助手设计指南(上篇)

一、前言 自 2022 年 11 月 ChatGPT 横空出世以来,世界好像被颠覆了。各类生成式 AI 迅猛发展,其中生成式 AI 助手以其独特的创造力和智能性,重新定义了许多产品的使用方式。它通过先进的自然语言处理技术,不仅能理解用户的指令和问题,还能生成回答、撰写文本、甚至创作内容,拓展了人机交互的边界,带给人们极大的便利。 全球的技术巨头和创新型初创公司都纷纷投身于生成式 AI 这一必争之地,各大厂商都在积极探索如何将生成式 AI 助手融入到自己的产品和服务中。 本文将从 UX 设计的角度,拆解生成式 AI
6/22/2024 3:13:52 AM
团队58UXD

华为开发者大会2024:HarmonyOS NEXT Beta,AI 大模型开启OS新纪元

2024年6月21日,2024年华为开发者大会(HDC)正式开幕,带来全新的HarmonyOS NEXT、盘古大模型5.0、昇腾AI云服务、GaussDB数据库等最新科技创新成果,分享鸿蒙生态开放的新能力,持续为消费者和开发者带来创新体验。 鸿蒙生态,万物互联在主题演讲中,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东分享了鸿蒙生态的最新进展。 HarmonyOS操作系统从2019年8月9日正式发布,历时1778天,历经4代,鸿蒙生态设备数量已超过9亿,已有254万 HarmonyOS开发者投入到鸿蒙世界的开发中来,鸿蒙学堂学习人次435万,开发者服务调用次数827亿次/月。
6/21/2024 10:51:00 PM
赖文昕

华为云用盘古大模型重塑服务,ModelArts Studio全面升级

6 月 21 日,华为开发者大会 2024 在东莞召开。在大会现场,华为发布了 HarmonyOS Next、盘古大模型 5.0 等方面的最新进展,也介绍了一系列 AI 先进技术的应用案例。在活动中,华为云 CTO 张宇昕表示:“华为云基于盘古大模型的能力,重塑一系列的云服务,打造 AI Native 的云,助力千行万业智能化。” 据介绍,华为云将盘古大模型和华为在产品研发、数据治理、安全防护、业务运维等各个领域积累的数据和经验相结合,“跳了自己的降落伞”,应用在了华为云 CodeArts、DataArts、Met
6/21/2024 7:57:00 PM
新闻助手

AI 队友能“听懂人话”,网易《永劫无间》手游推出全球首个游戏 Copilot AI

随着多模态、AI 大模型技术的不断进步,游戏 AI 也正朝着更加智能、更加人性化的方向发展。6 月 19 日,网易《永劫无间》手游开启“定胜终测”,并宣布推出全球首个游戏 Copilot AI。据网易官方介绍,网易伏羲工作室研发的全球首个游戏 Copilot,就是与微软 Copilot 同样基于多模态技术,而这项技术被使用到了网易旗下的《永劫无间》手游中,化身为与玩家并肩作战的“AI 队友”。这些 AI 队友并非传统意义上的 NPC,而是能够与玩家进行实时语音交互并完成游戏对局各种复杂操作的“智能体”。在游戏中,A
6/21/2024 6:16:58 PM
汪淼

小冰联合视美泰共创ShiMeta数字人解决方案:大模型加持,让每一个大屏终端都成为全新的交互载体

2024年6月21日,小冰公司与AIoT头部企业视美泰宣布达成战略合作,共同推出ShiMeta数字人解决方案。双方联合打造多种形态的数字人智能交互大屏终端,将小冰AI大模型、数字人技术与视美泰丰富的硬件商业生态相融合,让数字人走入各类行业场景,为千行百业注入全新的生产力,提升用户体验和服务效率,带来更多智能化变革。小冰×视美泰:丰富的硬件商业生态方案将小冰大模型以及神经网络渲染、超级自然语音等先进数字人技术,与视美泰高性能主板、高清摄像头、麦克风阵列、设备管理平台等进行了深入整合,实现大屏终端“开箱即用”,同时后台
6/21/2024 6:11:00 PM
新闻助手

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

机器之能报道编辑:杨文玩梗、看病、耍心眼、做数学题,「新王」Claude 3.5能力真那么玄乎?它来了,它来了,它带着 Claude 3.5 Sonnet 走来了!蛰伏三个月,就在昨晚,OpenAI 的「劲敌」Anthropic 上新了,推出新一代模型 ——Claude 3.5 Sonnet!这款大模型有啥独到之处?首先,它更能把握住细微差别、幽默和复杂指令,并且书写语气更自然、亲切。它还是Anthropic最强的视觉模型,擅长解释图表、图形或者从不完美的图像中转录文本等任务。此外,它在推理、阅读理解、数学、科学和
6/21/2024 6:02:00 PM
机器之能

乐聚夸父人形机器人亮相 HDC 2024,搭载华为云盘古具身智能大模型

乐聚夸父人形机器人今日下午亮相 HDC 2024 华为开发者大会,搭载华为云盘古具身智能大模型。▲ 夸父与华为常务董事、华为云 CEO 张平安击掌华为常务董事、华为云 CEO 张平安在介绍盘古具身大模型的环节中,向观众展示了夸父人形机器人搭载盘古具身智能大模型后,在工业、家庭场景中展现的潜力,并与夸父人形机器人进行击掌互动。IT之家查阅 HDC 2024 日程表获悉,6 月 22 日,乐聚机器人董事长冷晓琨将在盘古具身智能大模型专题论坛上作《建设“人形机器人 ”开放生态平台,打造通用具身智能解决方案》主题报告;6
6/21/2024 5:51:02 PM
汪淼

快手可灵上线图生视频与最长 3 分钟的视频续写功能

感谢快手可灵新功能“图生视频”和“视频续写”今日上线。图生视频功能,支持将静态图像转化为 5 秒钟视频,用户可通过提示词文本控制图像中物体的运动;视频续写功能,支持对生成视频一键续写和连续多次续写,最长可生成约 3 分钟视频;此外文生视频新增 9:16 和 1:1 视频尺寸选择。 IT之家附快手可灵官方网站:,能够生成大幅度的合理运动,模拟物理世界特性。可灵使用了 DiT 架构,快手对模型中的隐空间编 / 解码、时序建模等模块进行了升维处理。在隐空间编 / 解码上,快手自研了 3D VAE 网络,实现时空同步压缩,
6/21/2024 5:06:01 PM
沛霖(实习)

抢疯了,腾讯给大模型人才,定了一个前所未有的标准

「21 世纪什么最贵?人才!」二十年前的黎叔语录,现在听来也不过时。这两年,大模型赛道风起云涌。科技公司们全力投入生成式 AI 技术的研发,期待将新的突破整合到自家产品中。OpenAI 是一个非常成功的样本,并受到了研究员、工程师和投资人们的广泛关注与深刻讨论:为什么是 OpenAI?它的成功不只来自于多年的坚持技术探索、投资者不断注入的资金,更重要的是一批顶尖 AI 研究人员的聚集。我们能看到,在 ChatGPT、Sora、GPT-4o 等划时代产品的背后,有一长串名单的核心贡献者,一家科技公司想要持续「伟大」,
6/21/2024 3:37:00 PM
机器之心

2024 WAIC「全球创新项目路演」征集!最高可获千万算力补贴

新一代人工智能正在全球范围内蓬勃兴起,为经济社会发展注入了新动能,我国正以开放的胸襟拥抱 AI,上海更以包容的氛围滋养 AI,持续打造更加融通开放的生态、更加活跃的创新集群、更加泛在的超级场景、更加安全的敏捷治理。 7月4日-6日,2024 世界人工智能大会(WAIC)如期在上海举行,本次将围绕“以共商促共享 以善治促善智”的主题,打造“会议论坛、展览展示、评奖赛事、智能体验”四大核心内容。 在每年的世界人工智能大会上,「全球创新项目路演」亦成为重要看点。
6/21/2024 3:25:00 PM
王悦

Luma、Runway轮番炸场,视频生成卷出新高度,Sora还能称霸吗?来这场WAIC视频生成论坛寻找答案

2023 年 PIKA 发布时,马斯克曾论断称 2024 年将是「人工智能电影」元年。年初 Sora 惊艳亮相、大杀四方,接着 Stable Video Diffusion 、LTX Studio、谷歌 Veo 轮番炸场,再到近期的可灵、Luma 和 Runway 隔空斗法……短短半年时间,众多 AI 视频应用如雨后春笋般涌现,不仅将视频生成技术推向了新的高度,而且拓展了 AI 视频的应用范围,赋予未来更多可能性。如今,发展多模态能力已成为 AIGC 应用的大势所趋,伴随着视频生成技术的不断完善,以及越来越多 AI
6/21/2024 3:23:00 PM
机器之心