应用
世界最大开源 AI 社区 Hugging Face 涉足开源机器人领域,前特斯拉科学家领衔
据外媒 VentureBeat 报道,AI 创企 Hugging Face 设立开源机器人项目,前特斯拉科学家 Remi Cadene 领衔。Remi Cadene 的 X 平台动态显示,这位前特斯拉人形机器人 Optimus 团队成员加入 Hugging Face 并启动了一个开源机器人项目,招募愿在巴黎建造“真正的机器人”的工程师。参考IT之家以往报道,Hugging Face 目前主营业务均为软件形态,包括开源 AI 模型库和 AI 助手 Hugging Chat Assistants。此次组建开源机器人团队
基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
这个模型和 Sora 一样采用了 DiT 框架。众所周知,开发顶级的文生图(T2I)模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。同时随着时间的推移,AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。于是关键的问题来了:我们能以怎样的方式将这些新元素高效地整合进现有模型,依托有限的资源让模型变得更强大?为了探索这个问题,华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法:由弱到强式训练(weak-to-stro
LeCun最新专访:为什么物理世界终将成为LLM的「死穴」?
在人工智能领域,很少有像 Yann LeCun 这样的学者,在 65 岁的年龄还能高度活跃于社交媒体。一直以来,Yann LeCun 都是以「直言不讳的批评者」形象活跃于人工智能领域。他始终支持开源,并带领 Meta 的团队推出了占据如今开源大模型领域半壁江山的 Llama 2;他对很多人深感恐慌的人工智能末日论不以为然,坚信 AGI 的到来一定是件好事……近日,LeCun 又一次来到 Lex Fridman 的播客,展开了一场接近三个小时的对谈,内容涉及开源的重要性、LLM 的局限性、为什么人工智能末日论者是错误
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理解,特别是对于长达数小时电影内容的理解,成为了当前的一个巨大挑战。究其原因,导致模型理解长视频困难的一个主要原因是缺乏高质量、多样化的长视频数据资源,而且收集和注释这些数据需要庞大的工作量。面对这样的难题, 腾讯和复旦大学的研究团队提出了 MovieLLM,一个创新性的 AI 生成框架。MovieLLM 采用了创新性的方法,不仅可以生成高质量、多样化的视频数
奥特曼重返OpenAI董事会:看完3万份文件,调查组认定了
过山车一样的剧情。特别独立调查委员会发现,在去年 OpenAI 管理层动荡时,首席执行官萨姆・奥特曼(Sam Altman)的行为「不构成强制解雇」,现在他重新加入董事会了。历时超过 110 天,OpenAI 的宫斗剧现在迎来了盖棺定论的时刻。没有通用人工智能危机,也和神秘的技术突破 Q* 无关,国际律师事务所 WilmerHale 在大量调查之后认定,这次动荡的原因在于董事会成员之间关系破裂。现在,奥特曼和 Greg Brockman 是「OpenAI 的正确领导者」。在发布消息与记者通话时,奥特曼坐在 Greg
教授何恺明在MIT的第一堂课
700 座的大教室,相比去年增加一倍容量,仍然座无虚席:这就是麻省理工学院(MIT)计算机视觉课《Advances in Computer Vision》6.8300 在 2024 新学期的盛况。今年是四位教授,每人负责一部分课程:课程信息:,能选上这课的学生太幸运了,每节都是计算机视觉顶会 CVPR Oral 的体验。对于很多人来说,其中最为期待的自然是新晋教授何恺明的课。MIT 电气工程与计算机科学系副教授何恺明(Kaiming He)在 3 月 7 日走上讲台上完成了自己「人生中教的第一堂课」。据参与现场的同
谷歌具身智能新研究:比RT-2优秀的RT-H来了
RT-H 在一系列机器人任务中的表现都优于 RT-2。随着 GPT-4 等大型语言模型与机器人研究的结合愈发紧密,人工智能正在越来越多地走向现实世界,因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中,谷歌的「RT」系列机器人始终走在前沿(参见《大模型正在重构机器人,谷歌 Deepmind 这样定义具身智能的未来》)。谷歌 DeepMind 去年 7 月推出的 RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型。只需要像对话一样下达命令,它就能在一堆图片中辨认出霉霉,并送给她一罐可乐
扩散模型如何构建新一代决策智能体?超越自回归,同时生成长序列规划轨迹
设想一下,当你站在房间内,准备向门口走去,你是通过自回归的方式逐步规划路径吗?实际上,你的路径是一次性整体生成的。近期的研究表明,采用扩散模型的规划模块能够同时生成长序列的轨迹规划,这更加符合人类的决策模式。此外,扩散模型在策略表征和数据合成方面也能为现有的决策智能算法提供更优的选择。来自上海交通大学的团队撰写的综述论文《Diffusion Models for Reinforcement Learning: A Survey》梳理了扩散模型在强化学习相关领域的应用。综述指出现有强化学习算法面临长序列规划误差累积、
大模型在复杂推理任务上潜力如何?多智能体互动框架ThinkThrice玩转剧本杀
剧本杀是一种广受欢迎的多角色扮演侦探游戏,要求玩家扮演不同的角色。通过阅读角色文本、理解各自的故事、搜集线索、以及逻辑推理,玩家们共同努力揭开谜团。游戏角色通常被分为平民和凶手两大类:平民的目标是找出隐藏在他们中间的凶手,而凶手则尽力隐藏自己的身份,避免被发现。那么,如果让 AI 加入游戏,会产生怎样的新变化呢? 剧本杀游戏流程。加拿大蒙特利尔大学和 Mila 研究所的研究团队带来了一项令人兴奋的新研究,将 AI 的潜力引入到剧本杀游戏中。这项
OPPO 刘作虎内部讲话:AI 手机不是噱头,3 个月内友商必定都会跟进
3 月 11 日上午消息,新浪科技获悉,OPPO 高级副总裁、首席产品官,一加创始人刘作虎近日在一加内部会中回应了行业热议的 AI 手机话题。他表示,AI 手机不是噱头,而是行业大势所趋,3 个月内友商必定都会跟进。新浪科技独家获悉的内部会视频显示,在讲话开始,刘作虎首先总结了一加的业绩情况。刘作虎透露,一加在 2023 和 2024 开年都取得了领先行业的增速,其中 2024 年开年实现了同比去年 40% 的增长。2022 年,在一加 9 周年时,OPPO 正式宣布开启双品牌时代,OPPO 线上就是一加。同时,O
基于生成式 AI 技术,汤姆猫正在研发一款语音交互陪伴机器人
感谢汤姆猫公司日前公布了新一期的“投资者关系活动记录表”,披露了公司在 AI 领域的布局。据介绍,汤姆猫公司国内研发团队与西湖心辰合作的汤姆猫 AI 讲故事等产品,已初步完成主要功能的测试,公司海外团队研发的首款 AI 手游《Talking BenAI》已在斯洛文尼亚、塞浦路斯、南非等地区开启首轮海外测试。此外,公司 AI 硬件团队正研发一款基于生成式人工智能技术的 AI 语音交互陪伴机器人,预计将为公司业务带来全新增长空间。汤姆猫透露,此前一款全新适配 MR / VR 硬件的产品原型已经在苹果 Vision
Pr
百度实战案例!百科AI对话式体验设计完整复盘
导语
近年来 AI 发展如火如荼,大模型诞生与技术的积累和不断创新,带来了人机交互方式的革新。各大厂也纷纷结合自身业务场景进行模型和应用的开发,AI 正以惊人的速度改变着我们的生活和工作方式。面对生成式 AI 的行业浪潮,百度百科产研团队也在探索如何结合大模型能力,发挥百科在泛知识领域的优势,延展百科场景 AI 特色体验,强化内容浏览的体验感及效率性,契合用户对百科的期望,带给用户更极致的知识消费体验。一、认知建立——0到1建设消费新场景
我们初步要做的是利用生成式 AI 的能力来解决词条冗长内容阅读的问题。在此基
OpenAI 视频生成服务 Sora 引发隐私担忧,意大利数据监管机构展开调查
感谢意大利数据保护机构 (Garante) 周五宣布,已对微软支持的 OpenAI 公司开发的一项服务展开调查,这个名为 Sora 的服务可以根据文本提示生成视频。监管机构要求 OpenAI 澄清其向用户和非用户告知其产品 Sora 使用的数据的方式是否符合欧盟法规。OpenAI 公司暂未对此事发表评论。意大利数据监管机构是欧盟国家中最为积极的监管机构之一,一直致力于评估人工智能平台是否符合欧盟的数据隐私法规。IT之家注意到,去年该机构就以涉嫌违规使用用户数据为由,禁止了聊天机器人 ChatGPT 在意大利的使用。
调查:AMD AI 芯片 Instinct MI300X 吸引大量用户弃用英伟达
根据最近的一项调查,大量人工智能专业人士正计划从英伟达转向采用 AMD Instinct MI300X GPU。TensorWave 联合创始人 Jeff Tatarchuk 透露,他们进行了一项独立调查,涵盖 82 名工程师和人工智能专业人士。其中,约有 50% 的受访者表示他们对 AMD Instinct MI300X GPU 充满信心,因为相比于英伟达的 H100 系列产品,MI300X 不仅拥有更出色的性价比,而且供应充足,避免了遇到货源紧张的问题。Jeff 还提到,TensorWave 公司也将采用 MI
百度李彦宏:“程序员”职业将不复存在,未来编程语言只会剩下英文和中文
感谢在 3 月 9 日央视的《对话》・开年说节目上百度创始人、董事长兼首席执行官李彦宏表示,以后不会存在“程序员”这种职业了,因为只要会说话,所有人都能具备程序员的能力。“未来的编程语言只会剩下两种,一种叫做英文,一种叫做中文。”李彦宏说道。谈到“百模大战”,李彦宏看来,这是对社会资源很大的浪费。大家不要去“卷”大模型,去“卷”应用,只有应用才真正直接创造价值。同时,他强调,做出上亿用户使用的应用时,大模型的真正价值才得到体现。对于未来两年大模型会对人类生活或生产带来怎么改变,李彦宏认为,“互联网改变我们的很多生活
ChatGPT 每天耗电超 50 万度,是美国普通家庭 1.7 万多倍
感谢据 The New Yorker 报道,热门聊天机器人 ChatGPT 每天需要处理超过 2 亿次请求,其电量消耗可能高达每天 50 万千瓦时。相比之下,美国普通家庭每天的平均用电量仅为 29 千瓦时,这意味着 ChatGPT 的日耗电量是普通家庭的 1.7 万倍以上。更令人担忧的是,随着生成式人工智能的普及,其电量消耗可能会进一步激增。荷兰中央银行数据科学家 Alex de Vries 在一份发表于可持续能源期刊《焦耳》上的论文中计算得出,如果谷歌将生成式人工智能技术应用于所有搜索,其每年将消耗约 290 亿
Gemini 修 bug 神了!录网页视频把代码库甩给它就行,网友想要访问权限
谷歌 Gemini 修改 bug 让网友大开眼界!X 一小伙分享,为测试 Gemini 1.5 Pro,自己在编写一个网页的代码时故意留了 3 个 bug,并分别录制了网页 bug 视频。接着把代码库打包成文件连同视频一起输给了 Gemini 1.5 Pro,提示它找到并修复代码中的所有 bug,且要提供一个简要指南以及所做更改的说明。没想到,Gemini 1.5 Pro 还真就分分钟正确识别并修复了每一个 bug。小伙将这种玩法 po 出来后热度不断攀升,网友们纷纷一键三连,转赞收藏量过万。其本人还在评论区强调,
文生视频平台 Pika 喜提功能升级:视频有声音了,可生成各种背景音效
文生视频平台 Pika 今日凌晨通过 X 平台官宣新功能:视频可以集成 AI 生成的音效了。用户现可在 Pika 生成的视频中无缝生成、整合声音,可以通过提示词来描述想要的声音,或者直接让 Pika 根据视频内容自动生成声音。“如果您觉得它很酷,那是因为它的确很酷。抱歉,我们之前静音了!”与此同时,官方放出了一段预告片和几个 DEMO,预告片中的车辆鸣笛声、刀剑呼啸声均与视频内容匹配,而在 DEMO 演示中,烤肉的滋滋声和海底的水声也可以说与画面主题非常吻合。 据介绍,该功能目前仅面向“超级合作者”和专业用
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉