应用
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本文作者为VMamba的原班人马,其中第一作者王兆植是中国科学院大学和鹏城实验室的2022级联合培养博士生,共同一作刘悦是中国科学院大学2021级直博生。他们的主要研究方向是视觉模型设计和
6/3/2024 3:58:00 PM
机器之心
澳大利亚拟颁布新法律:制作、传播深度伪造色情内容者将被判刑
据《卫报》报道,将在本周提交至澳大利亚联邦议会审议的一项新法律规定,若民众分享经由“数字篡改”的深度伪造色情内容,将会被处以 6 年监禁,制作这些内容的人则将被处以 7 年监禁。据报道,澳大利亚总检察长马克・德雷福斯预计将在本周三提出立法,将“在未经同意的情况下,分享利用 AI 或其他技术手段制作的露骨内容”这一行为定性为新的刑事犯罪。若这项新法律生效,就意味着无论是在私人或公开平台、无论与个人还是与大众分享这些内容,都将是非法行为。德雷福斯在周六宣布新立法时表示,政府不会容忍这种“阴险的犯罪行为”。“未经同意而分
6/3/2024 3:55:26 PM
清源
上海交大卢策吾:具身智能与他的首个刮胡子机器人 | 智者访谈
查阅历史资料后表明,上海交通大学的卢策吾教授是世界上第一个被机器人用刀片刮胡子的人。视频展示了上海交通大学卢策吾教授亲自体验其团队研发成果的过程——在一个具身智能大模型操控下,机械臂完成了刮胡子的动作。机器人给人刮胡子,看似简单,实则蕴含巨大挑战,除了行为泛化性,更重要的是需要极致鲁棒性。可以看到,当卢教授的头部移动时,这个嵌入了高精度力反馈模块的具身智能大模型能够瞬时决策压力和切向力的变化,既把胡须刮干净,又不会伤到他。如果大模型仅通过视觉判定轨迹输出,将难以完成任务。这也无法通过遥操作实现。在大模型风靡的 20
6/3/2024 3:31:00 PM
机器之心
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
最近的一系列研究表明,纯解码器生成模型可以通过训练利用下一个 token 预测生成有用的表征,从而成功地生成多种模态(如音频、图像或状态 - 动作序列)的新序列,从文本、蛋白质、音频到图像,甚至是状态序列。能够同时生成多种模态输出的多模态模型一般是通过某种形式的词汇扩展(将多模态表征转换为离散 token 并添加到模型的基本词汇表中)来实现的,即在预训练阶段或在后期微调阶段进行跨模态对齐。多模态预训练方法具有很强的性能优势(例如,一个模型可以原生理解多种模态),但也有缺点。例如,无法解决如何在预训练后添加新模态的问
6/3/2024 3:27:00 PM
机器之心
字节豆包推出桌面客户端:支持 Windows / macOS,快捷启动、AI 划词、 AI 搜索
感谢字节豆包推出桌面客户端,支持 Windows 与 macOS。IT之家附下载地址: Windows 点此/macOS 点此▲ 字节豆包 macOS 客户端界面IT之家查询发现,字节豆包桌面客户端基于 Chromium,也就是大家常说的“套壳浏览器”。字节豆包可以设置快捷启动,还可以访问本地应用或文件。字节豆包支持 AI 划词,选择文本后,可以提供如搜索、翻译、解释、总结等 AI 辅助功能。字节豆包支持 AI 搜索,点击“问问豆包或 AI 搜索”,可通过 AI 搜索互联网内容,也可以使用百度、头条搜索等搜索引擎。
6/3/2024 3:17:21 PM
沛霖(实习)
新生与对话,华东师范大学上海人工智能金融学院举办首届学术年会
华东师范大学上海人工智能金融学院举办首届学术年会2024年5月31日至6月1日,华东师范大学上海人工智能金融学院首届学术年会在华东师范大学普陀校区科学会堂举行。 来自4大洲18位人工智能、金融领域以及跨学科领域的顶尖学者和产业领军者齐聚华东师大。 与会嘉宾围绕“人工智能与金融世界的对话”这一主题,重点聚焦“人工智能与金融科技的融合”、“大模型与金融”、“AI伦理与治理的国际视野”等三大核心议题,展开15场主题演讲和3场圆桌论坛,碰撞思想智慧、分享行业前沿动态、探讨创新发展趋势,为与会人员呈现了一场精彩纷呈、富有深度的学术盛宴。
6/3/2024 2:40:00 PM
我在思考中
一年一更同步英伟达,AMD 公布 2024~2026 年 Instinct GPU 加速器路线图
感谢AMD 今日公布直至 2026 年的 Instinct GPU AI 加速器路线图。AMD 宣布其 Instinct 产品线更新节奏调整与英伟达相同的一年一更,以满足不断扩张的 AI 应用需求。AMD Instinct MI325X 加速器将在今年四季度率先上市 ,其可视为 MI300 更换 HBM3E 内存的刷新版本。该加速器内存容量将从 MI300X 的 192GB 提升至 288GB,同时内存带宽也从 5.3TB / s 小幅增加至 6TB / s(IT之家注:内存等效速率从 5.2Gbps 提升至 5.
6/3/2024 2:03:12 PM
溯波(实习)
给ChatGPT越狱,谈场赛博恋爱
你期待的是《赛博朋克》,先到来的却是《她》。既然人间不好玩,就找个赛博对象陪你耍。2023 年堪称「赛博恋爱」元年,模拟恋爱的互动游戏突然热度飙起。从最初在 Steam 平台上获得 94% 好评的《完蛋!我被美女包围了》,到今年的《美女,请别影响我学习》,「赛博恋爱」席卷整个网络。「赛博恋爱」已经不再是某种虚无缥缈的「梗」,而是满足我们正常精神需求的一种补充品。当最会「撩拨」的 AI 进入这个赛道,赛博恋爱会不会又提升一个次元呢?近日,一个生活在加州的华裔女性(昵称:午夜狂暴哈士奇狗)坠入爱河而被全网羡慕了。而她的
6/3/2024 12:07:00 PM
机器之心
Yann LeCun:ViT慢且效率低,实时图像处理还得看卷积
用卷积能做出一样好的效果。在 Transformer 大一统的时代,计算机视觉的 CNN 方向还有研究的必要吗?今年年初,OpenAI 视频大模型 Sora 带火了 Vision Transformer(ViT)架构。此后,关于 ViT 与传统卷积神经网络(CNN)谁更厉害的争论就没有断过。近日,一直在社交媒体上活跃的图灵奖得主、Meta 首席科学家 Yann LeCun 也加入了 ViT 与 CNN 之争的讨论。这件事的起因是 Comma.ai 的 CTO Harald Schäfer 在展示自家最新研究。他(像
6/3/2024 12:00:00 PM
机器之心
超长小说可以用AI翻译了,新型多智能体协作系统媲美人工翻译
机器翻译 (MT) 的最新进展显着提高了各个领域的翻译质量。然而,由于其复杂的语言、比喻表达和文化差异,文学文本的翻译仍然是一个艰巨的挑战。最近,一篇题为《(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts》的论文,提出了一种用于文学翻译的基于大型语言模型(LLM)的新型多智能体框架,并构建了一家名为 TRANSAGENTS 的虚拟出版公司
6/3/2024 11:52:00 AM
机器之心
CVPR 2024 | 合成视频数据集里只有单人数据?M3Act破解人群行为标注难题
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]论文链接:::M3Act: Learning from Synthetic Human Group Activities引言通过视觉信息识别、理解人群的行为是视频监测、交互机器人、自动驾驶
6/3/2024 11:47:00 AM
机器之心
AI 电影来袭:翠贝卡电影节将展映 5 部使用 OpenAI Sora 制作的短篇
由著名演员罗伯特・德尼罗 (Robert de Niro) 创立的纽约翠贝卡电影节 (Tribeca Festival) 即将迎来历史性时刻,生成式人工智能将首次登上这个已有 20 年历史的电影盛会。6 月 15 日,翠贝卡电影节将携手 OpenAI 公司首映“Sora 短片”,届时将展映五部使用人工智能创作的短片作品,这标志着 OpenAI 的文本转视频工具 Sora 首次在电影节上亮相。根据电影节发布的声明,创作者们承诺遵守去年与导演、演员和编剧工会达成的有关人工智能使用的相关条款。主办方为这些电影人提供了 O
6/3/2024 11:42:26 AM
远洋
英伟达黄仁勋解读“CEO 数学”:花小钱,办大事
英伟达首席执行官黄仁勋日前在 2024 台北电脑展前夕提出了一个有趣的概念 ——“CEO 数学”。“买得越多,省得越多,” 黄仁勋在演讲中表示,“这就是 CEO 数学,它并不完全准确,但却很有效。”乍一听让人困惑?黄仁勋随后解释了这个概念的含义。他建议企业同时投资图形处理器 (GPU) 和中央处理器 (CPU)。这两种处理器可以协同工作,将任务完成时间从“100 个单位缩短到 1 个单位”。因此,从长远来看,增加投资反而能节省成本。这种结合使用 CPU 和 GPU 的做法在个人电脑领域已经很普遍。“我们往一台 10
6/3/2024 11:26:54 AM
远洋
人形机器人“造车”,东风柳汽与优必选签署战略合作协议
5 月 31 日,东风柳汽与优必选科技正式签署人形机器人应用战略合作协议,共同推动人形机器人在汽车制造场景的应用。通过此次合作,优必选工业版人形机器人 Walker S 将进入东风柳汽,开展汽车制造过程中的安全带检测、车门锁检测、车灯盖板检测、车身质检工位、车厢后盖检测、内饰总检、油液加注、前桥分装、集配捡料、贴覆车标、配置刷写、标签打印等一系列工作。此外,人形机器人还将和传统自动化设备协作作业,解决复杂场景的柔性无人化生产。东风柳汽总经理林长波表示:今天,我们终于非常荣幸地把优必选人形机器人 Walker S 请
6/3/2024 11:16:18 AM
浩渺
世界最大开源 AI 社区 Hugging Face 曝安全漏洞:部分用户密钥泄露
感谢世界最大的开源 AI 社区 Hugging Face(IT之家注:通称“抱抱脸”)在 5 月 31 日报告了一起安全漏洞事件,其团队检测到对其 Spaces 平台的未经授权访问,可能导致部分用户密钥泄露。Hugging Face 是世界最大的人工智能和数据科学项目合作平台之一,拥有超过一百万个模型、数据集和人工智能驱动的应用程序。Hugging Face 发言人在声明中说:“在过去几个月里,我们看到网络攻击的数量明显增加,这可能是因为我们的使用量大幅增长,人工智能正成为主流。技术上很难知道有多少 Spaces
6/3/2024 9:36:37 AM
沛霖(实习)
黄仁勋一口气解密三代 GPU,量产英伟达 Blackwell 解决 ChatGPT 全球耗电难题
感谢IT之家网友 佳宜 的线索投递!【新智元导读】刚刚,老黄又高调向全世界秀了一把:已经量产的 Blackwell,8 年内将把 1.8 万亿参数 GPT-4 的训练能耗狂砍到 1/350;英伟达惊人的产品迭代,直接原地冲破摩尔定律;Blackwell 的后三代路线图,也一口气被放出。就在刚刚,老黄手持 Blackwell 向全世界展示的那一刻,全场的观众沸腾了。它,是迄今为止世界最大的芯片!▲ 眼前的这块产品,凝聚着数量惊人的技术如果用老黄的话说,它就是「全世界迄今为止制造出来的最复杂、性能最高的计算机。」▲ 8
6/3/2024 9:26:06 AM
汪淼
ECCV 2024 Workshop自动驾驶难例场景多模态理解与视频生成征稿与挑战赛火热启动!
Workshop主页:。近年来,多模态大模型(如GPT-4V)展示了其在多模态感知与理解方面前所未有的进步。然而,利用MLLMs来应对自动驾驶中复杂场景,特别是罕见但关键的难例场景,仍然是一个未解的挑战难题。本次Workshop旨在促进多模态大模型感知与理解、先进的AIGC技术在自动驾驶系统中的应用、端到端自动驾驶等方面的创新研究。Workshop征稿本次论文征稿关注自动驾驶场景多模态感知与理解、自动驾驶场景图像与视频生成、端到端自动驾驶、下一代工业级自动驾驶解决方案等主题,包括但不限于:Corner case m
6/3/2024 9:19:00 AM
新闻助手
英伟达宣布将 Copilot + 引入 RTX 系列设备,赋能游戏本 AI 助理
感谢COMPUTEX 2024 展会伊始,图形芯片巨头英伟达就发布了未来规划,宣告了其拥抱人工智能的决心。英伟达宣布其 RTX 系列显卡将大力支持微软的全新 Copilot 计划,该计划旨在为 Windows 11 系统带来一系列强大的本地化功能。IT之家注意到,首批适配的设备包括来自华硕的五款笔记本电脑以及来自微星的一款机型,由于 Copilot 目前尚未正式发布,这些笔记本电脑将预装常规版本的 Windows 11,但英伟达承诺,一旦 Copilot 上线,这些设备都将可以免费获得所有更新。此前,Copi
6/3/2024 7:28:24 AM
远洋
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
智能体
技术
Gemini
马斯克
英伟达
Anthropic
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
腾讯
Agent
Claude
芯片
Stable Diffusion
具身智能
蛋白质
xAI
开发者
生成式
人形机器人
神经网络
机器学习
3D
AI视频
RAG
大语言模型
Sora
研究
百度
生成
GPU
字节跳动
工具
华为
AGI
计算
大型语言模型
AI设计
搜索
生成式AI
视频生成
亚马逊
DeepMind
AI模型
特斯拉
场景
深度学习
Transformer
架构
MCP
Copilot
编程
视觉