AI在线 AI在线

应用

CS领域杨笛一、杜少雷、金驰等7位华人学者获奖,2024斯隆奖出炉

在 2024 年度斯隆奖名单中,计算机科学领域共有 22 位获奖者,其中 7 位华人。今天凌晨,斯隆基金会公布了 2024 年度斯隆研究奖获得者名单。自 1955 年起,斯隆研究奖由美国艾尔弗・斯隆基金会(The Alfred P. Sloan Foundation)每年颁发一次,以表彰那些具有创造性、创新性和研究成就的美国和加拿大的杰出年轻研究人员。斯隆研究奖的获奖者将获得为期两年、价值 7.5 万美元的研究资金,可灵活地用于推动自身的研究。斯隆奖历来被认为是「诺奖风向标」:2007 年以来,该奖项历届获得者中已
2/21/2024 2:47:00 PM
机器之心

20分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类

现在,机器人学会工厂精密操控任务了。近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习技术广泛应用到实际生产环境仍面临众多挑战,这在一定程度上限制了其在真实场景的应用范围。强化学习技术在实际应用的过程中,任需克服包括奖励机制设定、环境重置、样本效率提升及动作安全性保障等多重复杂的问题。业内专家强调,解决强化学习技术实际落地的诸多难题,与算法本身的持续创新同等重要。面对这一挑战,来自加州大学伯克利、斯坦福大学、华盛顿大学以及谷歌的学者们共同开发
2/21/2024 2:40:00 PM
机器之心

6000字干货!全面了解顶尖AI产品 ChatGPT-4

GPT-4 的看点都有哪些呢?逻辑推理,强到可以代替你考律师啦 角色扮演,cosplay 认定角色不轻易被忽悠 多模态,可以看到图片啦 更安全,想要再轻易忽悠它越狱很难了GPT-4 的论文: 搭载了 GPT-4 的 ChatGPT Plus: 申请 GPT-4 的 API: 接下来的内容会详细介绍 GPT-4 的一切。GPT-4 具有更广泛的通识知识和问题解决能力,可以更有效的解决难题 1. 它更有创造力 GPT-4 比以往任何时候都更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,例如
2/21/2024 8:34:37 AM
逗砂

如何用AIGC 做好UI设计?实战案例来了!

热爱,是做好一件关键的事情。 “AI 到底会不会取代我们”?这个问题我们留在结尾与大家探讨,现在我就开始学习如何用 AIGC 去做界面、以及怎样指导我们进行优化。 利用“AI”做界面主要会用到四个工具:Chat GPT、Figma(Wireframe Designer 插件)、即时设计(即时 AI)、文心一言(作为无法使用 Chat GPT 同学的备用方案)一、UI 设计的基本原则与 AIGC 的融合 UI 设计更多是创建直观、易用、吸引人的用户界面,而 AIGC 则是指通过人工智能技术生成的文本、图像、音频或视频
2/21/2024 12:22:36 AM
文轩没有大脑袋

几小时前,OpenAI 爆款工具 Sora 被取消了静音模式

机器之能报道编辑:Sia简单文字提示,即可为这些“默片”增添声音效果。当你被 OpenAI Sora 生成的这些视频震撼时,有没有潜意识里总觉得还缺点啥?视频链接:“短视频”是不是差不多?这是 1895 年路易斯·卢米埃尔导演的《火车进站》,固定机位,一镜到底拍摄火车开进站台的场景。视频链接:《工厂大门》的效果是这样的:视频链接:,即使是默片也并非一点声音也没有。放映时,影院里会有乐团(大到一个乐团、小到一位钢琴师)根据剧情演奏音乐,用音乐渲染情绪,推动情节发展。现在,AI 语音克隆初创公司 ElevenLabs
2/20/2024 4:05:00 PM
机器之能

更乱了!已经有真人视频冒充Sora了,威尔·史密斯吃意大利面玩梗

曾经,人们担心 AI 生成的东西过于逼真,会让人信以为真。但现在,真实世界的视频反而被贴上「AI 生成」的标签,带来了另一种混乱。今天,一个有关「威尔・史密斯吃意大利面」的视频正在社交媒体疯传。视频画面分为上下两段:上半段显示是「一年以前的 AI 视频」,下半段则显示「现在的 AI 视频」。众所周知,对于 AI 来说,生成「威尔・史密斯吃意大利面」的视频并不容易,人物的手、面条以及面条入口后的形变对于之前的 AI 来说都是很大的挑战,所以这一问题被很多人戏称为「视频生成界的图灵测试」。Runway、Pika 等著名
2/20/2024 3:13:00 PM
机器之心

10倍英伟达GPU:大模型专用芯片一夜成名,来自谷歌TPU创业团队

能带来完全不同的大模型体验。我们知道,大模型到 GPT-3.5 这种千亿体量以后,训练和推理的算力就不是普通创业公司所能承担的了,人们用起来速度也会很慢。但自本周起,这种观念已成为历史。有名为 Groq 的初创公司开发出一种机器学习处理器,据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍,而成本仅为 GPU 的 10%,只需要十分之一的电力。这是在 Groq 上运行 Llama 2 的速度:                             来源: Groq(Llama 2)和
2/20/2024 2:54:00 PM
机器之心

在Sora引爆视频生成时,Meta开始用Agent自动剪视频了,华人作者主导

未来,视频剪辑可能也会像视频生成领域一样迎来 AI 自动化操作的大爆发。这几天,AI 视频领域异常地热闹,其中 OpenAI 推出的视频生成大模型 Sora 更是火出了圈。而在视频剪辑领域,AI 尤其是大模型赋能的 Agent 也开始大显身手。随着自然语言被用来处理与视频剪辑相关的任务,用户可以直接传达自己的意图,从而不需要手动操作。但目前来看,大多数视频剪辑工具仍然严重依赖手动操作,并且往往缺乏定制化的上下文帮助。因此,用户只能自己处理复杂的视频剪辑问题。关键在于如何设计一个可以充当协作者、并在剪辑过程中不断协助
2/20/2024 2:47:00 PM
机器之心

大型多视角高斯模型LGM:5秒产出高质量3D物体,可试玩

为满足元宇宙中对 3D 创意工具不断增长的需求,三维内容生成(3D AIGC)最近受到相当多的关注。并且,3D 内容创作在质量和速度方面都取得了显著进展。尽管当前的前馈式生成模型可以在几秒钟内生成 3D 对象,但它们的分辨率受到训练期间所需密集计算的限制,进而导致生成低质量的内容。这就产生了一个问题,能否只用 5 秒钟来生成高分辨率高质量的 3D 物体?本文中,来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了一个新的框架 LGM,即 Large Gaussian Model,实现了从单视角
2/20/2024 2:31:00 PM
机器之心

降维式打击!像素级拆解文生视频大模型Sora

Openai 发布了它的文生视频大模型 Sora。 终于 Openai 也加入了 AI 视频的战争,在此之前 Runway 和一众 AI 视频公司已经奋战了一年多,SD 最近也发布了他们产品化的 AI 视频工具,midjourney 也是即将要发布文生视频功能。 但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的,全球的 AI 视频公司都要睡不着了。 官网: Sora 并没有公开对大家开放测试入口,只发布了一个官方给大家展示效果。 其中的关键信息是:最长生成 60s 视频,视频镜头一致
2/20/2024 1:30:06 AM
逗砂

Prompt 灵感!8 组高质量元宵节 Midjourney 提示词!

大家好我是花生~ 再过几天就是正月十五元宵节了,整理了 7 组元宵节主题的 Midjourney 提示词, 希望对大家做设计有帮助~ 相关推荐:一、3D 人物素材 A cute chinese girl, Wearing traditional Chinese clothes. She is holding a bowl of white smooth tangyuan happily. 3D Pixar style, Blender, Pure Chinese red background --ar 2:3 --
2/20/2024 1:20:09 AM
夏花生

专访GAIR研究院院长朱晓蕊:以Web3技术为引擎,推动「去中心化科学期刊」的新时代

作为一名创投背景的学术带头人,朱晓蕊刚刚迎来她的47岁人生。 从学术成就看,1977年出生的朱晓蕊,先后在1998年和2000年取得哈尔滨工业大学学士和硕士学位,2006年,她在美国犹他大学获得博士学位,具有机电一体化和机械工程多重背景;学成归来后,朱晓蕊进入哈尔滨工业大学(深圳)任教,2011年被破格评为博士生导师,2014年被评为正教授。 在她担任哈工大教授的14年中,作为项目负责人主持了不少国家级项目,总经费超过千万,并多次参与组织了机器人领域的全球顶级学术会议,曾被IEEE评价为“机器人领域的杰出女性”。
2/19/2024 7:01:00 PM
吴彤

揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿

至此已成艺术的 Sora,是从哪条技术路线发展出来的?最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。在这个问题上,人们早有预判,但也始料未及:AI 生成视频,是继文本生成、图像生成以后技术持续发展的方向,此前也有不少科技公司抢跑推出自己的视频生成技术。不过当 OpenAI 出手发布 Sora 之后,我们却立即有了「发现新世界」的感觉 —— 效果和之前的技术相比高出了几个档次。               
2/19/2024 3:21:00 PM
机器之心

Sora到底懂不懂物理世界?一场头脑风暴正在AI圈大佬间展开

Sora 到底是不是物理引擎甚至世界模型?图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。最近几天,OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。和以往只能生成几秒钟视频的模型不同,Sora 把生成视频的长度一下子拉长到 60 秒。而且,它不仅能了解用户在 Prompt 中提出的要求,还能 get 到人、物在物理世界中的存在方式。以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真,Sora 需要克服以下几个物理难点:  规模和比
2/19/2024 3:15:00 PM
机器之心

100万token,一次能分析1小时YouTube视频,「大世界模型」火了

这项研究为语言模型更好地理解物理世界铺平了道路。最近几天,我们接连被谷歌的多模态模型 Gemini 1.5 以及 OpenAI 的视频生成模型 Sora 所震撼到,前者可以处理的上下文窗口达百万级别,而后者生成的视频能够理解运动中的物理世界,被很多人称为「世界模型」。然而,这些刷屏无数的模型真的能很好的理解世界吗?我们就拿 Sora 来说,该模型在给大家带来惊叹的同时,却不能很好的模拟复杂场景的物理原理,如一位健身的男子倒着跑跑步机。不仅 Sora,现如今大模型虽然发展迅速,然而其自身也存在缺点,比如在现实世界中不
2/19/2024 3:07:00 PM
机器之心

Windows、Office直接上手,大模型智能体操作电脑太6了

当我们谈到 AI 助手的未来,很难不想起《钢铁侠》系列中那个令人炫目的 AI 助手贾维斯。贾维斯不仅是托尼・斯塔克的得力助手,更是他与先进科技的沟通者。如今,大模型的出现颠覆了人类使用工具的方式,我们或许离这样的科幻场景又近了一步。想象一下,如果一个多模态 Agent,能够直接像人类一样通过键盘和鼠标直接操控我们身边的电脑,这将是多么令人振奋的突破。                                AI助手贾维斯近期,吉林大学人工智能学院发布了一项利用视觉大语言模型直接控制电脑 GUI 的最新研究《S
2/19/2024 2:52:00 PM
机器之心

让视觉语言模型搞空间推理,谷歌又整新活了

视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。视觉语言模型 (VLM) 已经在广泛的任务上取得了显著进展,包括图像描述、视觉问答 (VQA)、具身规划、动作识别等等。然而大多数视觉语言模型在空间推理方面仍然存在一些困难,比如需要理解目标在三维空间中的位置或空间关系的任务。关于这一问题,研究者们常常从「人类」身上获得启发:通过具身体验和进化发展,人类拥有固有的空间推理技能,可以毫不费力地确定空间关系,比如目标相对位置或估算距离和大小,而
2/19/2024 2:22:00 PM
机器之心

Sam Altman7万亿美元芯片计划被怼,“硅仙人”:我只用不到1万亿

机器之能报道编辑:Sia不是每个业内人士都买这笔疯狂数字的账。Sam Altman 最近登上了头条新闻,背后的原因有些夸张。这位从未设计过一个芯片的聪明人认为半导体行业需要他,正在推动一个旨在提高全球芯片制造能力的项目。为此,他需要筹集 5 万亿至 7 万亿美元,并正与包括阿联酋政府在内的不同投资者进行谈判。OpenAI 发言人表示,“ OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论,这对于人工智能和相关行业至关重要。鉴于国家优先事项的重要性,我们将继续向美国政府通报情况,并期待
2/19/2024 12:59:00 PM
机器之能