AI在线 AI在线

资讯列表

「还是谷歌好」,离职创业一年,我才发现训练大模型有这么多坑

Karpathy:中肯的,一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片,并搭建出追赶 Gemini pro/GPT 3.5 的 LLM?很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇,但真正走完「从零开始」这一流程的人很少。我们普遍认为,储备技术人才是前提,掌握核心算法是关键,但实际上,工程实践中冒出来的挑战,也实在令人头疼。一年前,乘着大模型的热潮,Yi Tay 离开了工作 3 年多的谷歌,参与创办了一家名为 Reka 的公司并担任首席科学家,主攻大型语言模型。在谷歌时,Yi T
3/7/2024 3:14:00 PM
机器之心

Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节

作者:赖文昕编辑:陈彩娴自3天前Sora发布以来,由图灵奖得主、Meta首席科学家Yann LeCun提出的“世界模型”又一次引起了广泛关注。 “世界模型”作为Sora的一大核心亮点,被OpenAI写在技术报告中。 但Sora是否真的如Open AI所说,是一个世界模型,却引起了行业内的争论。
3/7/2024 3:13:00 PM
赖文昕

谷歌被曝翻车内幕:内部群龙无首,生图机制过分“多元化”

感谢IT之家网友 rolan6 的线索投递!谷歌 Gemini 文生图风波还未平,更劲爆的内幕消息又被曝出来了。Pirate Wires 爆料,Gemini 这次的翻车,谷歌内部此前并不是毫不知情,翻车甚至是“故意”导致的。具体来说,谷歌设置了一个“安全”架构,Gemini 要生成一张图实际上要经过三个模型。大概来说,流程是这样的:用户在聊天界面请求 Gemini 生成一张图片,Gemini 收到请求后,会把请求发送给一个较小的模型。这个较小的模型的作用是根据公司的“多元化”政策重写用户的提示。为做到这一点,这个较
3/7/2024 3:07:36 PM
清源

想搞AI,高中别学数据科学:奥特曼、马斯克此刻终于一致了

高中阶段学习数据科学能不能代替数学,这个话题的讨论已经延伸到了 AI 圈。为了 AI 的发展,再不加强基础教育就晚了。在大模型技术高速发展,各家公司激烈竞争的同时,有人站出来对于未来的人才表示了担忧,焦点在于数学。近日,加州大学(UC)系统对于入学新生设立数学基础标准的消息掀起了轩然大波。随着全国范围内数学成绩的下降,一些教育工作者认为,标准的代数密集型数学教育需要改革,既可以吸引更多的学生,也可以帮助他们在日益依赖数据的未来培养相关技能。有组织称,目前至少有 17 个州已把「数据科学」作为高中数学教育的可选项,俄
3/7/2024 3:07:00 PM
机器之心

Sora 时代的 AI 视频生成何去何从?

Sora 作为 OpenAI 最新发布的视频生成模型,在全球范围内引起了热烈讨论。距离上一个引发全民讨论的视频生成模型 Pika 1.0 的发布,不到三个月的时间。Sora 生成的视频有着合理的连贯性、视频主体细节足以达到以假乱真的程度。仿佛一夜之间解决了 AI 生成视频的长度、流畅性、逻辑性等问题。Sora 带来的视觉震撼,让「扔进一部小说、出来一部大片」逐步成为现实。技术的突破令人振奋,一度引发了大佬们关于世界模型的讨论,可见 Sora 早已超出了大众对技术上限的想象。与此同时,Sora 带来的恐慌和焦虑也正在
3/7/2024 3:01:00 PM
机器之心

Midjourney封禁Stability AI:恶意爬取数据,致服务器瘫痪24小时

Stability AI CEO Emad 表示他并不知情。Midjourney 把 Stability AI 拉入黑名单了,禁止后者所有员工使用其软件,直至另行通知。这两家 AI 图像生成公司之间发生什么事了。虽然 AI 生图领域,看似百花齐放,但论资排辈,Midjourney、Stability AI 还是很受用户欢迎的。就算是竞争对手,Midjourney 也不至于禁止 Stability AI 员工使用其软件吧。事情是这样的,根据爆料者的信息显示:「Midjourney 服务器上周六凌晨受到与 Stabil
3/7/2024 2:57:00 PM
机器之心

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。沿袭 ViT 的研究思路,我们能否借助创新性的 LLaMA 架构,真正实现语言和图像的架构统一?在这一命题上,最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图像生成(包含 Sora 依赖的底层的 DIT)和理解(分类、分割、检测、自监督)等多个主流任务上相较于原 ViT 类方法提升显著。论文标题:VisionLLaMA: A Unified LLaMA Interfac
3/7/2024 2:53:00 PM
机器之心

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化,已集成进商用APP

模型量化是模型压缩与加速中的一项关键技术,其将模型权重与激活值量化至低 bit,以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言,模型量化显得更加重要。例如,GPT-3 模型的 175B 参数当使用 FP16 格式加载时,需消耗 350GB 的内存,需要至少 5 张 80GB 的 A100 GPU。但若是可以将 GPT-3 模型的权重压缩至 3bit,则可以实现单张 A100-80GB 完成所有模型权重的加载。现有的大语言模型后训练量化算法依赖于手工制定量化参数,优于缺乏相应的优化过程,
3/7/2024 2:46:00 PM
机器之心

极空间 NAS 上线“AI 实验室”功能:自然语言搜图、以图搜图、文字识别

极空间 NAS 官方宣布,全新 AI 功能 ——【AI 实验室】已正式上线,功能包括:自然语言搜索、相似图片搜索和图片文字识别。据介绍,【AI 实验室】可以帮助用户快速找出极相册中需要的图片,IT之家附内容如下:自然语言搜索智能搜图,开启后,可以使用自然语言搜索图片。点击智能 AI,开启智能搜图,在搜索框中输入文字“狗”,通过 AI 计算后,稍等片刻,就会把极相册中带“狗”的照片展示出来。相似图片搜索以图搜图,开启后,可以通过一张照片找到相似内容或是风格的其他图片。点击智能 AI,开启以图搜图,在极相册中找到一张你
3/7/2024 1:43:07 PM
汪淼

阿里巴巴推出 AtomoVideo 高保真图生视频框架,兼容多种文生图模型

感谢阿里巴巴研究团队近日推出了 AtomoVideo 高保真图生视频(I2V,Image to Video)框架,旨在从静态图像生成高质量的视频内容,并与各种文生图(T2I)模型兼容。 ▲ 图源 AtomoVIdeo 团队论文IT之家总结 AtomoVideo 特性如下:高保真度:生成的视频与输入图像在细节与风格上保持高度一致性运动一致性:视频动作流畅,确保时间上的一致性,不会出现突兀的跳转视频帧预测:通过迭代预测后续帧的方式,支持长视频序列的生成兼容性:与现有的多种文生图(T2I)模型兼容高语义可控性:能够根据用
3/7/2024 11:10:04 AM
泓澄(实习)

毫末Cam4DOcc入选CVPR2024:仅用摄像头做4D占据网络预测,让自动驾驶拥有时空预测能力

2024年2月27日,由毫末智行人工智能技术团队提交的论文《Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications》成功入选国际顶会 CVPR 2024。毫末提出的Cam4DOcc 是一个仅使用摄像头进行 4D 占据网格预测的新基准,用来评估近期内周围场景的变化,可以将仅使用摄像头的占据网格估计扩展到时空预测,从而提升自动驾驶对周围环境在动态时间上的变化感知预测能力。首先,毫末基于
3/7/2024 10:51:00 AM
新闻助手

消息称新加坡主权财富基金淡马锡有意投资 OpenAI

感谢据英媒《金融时报》报道,新加坡主权财富基金淡马锡有意投资 OpenAI。淡马锡由新加坡财政部完全控股。2021 年淡马锡规模高达 3810 亿新加坡元(IT之家备注:当前约 2 万亿元人民币),与另一只新加坡政府所有的基金 GIC 一同进入主权财富基金榜单前十。两位知情人士透露,作为全球最大最活跃的投资者之一的淡马锡,其高管最近几个月多次会见了 OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)。另一位熟悉内情的人士表示,双方谈判始于对阿尔特曼的风投基金 Hydrazine Capital 的投资,
3/7/2024 9:53:36 AM
溯波(实习)

AI 绘画神插件 LayerDiffusion 教程!直接用文本生成透明底图像!

大家好,这里是和你们一起探索 AI 的花生~ AI 绘画自出现以来一直都在不断发展完善,实现了很多我们在实际应用中迫切需要的功能,比如生成正确的手指、指定的姿势、准确的文本内容等。上周,又一个重磅新功能在开源的 SD 生态内实现了——直接通过文本直接生成透明底图像和图层!这将为 AI 绘画和设计领域带来了新的可能性,使图像形式更多样,也能给设计师带来更多便利。 今天我们就一起来了解实现这一新功能的技术 LayerDiffusion,以及如何在 SD WebUI Forge 和 ComfyUI 中利用 LayerDi
3/7/2024 8:05:26 AM
夏花生

微软 Microsoft 365 版 Copilot 4 月 1 日面向高校推出,拥有 A3 / A5 许可证可免费用

微软今日宣布将面向更多的教育用户提供 Copilot 及 AI 工具包,希望为教育工作者提供免费的 AI 功能以节省时间。微软表示,具有商业数据保护功能的 Microsoft Copilot 现已嵌入所有 Microsoft 365 教育产品中,包括零成本许可证,将提供给所有 18 岁及以上的教师和高校学生,并将在今年春季启动针对年轻学生的私人预览计划。微软还表示将为高校用户提供一项新优惠:专为保护学生设备而设计的 Microsoft Defender for Endpoint 将提供折扣价。从 2024 年 4
3/7/2024 7:20:26 AM
问舟

Stable Diffusion ComfyUI 进阶教程(一):Controlnet 线条预处理器

前言:我们在前面的基础教程中已经知道怎么去连接 Controlnet 了,接下来我们就要去了解一下不同的 Controlnet 预处理器以及 Controlnet 模型分别有什么效果和作用; 我们先从最常用的“线条预处理器”开始,这也是我们最常用的预处理器之一,我们做动漫转真人、真人转动漫、线稿上色等效果时必用的一个预处理器; 我们会在“Controlnet 预处理器-线条”线条里面发现 14 个不同的预处理器,插件作者一直在更新,也许过段时间大家会看到更多的预处理器。一、线稿 1. Canny 细致线预处理器:①
3/7/2024 7:06:07 AM
搞设计的花生仁

用基于结构的突变偏好进行蛋白质设计,加州大学、MIT、哈佛医学院团队开发了一种无监督方法

编辑 | 萝卜皮当前最新的蛋白质设计方法,往往依赖于具有多达数百个数百万个参数的大型神经网络,同时并不清楚哪些残基依赖性对于确定蛋白质功能至关重要。加州大学(University of California)、麻省理工学院(Massachusetts Institute of Technology)以及哈佛医学院(Harvard Medical School)的研究人员表明:在不考虑突变相互作用的情况下,单个残基的氨基酸偏好,可以解释 8 个数据集中的大部分甚至有时几乎所有的组合突变效应 (R^2 ~ 78-98%
3/6/2024 6:32:00 PM
ScienceAI

“一夜变天”,ChatGPT奇迹也将发生在机器人领域

机器之能报道编译:吴昕条条大路通罗马(AGI),虽然方式不同,但我们可以期待非具身 AGI 和具身 AGI 大致同时出现。作为一家炙手可热的人形机器人赛道选手,1X 前阵子秀了一把 EVE 的新成果 。昨天,一直在 X 平台比较活跃的 1X AI 副总裁 Eric Jang  写了一篇文章,公开了其对AI 和机器人技术发展方向的一些预测。两年前,谷歌高级研究科学家 Eric Jang 离开 Google Robotics,加入 1X Technologies(原名 Halodi Robotics)负责 AI 工作。
3/6/2024 6:29:00 PM
机器之能

独家|前百度搜索老将赵世奇从华为离职,回归百度

赵世奇是一名老百度人,在2010年博士毕业后加入百度,一待就是十年,2020年离开百度加入华为做终端云搜索,职级为T22,担任华为终端云服务搜索与地图BU总裁。 赵世奇生于1981年,辽宁抚顺人,在哈工大一路本硕博,从硕士起就主要研究自然语言处理,师从刘挺。 2005年去到微软亚洲研究院实习,在周明的指导下研究聊天机器人,期间发布了数篇顶刊,成绩卓然,2007年又被微软亚洲研究院返聘实习,成功发表了两篇ACL,入选优秀实习生。
3/6/2024 3:57:00 PM
张进