模型
Fastino 融资 1750 万美元,利用廉价游戏 GPU 训练 AI 模型
在当今科技行业,AI(人工智能)正迅速崛起,许多巨头公司都在大谈特谈拥有万亿参数的 AI 模型,这些模型通常需要耗费巨资搭建庞大的 GPU 集群。 然而,Fastino 却走了一条不同的道路,利用成本低廉的游戏 GPU 进行 AI 模型训练,并成功获得了由 Khosla Ventures 领投的1750万美元融资。 这一创新的方式使得 Fastino 能够在资源有限的情况下,实现高效的 AI 模型开发。
5/8/2025 12:01:07 PM
AI在线
AI学会“无师自通”?AZR让模型左右互搏,越打越聪明!
一项名为Absolute Zero Reasoner(AZR)的创新项目近日引发广泛关注。 该项目通过一种全新的“绝对零点”训练范式,让大型语言模型(LLM)能够自主提出问题、编写代码、运行验证,并通过自我博弈(self-play)循环提升编程与数学能力。 基于Qwen2.5-7B模型的测试数据显示,AZR在编程能力上提升了5分,数学能力提升了15.2分(满分100分),展现了其在AI自进化领域的巨大潜力。
5/8/2025 10:00:55 AM
AI在线
北大、清华联合发布!大模型逻辑推理能力新突破
在当前人工智能领域,大语言模型(LLMs)取得了显著成就,但其逻辑推理能力依然显得不足。 为了提升这一能力,来自北京大学、清华大学、阿姆斯特丹大学、卡内基梅隆大学以及阿布扎比的 MBZUAI 等五所高校的研究人员,联合发布了《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》综述论文,聚焦于逻辑推理的两大关键问题:逻辑问答和逻辑一致性。 研究表明,大语言模型在处理复杂逻辑推理时存在明显的短板。
5/8/2025 10:00:54 AM
AI在线
开源即屠榜!UniME多模态框架登顶MMEB全球训练榜,刷新多项SOTA纪录
告别CLIP痛点,更懂语义关联的跨模态理解新SOTA来了! 格灵深瞳、阿里ModelScope团队,以及通义实验室机器智能团队联合发布通用多模态嵌入新框架UniME,一经推出就刷新MMEB训练榜纪录。 △图片于2025年5月6日08:00 UTC 8截取UniME作为一个创新性的两阶段框架,所展现的卓越的组合理解力,帮助MLLMs具备学习适用于各种下游任务的判别性表征的能力,并在多个任务中达到了新的SOTA。
5/8/2025 9:31:50 AM
万字长文带你读懂强化学习,去中心化强化学习又能否实现?
强化学习(RL)是当今 AI 领域最热门的词汇之一。 近日,一篇长文梳理了新时代的强化学习范式对于模型提升的作用,同时还探索了强化学习对去中心化的意义。 原文地址:「有时候几十年什么也不会发生;有时候几周时间仿佛过了几十年。
5/8/2025 9:16:00 AM
Mistral 推出新 AI 模型 Mistral Medium 3:高效与性能兼得
法国人工智能初创公司 Mistral 近日发布了其新款 AI 模型 ——Mistral Medium3。 这款模型在追求高效率的同时,依然保持了出色的性能表现,成为市场上的一大亮点。 Mistral 的数据显示,Mistral Medium3在所有基准测试中的表现达到了或超过了竞争对手 Anthropic 的 Claude Sonnet3.7模型的90%。
5/8/2025 9:00:44 AM
AI在线
字节开源图像编辑黑科技!1/30参数1/13数据,性能提升9.19%
字节开源图像编辑新方法,比当前SOTA方法提高9.19%的性能,只用了1/30的训练数据和1/13参数规模的模型。 做到这一切无需额外预训练任务和架构修改,只需要让强大的多模态模型(如GPT-4o)来纠正编辑指令。 这一方法旨在解决现有图像编辑模型中监督信号有噪声的问题,通过构建更有效的编辑指令提升编辑效果。
5/8/2025 8:57:59 AM
量子位
从"快思考"到"慢思考":大型语言模型的推理能力革命
在人工智能快速发展的今天,大型语言模型(LLM)已经在多个领域展现出惊人的能力。 然而,当面对需要深度思考和复杂推理的任务时,传统LLM往往表现出明显的局限性。 这种局限性促使研究者们转向探索一种新型的模型范式——基于"慢思维"的推理LLM。
5/8/2025 2:02:02 AM
葱葱
小巧却强大!IBM发布新语言模型Granite 4.0 Tiny Preview:长上下文处理
IBM 发布了 Granite4.0Tiny Preview,这是即将推出的 Granite4.0系列语言模型中最小的一款的预览版本。 该模型不仅具备高效的计算能力,还为开源社区提供了一个值得关注的实验平台。 高效的性能与极小的内存需求 Granite4.0Tiny 在 FP8精度下,能够在消费级硬件上运行多个长上下文(128K)的并发任务,适用于市面上价格低于350美元的 GPU。
5/7/2025 6:00:54 PM
AI在线
清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP
近日,清华大学叉院的 ISRLab 与北京星动纪元科技有限公司携手推出了首个 AIGC(人工智能生成内容)机器人大模型 ——VPP(视频预测策略)。 这一创新成果在2025年国际机器学习大会(ICML2025)上荣获 Spotlight 论文奖,显示出其在全球 AI 研究领域的前沿地位。 AIGC 技术近年来迅速崛起,从生成式文本模型到视频生成技术,其应用范围不断扩大。
5/7/2025 6:00:26 PM
AI在线
清华与星动纪元联合开源首个 AIGC 机器人大模型 VPP
近日,星动纪元宣布,已与清华大学叉院的 ISRLab 合作,开源了首个 AIGC(生成式人工智能内容)机器人大模型 ——VPP(视频预测策略)。 这一创新成果有望在机器人领域带来革命性的进展。 VPP 模型通过将视频扩散模型的泛化能力引入到通用机器人操作策略中,解决了以往机器人推理速度慢的问题。
5/7/2025 5:00:44 PM
AI在线
新兴混合 AI 模型 CausVid:几秒钟内生成高质量视频
近日,麻省理工学院计算机科学人工智能实验室(CSAIL)与 Adobe Research 联合研发的创新性 AI 模型 CausVid 引起了广泛关注。 这一混合模型可以在几秒钟内生成高质量视频,标志着视频创作领域的一次重大技术突破。 创新的技术架构CausVid 的设计理念颠覆了传统的视频生成方式。
5/7/2025 2:00:54 PM
AI在线
一个LoRA实现GPT-4o级图像编辑!浙大哈佛新模型冲上Hugging Face榜二
基于文本指令的图像编辑任务一直都是图像生成、编辑领域的一大热点,从Prompt2prompt到InstructPix2Pix,从EmuEdit再到最新的GPT4o,都在不断的拔高AI图像编辑的水平。 总的来说,这些模型可以归为两大类:一种是免训练(training-free)图像编辑,一种是基于训练或微调的图像编辑。 免训练图像编辑多通过对一个预训练文生图diffusion大模型进行提示词替换、操纵注意力图、图像反演等操作实现,尽管省去了训练的耗费,但其操作过程往往较为复杂且编辑效果不稳定、编辑任务种类单一。
5/7/2025 1:51:49 PM
新智元
ICML 2025 Spotlight|华为诺亚提出端侧大模型新架构MoLE,内存搬运代价降低1000倍
Mixture-of-Experts(MoE)在推理时仅激活每个 token 所需的一小部分专家,凭借其稀疏激活的特点,已成为当前 LLM 中的主流架构。 然而,MoE 虽然显著降低了推理时的计算量,但整体参数规模依然大于同等性能的 Dense 模型,因此在显存资源极为受限的端侧部署场景中,仍然面临较大挑战。 现有的主流解决方案是专家卸载(Expert Offloading),即将专家模块存储在下层存储设备(如 CPU 内存甚至磁盘)中,在推理时按需加载激活的专家到显存进行计算。
5/7/2025 1:49:19 PM
机器之心
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。
5/7/2025 1:46:34 PM
ComfyUI品牌焕新升级,推出原生API节点
ComfyUI于2025年5月6日宣布完成品牌升级,同步推出原生API节点功能。 这一更新不仅为ComfyUI带来了全新的视觉标识,还通过集成11个主流在线视觉AI模型、65个新节点,显著提升了其图像和视频生成能力。 据官方介绍,用户无需自行申请API密钥,仅需在ComfyUI平台登录即可无缝调用包括Flux.1、Veo2、GPT-Image-1等在内的先进模型。
5/7/2025 12:01:06 PM
AI在线
公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族
在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家 AI 企业竞相追逐的焦点。 但近年来,推理效率已成为模型部署和性能的关键限制因素。 基于此,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。
5/7/2025 10:12:52 AM
机器之心
英伟达提出最强「描述一切」模型 (DAM),可生成图像或视频特定区域的详细描述,拿下7个基准SOTA!
英伟达提出「描述一切」模型 (DAM),这是一个强大的多模态大型语言模型,可以生成图像或视频中特定区域的详细描述。 用户可以使用点、框、涂鸦或蒙版来指定区域,DAM 将提供这些区域的丰富且符合上下文的描述。 相关链接论文::::详细的本地化图像和视频字幕详细本地化字幕 (DLC)详细局部字幕 (DLC) 的任务是生成图像中特定区域的全面且情境感知的描述。
5/7/2025 10:10:36 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
Claude
苹果
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
具身智能
RAG
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
MCP
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
预测