资讯列表
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
不再依赖语言,仅凭图像就能完成模型推理? 大模型又双叒叕迎来新SOTA! 当你和大模型一起玩超级玛丽时,复杂环境下你会根据画面在脑海里自动规划步骤,但LLMs还需要先转成文字攻略一格格按照指令移动,效率又低、信息也可能会丢失,那难道就没有一个可以跳过“语言中介”的方法吗?
瘦身不降智!大模型训推效率提升30%,京东大模型开发计算研究登Nature旗下期刊
京东探索研究院关于大模型的最新研究,登上了Nature旗下期刊! 该项研究提出了一种在开放环境场景中训练、更新大模型,并与小模型协同部署的系统与方法。 它通过模型蒸馏、数据治理、训练优化与云边协同四大创新,这个项目将大模型推理效率平均提升30%,训练成本降低70%。
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
这段时间,大神何恺明真是接连不断地发布新研究。 这不,5 月 19 日,他又放出一篇新作! 论文标题:Mean Flows for One-step Generative Modeling 论文地址: MeanFlow 的单步生成建模框架,通过引入平均速度(average velocity)的概念来改进现有的流匹配方法,并在 ImageNet 256×256 数据集上取得了显著优于以往单步扩散 / 流模型的结果,FID 分数达到 3.43,且无需预训练、蒸馏或课程学习。
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
金天,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)博士五年级学生,师从 Michael Carbin 和 Jonathan Ragan-Kelley。 他主要研究机器学习与编程系统的结合。 此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理部署。
FaceAge登上「柳叶刀」!AI一张照片看穿你的真实年龄
你有没有发现,有些人看起来就是比其他人更老。 脸,不仅仅是我们的门面,还是一个人的「健康快照」,更是一张映射身体状态的「体检报告」。 最近的一项研究发现这其中还藏着更深的秘密,这项研究登上《柳叶刀数字健康》:Mass General Brigham团队用AI训练出一个模型FaceAge,从人脸照片里预测癌症患者的真实「生物年龄」以提供建议辅助治疗。
美图获阿里巴巴 2.5 亿美元投资,深度布局 AI 与电商领域
美图公司宣布与阿里巴巴签署了一项重大的战略投资协议,阿里巴巴将通过可转债形式向美图投资2.5亿美元。 这笔投资将为双方在电商平台、人工智能(AI)技术和云计算等多个领域的深度合作提供强大支持。 图源备注:图片由AI生成,图片授权服务商Midjourney根据协议,这项可转债的期限为三年,年利率为1%。
京东云宣布五大AI营销产品限时免费,助力商家提升销售效率
在最新的公告中,京东宣布将免费向其 POP 商家推出五大人工智能(AI)营销产品。 这一举措旨在帮助商家利用先进技术提升销售效果和运营效率。 这些新工具包括直播数字人、商家客服智能体、短视频生成工具、京点点以及京麦 AI 助手,均为商家提供了更为高效的营销手段。
Catena Labs获得1800万美元融资,打造AI原生金融机构
近日,人工智能初创公司 Catena Labs 在一份新闻稿中宣布,他们成功筹集了1800万美元的资金,旨在建设全球首个监管合规的 AI 原生金融机构,以支持 “代理经济” 的发展。 该公司由前 Circle 联合首席执行官肖恩・内维尔(Sean Neville)共同创办,他曾参与创建了 U SDC 稳定币。 本轮融资由知名风险投资公司 a16z Crypto 领投,参投方包括 Breyer Capital、Circle Ventures、Coinbase Ventures、CoinFund、Pillar VC、斯坦福工程风险基金等多个投资机构,以及包括 NFL 运动员汤姆・布雷迪、Twitch 联合创始人凯文・林和前 IBM 首席执行官山姆・帕尔米萨诺等知名天使投资人。
华硕CEO预测:AI电脑距离全面落地仍需两年
在台北举行的 Computex 展会上,华硕共同首席执行官胡镇荣(Samson Hu)表示,当前一波新型人工智能(AI)电脑的普及将需要到2026年甚至更久才能真正推动市场发展。 尽管去年的 AI 电脑发布引发了不少期待,但胡镇荣指出,市场前景并没有因此而显著改善,尤其是在当前全球经济形势不佳的背景下。 随着技术的不断进步,从华硕到联想等众多厂商都推出了 AI 电脑,希望能够为疲软的笔记本市场带来新的生机。
MarketWatch:谷歌加倍投入人工智能搜索,应对日益加剧的威胁
在近期举办的 I/O 开发者大会上,谷歌宣布将推出一系列新的人工智能(AI)功能,以巩固其在搜索引擎市场的领先地位。 随着 AI 技术的快速发展,尤其是来自 OpenAI 和 Perplexity 等新兴公司的竞争压力不断增大,谷歌似乎倍感压力。 因此,该公司推出了 “AI 模式”,这是其搜索引擎中 “最强大的 AI 搜索” 功能,具备更高级的推理和多模态能力。
字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破
字节跳动 发布了一款名为 BAGEL 的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。 BAGEL 在标准多模态理解基准测试中表现出色,超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。 此外,在文本到图像的生成质量上,BAGEL 的表现也与强大的专业生成器 SD3相媲美。
谷歌NotebookLM视频概览重磅上线!PDF、图片秒变动画短片
谷歌在I/O2025大会上宣布,NotebookLM将推出全新视频概览(Video Overviews)功能,允许用户通过上传的PDF、图片、文本等来源素材,自动生成动画风格的短片,深入浅出地讲解复杂内容。 这一功能面向所有用户开放,首版仅支持英语,引发全球教育、科研和内容创作社区的热烈讨论。 AIbase综合最新社交媒体动态,深入解析视频概览的技术亮点及其对AI辅助学习与创作的深远影响。
豆包·语音播客模型发布 将在豆包APP及PC端、扣子等上线
火山引擎正式推出豆包·语音播客模型,豆包·语音播客模型基于流式模型构建,能够实现从文本创作到双人对话式播客的秒级转化,为用户带来“低成本、高时效、强互动”的全新创作体验。 这一模型的推出,不仅解决了传统AI播客创作中的诸多痛点,还极大地简化了播客制作流程,让热点内容能够瞬间转化为生动的播客。 在当今信息爆炸的时代,播客作为一种受欢迎的内容传播形式,正吸引着越来越多的用户。
DeepSeek发布大模型训练端到端论文,展示卓越工程深度
近日,DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文,引发业界广泛关注。 该论文全面阐述了DeepSeek在大模型研发中的技术突破,涵盖软件、硬件及混合优化方案,展现了其令人惊叹的工程深度。 在**软件**层面,论文详细介绍了多头潜在注意力机制(MLA),显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率,同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信,支持FP8低精度操作,加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布,进一步优化计算效率。
苹果计划在 iOS 19 中向第三方开发者开放 AI 模型
根据彭博社记者马克・古尔曼的最新报道,苹果公司正在积极筹备在其即将发布的 iOS19中向第三方开发者开放其人工智能(AI)模型。 这一举措旨在促进软件开发,推动应用创新,并增强苹果自家硬件产品的吸引力。 据了解,苹果正在研发一套软件开发工具包(SDK)及相关框架,以便开发者能够利用 Apple Intelligence 所采用的大型语言模型来创建新功能。
谷歌推出 Project Astra,智能助理可控 Android 手机
谷歌近日正式发布了 Project Astra 的最新功能,该项目展示了其强大的智能助理能力,能够控制 Android 手机。 这一技术目前已经以应用程序的形式提供给受信任的测试者,并在 Pixel9Pro 上进行了演示。 在演示中,用户在修理自行车的过程中,与 Astra 进行实时对话。
每月249.99美元!谷歌推出 AI Ultra 订阅计划,畅享最强大 AI 模型与高级功能
谷歌宣布推出全新的 AI Ultra 订阅计划,旨在为用户提供最高级别的 AI 模型访问和丰富的高级功能。 随着人工智能技术的迅速发展,谷歌希望通过这一新计划,让更多用户能够利用其先进的 AI 能力来提升知识、创造力和工作效率。 AI Ultra 计划适合电影制作人、开发者、创意专业人士,或者任何追求最佳 AI 体验的用户,可以看作是进入谷歌 AI 世界的 “贵宾通行证”。
谷歌Gemma 3n发布!可在手机上流畅跑多模态AI,音频+图像+文本全能
谷歌在I/O2025大会上正式揭晓Gemma3n,一款专为低资源设备设计的多模态AI模型,仅需2GB RAM即可在手机、平板和笔记本电脑上流畅运行。 Gemma3n继承了Gemini Nano的架构,新增音频理解功能,支持文本、图像、视频和音频的实时处理,且无需云端连接,彻底颠覆了移动端AI体验。 AIbase综合最新社交媒体动态,深入解析Gemma3n的技术亮点及其对AI生态的影响。