资讯列表
500美元刷新SOTA!训练成本砍到1/200,华人团队重构视频生成范式
你可能听说过OpenAI的Sora,用数百万视频、千万美元训练出的AI视频模型。 但你能想象,有团队只用3860段视频、不到500美元成本,也能在关键任务上做到SOTA? 比如这个图生视频:攀岩者在小行星攀岩,人体运动与太空光影完美仿真。
Anthropic 估值飙升至 1000 亿美元,年收入增长四倍
在人工智能领域竞争愈发激烈的背景下,AI 初创公司 Anthropic 正在吸引越来越多投资者的目光。 根据知情人士透露,Anthropic 的最新估值已突破1000亿美元,较四个月前的580亿美元几乎翻了一番。 这一估值的提升,主要得益于 Anthropic 近期向部分投资者披露的财务表现,尤其是其年化收入在2023年上半年增长了四倍,已超过40亿美元。
ChatGPT 新增音频转录功能!办公利器让你轻松记录会议要点
近日,OpenAI 在 macOS 平台上推出了一项备受瞩目的新功能 ——ChatGPT 音频录制与转录模式。 这一功能专为付费用户设计,旨在帮助他们更加高效地记录和分析各种音频内容,比如会议、头脑风暴讨论以及个人语音笔记。 自6月初发布更新视频以来,这一新功能备受期待。
深谋科技独家发布:真正为人类服务的新一代人形机器人核心技术
2025世界人工智能大会(WAIC)将于7月26日至29日举行。 作为本届大会的精英合作伙伴,深谋科技亮相H3馆D710展位。 秉承“人形机器人应摆脱 ‘跑跑跳跳,图个热闹’ 的怪圈,真正满足人类需要、为人类服务,最终成为人类社会一员”的理念,深谋将凭借全能感知、先进控制、类脑智能等一系列面向新一代人形机器人的核心技术点燃具身智能新的变革。
苹果向英伟达生态妥协了!MLX框架主动适配CUDA
苹果向英伟达生态妥协了! 最新消息,苹果之前特意为端侧AI模型训练推出的MLX框架,主动增加了CUDA支持。 消息一出即在Hacker News引发热烈讨论:要知道苹果一直以来都以“封闭”著称,但随着英伟达CUDA生态在AI开发领域占据绝对主导地位,苹果这下也不得不转变姿态了。
OpenAI 被曝谋求多元化收入:ChatGPT AI 将整合支付系统,抽佣电商产品
AI在线 7 月 17 日消息,金融时报昨日(7 月 16 日)发布博文,报道称 OpenAI 公司为进一步拓展电商功能并寻求新收入,计划从 ChatGPT 直接销售的在线产品中,抽取一定比例的佣金。 AI在线注:OpenAI 公司目前已经在 ChatGPT 中展示相关商品,并提供链接至在线零售商的选项。 OpenAI 公司今年 4 月,还宣布与支付集团 Shopify 建立合作关系。
「有望成为Transformer杀手」,谷歌DeepMind新架构MoR实现两倍推理速度
大型语言模型已展现出卓越的能力,但其部署仍面临巨大的计算与内存开销所带来的挑战。 随着模型参数规模扩大至数千亿级别,训练和推理的成本变得高昂,阻碍了其在许多实际应用中的推广与落地。 这促使研究者们围绕两个主要方向积极探索高效化技术:一是通过权重共享提升参数效率,二是根据输入复杂度动态分配计算资源,实现自适应计算。
免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频
近年来随着视频生成基础模型的涌现,音频驱动的说话人视频生成领域也取得了显著进展。 但现有方法主要聚焦于单角色场景,现有可生成两个角色对话视频的方法仅能单独地生成两个分离的说话人视频。 针对这一挑战,研究人员提出了首个专注同场景多角色说话视频生成的框架Bind-Your-Avatar该模型基于扩散Transformer(MM-DiT),通过细粒度的嵌入路由机制将「谁在说」与「说什么」绑定在一起,从而实现对音频–角色对应关系的精确控制。
普林斯顿团队领衔发布最强开源数学定理证明模型:32B性能大幅超越前代SOTA DeepSeek 671B
近日,由普林斯顿大学牵头,联合清华大学、北京大学、上海交通大学、斯坦福大学,以及英伟达、亚马逊、Meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。 该项目的 32B 旗舰模型在多个自动数学定理证明的主要基准测试上均大幅超过之前的最先进开源模型 DeepSeek-Prover-V2-671B;而 8B 小尺寸模型在特定基准上,性能表现与 DeepSeek-Prover-V2-671B 持平,展示了其在效率和能力上的新突破。 项目主页: 模型下载: 性能新高:其 32B 旗舰模型在 MiniF2F 测试中,Pass@32 (每道测试题目尝试 32 次;pass 数越小,计算开销越小)的正确率相较于之前的 SOTA 模型 DeepSeek-Prover-V2-671B 提升了 8.0%。
ChatGPT还没学会打电话,谷歌搜索AI已经替你电话约服务,还会谈价砍单!
谷歌搜索要出新花样了! 想象一下,你想给你的宠物狗做一次美容,但是家附近好像没有这样的门店。 你打开搜索,输入「附近的宠物美容师」,并且勾选了「让AI查价格」,然后接下来你就什么都不用做了。
Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了
就在刚刚,KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——一个名为Mixture-of-Recursions的全新LLM模型架构。 这个崭新的架构,被业内认为有潜力成为Transformer杀手! 它的推理速度提升2倍,训练FLOP减少,KV缓存内存直接减半。
神作!我用Claude Code一人打造了一款macOS原生App!句句干货,未来的IDE会截然不同:构建上下文+反馈回路
作者 | Indragie Karunaratne编译 | 沈建苗审校 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)Claude Code 出来之后,很多人都在说“一个人 AI 就可以独立写应用了”。 但真正有人用它从头到尾打造一个完整的 macOS 原生 App,还详细记录全过程的,几乎没有。 今天要分享的这篇文章,正好填补了这个空白。
12306MCP Server 正式上线:开源火车票查询引擎,助力智能出行
【AIbase 报道】2023年10月,由开发者 drfccv 发布的全新火车票查询后端系统 —— 12306MCP Server 正式上线。 该项目基于 Model Context Protocol(MCP) 标准打造,专为解决复杂、庞大的火车票信息查询需求而设计,支持余票、列车、车站、中转等核心数据的实时查询,并以开源形式面向公众发布。 随着国内旅游和出行热度持续升温,传统的火车票查询平台在响应速度与数据组织上的局限性日益明显。
MiniMax推出全新MiniMax Agent全栈开发功能 一句话打造电商网站
近日,MiniMax 推出了一项名为 MiniMax Agent 的全栈开发功能,令人惊叹不已!这一创新技术使得用户仅需用自然语言描述自己的需求,便可自动生成完整的电商网站应用,涵盖前端、后端、数据库、支付接口以及定时任务等各个方面。 这一全栈开发功能的推出,标志着编程门槛的进一步降低,传统的开发流程不再是小型企业和创业者的专属领域。 用户不再需要具备复杂的技术背景,只需简单的一句话,就能生成一个功能齐全的网站。
AlphaFold3不能的,它可以!上交、范德堡团队开发LassoPred:预测套索肽三维结构的工具
编辑 | 萝卜皮套索肽(LaP)以其缠结状活结结构为特征,是一大类核糖体合成和翻译后修饰的肽(RiPP),例如可用作抗生素、酶抑制剂和分子开关。 虽然生物信息学预测了数千个 LaP 序列,但在过去 30 年中,仅有约 50 个不同的 LaP 被表征为结构特征。 现有的计算工具,例如 AlphaFold2、AlphaFold3 和 ESMfold,由于其不规则的骨架结构(例如套索结状折叠和异肽键的存在),无法准确预测 LaP 的结构。
GenAI项目失败的五大常见原因
根据Gartner的研究,如果CIO误解了技术的成熟度,未能关联业务价值,就可能会遇到问题。 企业看到了GenAI的潜力,但也面临着诸多障碍。 从技术缺陷到规划初期的失误,技术领导者们有诸多原因导致项目滞后。
英伟达黄仁勋:人工智能下一个浪潮是物理 AI
7 月 17 日上午消息,在第三届链博会先进制造链主题活动现场,英伟达公司创始人兼首席执行官黄仁勋将与之江实验室主任、阿里云创始人王坚进行炉边谈话。 黄仁勋表示,人工智能的下个浪潮是物理 AI——Physic AI,人工智能是一种新的做软件方式,根据基本原理代替人类编码描述算法来预测结果,我们使用算法来学习如何从实例、信息、数据中预测结果,这种使用计算机来学习如何进行项目的方法已被证明是非常可扩展的。 他指出,生成式 AI 是人工智能的第二个浪潮,他让我们现在可以从一种模态转换到另一种模态,从英语到汉语,从英语到图片,从图片到英语,从汉语到视频。
马斯克的 xAI 正在招聘工程师 打造你的虚拟 “女友”!
在科技界,埃隆・马斯克的 xAI 正大步迈进一个引人注目的新领域 —— 创建 AI 驱动的动漫角色,尤其是那些能让人 “爱不释手” 的虚拟女友。 近日,该公司发布了一则令人瞩目的招聘广告,招聘 “全栈工程师 —— 二次元女友”,其目标是为用户打造充满魅力的动漫女孩。 这份招聘信息描述了这个职位的使命,即 “创造能够准确理解宇宙的 AI 系统,并帮助人类追求知识”。