AI在线 AI在线

资讯列表

OpenAI 重返非营利模式,终止营利性实体控制机制

人工智能研究机构 OpenAI 宣布了一项重大的治理调整,正式放弃其营利性实体的控制机制,重新回归由创始非营利董事会主导的管理结构。 这一决定引发了广泛关注,被认为是对长期批评者声音的直接回应,尤其是对埃隆・马斯克等人的反对意见。 图源备注:图片由AI生成,图片授权服务商Midjourney根据 OpenAI 的新计划,其2019年成立的营利性业务部门将改组为公益公司(Public Benefit Corporation, PBC),这意味着该实体将依然在非营利组织的控制之下,并成为其最大的股东。
5/6/2025 10:01:12 AM
AI在线

OpenAI宣布放弃营利转型,致力于让 AGI 造福全人类

在成立十年之际,OpenAI 宣布了一项重大组织结构调整,旨在让通用人工智能(AGI)真正服务于全人类。 创始人 Sam Altman 及其团队决定将公司的营利部分转型为 “公共利益公司”(PBC),这意味着公司将更加注重公共利益而非仅仅追求利润。 这一转变的核心理念依然是让 AGI 成为人类历史上最强大的工具,帮助每一个人创造价值。
5/6/2025 10:01:12 AM
AI在线

​Anthropic 推出 AI for Science 计划,助力科研人员加速科学发现

AI 技术公司 Anthropic 于5月6日宣布推出一项名为 “AI for Science” 的新计划,旨在为生命科学等领域的研究人员提供免费 API 积分,以帮助他们加速科学研究和发现。 该计划希望借助先进的人工智能技术,提升科研效率,减少科学发现所需的时间和资源。 图源备注:图片由AI生成,图片授权服务商MidjourneyAnthropic 相信,AI 的推理和语言处理能力可以极大地推动科学进步。
5/6/2025 10:01:12 AM
AI在线

Anthropic 推出 AI for Science 计划,助力生命科学研究者实现更快科学发现

AI 公司 Anthropic 于5月6日正式宣布启动其全新计划 ——AI for Science。 这一项目旨在为选定的研究人员提供大量免费的 API 积分,以促进科学研究与发现的进展。 Anthropic 认为,人工智能的先进推理和语言能力能够极大地加速科学进步。
5/6/2025 10:01:11 AM
AI在线

11x 创始人辞去首席执行官职务,Prabhav Jain 接任

11x 的创始人 Hasan Sukkar 于今晨在 LinkedIn 上宣布,他将辞去首席执行官(CEO)的职务,现任首席技术官(CTO)Prabhav Jain 将接任这一职位。 Sukkar 将转为 “非执行董事长”,继续与 Jain 合作,专注于公司的战略方向、产品愿景、行业关系以及开拓新的市场机会。 图源备注:图片由AI生成,图片授权服务商MidjourneySukkar 在 LinkedIn 上表示:“我花了很多时间思考,如何从一个快速发展的初创企业过渡到一个持久的企业级公司。
5/6/2025 10:01:11 AM
AI在线

谷歌承认:即使网站选择退出,仍用搜索数据训练 AI

科技巨头谷歌在近日的一场联邦反垄断审判中承认,即使网站出版商明确选择不让其内容用于人工智能模型训练,谷歌仍会利用其搜索引擎收集的数据进行 AI 训练,包括备受争议的 AI Overviews 功能。 这一承认由谷歌旗下人工智能实验室 DeepMind 的副总裁伊莱·柯林斯在作证时做出。 司法部律师戴安娜·阿吉拉尔在质询中指出,即使出版商选择不让 DeepMind 使用其数据进行大型语言模型训练,这些相同的数据仍然会被谷歌搜索部门用于其自身的人工智能项目。
5/6/2025 10:01:11 AM
AI在线

3B模型逆袭7B巨头!Video-XL-Pro突破长视频理解极限,大海捞针准确率超98%

3B模型超越Meta 7B模型,超长视频理解SOTA刷新了! 来自上海交通大学、北京智源研究院、特伦托大学的联合研究团队推出了Video-XL-Pro,实现近一万帧视频的单卡处理,大海捞针准确率超98%。 现有的多模态大模型在超长视频训练和应用中仍存在显著瓶颈:一方面,难以大规模训练超长视频;另一方面,在处理长视频时,仍然面临性能差和效率低的双重挑战。
5/6/2025 9:55:00 AM

AI视频生成新突破!字节提出一致性视频生成方法Phantom:通过跨模态对齐生成主题一致的视频,超多应用场景

Phantom 是一个统一的视频生成框架,适用于单主题和多主题参考,基于现有的文本转视频和图像转视频架构构建。 它通过重新设计联合文本-图像注入模型,利用文本-图像-视频三元组数据实现跨模态对齐。 此外,它在人物生成中强调主题一致性,同时增强了身份保留视频生成。
5/6/2025 9:41:06 AM
AIGC Studio

MinerU vs DeepDoc:集成方案+图片显示优化

如上篇文章最后所言,进一步优化原始文档解析和分块策略是控制变量法下,提高最后检索效果天花板的务实做法。 从这篇开始,在对历史项目进行迭代的同时,会陆续对不同的文档解析方法和动态分块策略给出更多的原理解析和案例参考。 图片来源:,试图说清楚文档解析工具大致构成,MinerU 和 Deepdoc 对比,MinerU 部署,以及如何和图片服务方案结合使用。
5/6/2025 9:38:50 AM
韦东东

315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」

知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」(指它并非难以复制)。 Thorsten Ball 在编程领域以其对系统编程和编程语言的深入研究而闻名,尤其擅长解释器、编译器和虚拟机等主题。 他撰写的《用 Go 语言自制编译器》和《用 Go 语言自制解释器》则被视为编译原理领域的「入门平替」。
5/6/2025 9:15:00 AM
机器之心

成熟的编程智能体,已经学会升级自己的系统了

编程智能体,几乎成为了 2025 年最热门的话题之一。 不管是学术机构还是工业界,都在寻找更高效的落地路径。 机器学习领域的历史经验表明,手工设计的解决方案最终会被学习到的解决方案所取代。
5/6/2025 9:10:00 AM
机器之心

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。 将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推理,从而智能体可以有效地探索并高效地解决复杂领域的问题。 然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。
5/6/2025 9:08:00 AM
机器之心

DeepSeek开源的文件系统,是如何提升大模型效率的?

在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心

苹果携手 Anthropic,于开发更新版编程平台Xcode

据彭博社报道,苹果公司正与人工智能公司 Anthropic 合作,致力于开发新版本的 Xcode,这一版本将整合 AI 功能以提升代码编写、编辑和测试的效率。 Anthropic 以其 “Claude” 大语言模型而闻名,Claude 在编程任务上表现出色,与 OpenAI 的 ChatGPT 展开竞争。 为了加速产品开发,越来越多的公司开始采用 AI 编程工具,苹果自然也不甘落后。
5/6/2025 9:00:41 AM
AI在线

如何选择Embedding Model?关于嵌入模型的十个思考

在大模型应用中,尤其基于RAG框架的大模型应用,嵌入模型(embedding Model)是不可或缺的关键组件。 这里总结了笔者在实践中关于潜入模型的10个思考,希望对大家有所帮助。 嵌入模型在RAG中的重要性嵌入模型能够将文本转换成数值形式的向量,这让计算机可以更高效地处理、对比和检索信息。
5/6/2025 8:51:37 AM
曹洪伟

细节直逼亚毫米级!港科广分层建模突破3D人体生成|CVPR 2025

从人体单图变身高保真3D模型,不知道伤害了多少程序猿头发的行业难题,竟然被港科广团队一招破解了! 团队最新提出的MultiGO创新方案,借助分层建模思路——将人体分解为不同精度层级,从基础体型到衣物褶皱逐级细化。 这有点像在搭乐高积木:先大模块构建整体轮廓,再用小零件补充细节,最后再处理材质纹理。
5/6/2025 8:50:00 AM

首个移动端 AI 组件库正式发布!并宣布开源啦!

前言大家好,我是林三心,用最通俗易懂的话讲最难的知识点是我的座右铭,基础是进阶的前提是我的初心~ChatUI 3.0 的发布引入了许多新的特性和组件,旨在提升智能对话机器人的设计和开发效率。 以下是一些关键点和功能亮点:图片核心优化图片自然: 致力于提升对话的自然流畅性,让用户的互动体验更加亲切高效: 通过新组件的引入,增强了开发效率,减少了开发时间沉浸: 提升了视觉与互动体验,使用户能更沉浸于对话中图片新增组件图片Typing 组件: 用于展示服务端处理中的状态,缓解用户等待时的焦虑感,提升用户体验。 TypingBubble 组件: 将气泡内容呈现为打字效果,模拟人类输入的过程,增加互动感。
5/6/2025 8:46:33 AM
林三心不学挖掘机

用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源

超越YOLOv3、Faster-RCNN,首个在COCO2017 val set上突破30AP的纯多模态开源LLM来啦! 华中科技大学、北京邮电大学等多所高校研究团队共同推出的Perception-R1(PR1),在视觉推理中最基础的感知层面,探究rule-based RL能给模型感知pattern带来的增益。 PR1重点关注当下主流的纯视觉(计数,通用目标检测)以及视觉语言(grounding,OCR)任务,实验结果展现出在模型感知策略上的巨大潜力。
5/6/2025 8:40:00 AM
量子位