资讯列表
AI+数据智能体的三大支点:数据治理、知识库和大模型
当销售部喊出"业绩增长15%",财务部却坚称"只有8%"。 会议室里争论不休,时间流逝,竞争对手已经抢占先机。 你不禁自问:明明砸了千万建设数据系统,为何企业依然深陷数据内耗?
今天起全员免费!GPT-4.1上线ChatGPT,首波实测:又快又听话,油腻感没了
今天凌晨开始,GPT-4.1可以直接在ChatGPT中使用了! 而且是不管付费的没付费的,所有用户均可使用那种~官方介绍,GPT-4.1是一款专门针对编码任务和指令执行的模型,推理效率非常高。 看看这张网友们自制的表格,它的能力一目了然:这家伙一个月前被OpenAI公开,当时声明专供API使用。
速度最快:Stable Audio Open Small 端侧音频模型登场,手机上 8 秒内 AI 生成 11 秒音频
AI 初创公司 Stability AI 推出 Stable Audio Open Small,号称是市场上速度最快的“立体声”音频生成 AI 模型,可在智能手机上运行。
重磅!谷歌DeepMind发布AlphaEvolve:AI界的“算法设计进化大师”诞生
谷歌DeepMind刚刚又往前拱了一大步,宣布推出 AlphaEvolve智能体 ,目标直指更上游,用于通用算法的设计发现和优化简单说,AlphaEvolve就像个AI界的“算法育种大师”。 它把自家Gemini大模型(Gemini Flash负责广撒网,洞察力强的Gemini Pro负责深挖)和一套“自动化考官”(负责验证算法靠不靠谱、效率高不高)结合起来,再套上一个“进化论”的框架,让好算法能一代更比一代强AlphaEvolve工作流程:工程师设定框架,AI通过“提示采样器”给LLM喂招,LLM出新招(程序),“考官”打分,好招进“兵器谱”,并用来启发下一轮出招。 去年DeepMind就秀过肌肉,证明LLM能生成代码函数来搞定科学问题。
刚刚,OpenAI开放GPT-4.1,100万上下文、代码能力超强
今天凌晨1点30,OpenAI宣布开放GPT-4.1,从今天开始可以在ChatGPT中使用。 GPT-4.1是一款专门针对编码任务和指令执行的模型,推理效率非常高,对于日常编码需求来说,是替代o3和o4-mini非常好的选择。 GPT-4.1是OpenAI发布的最新模型,其最大亮点之一就是支持100万tokens上下文,这也是OpenAI首次发布长窗口模型。
GPT-4o不敌Qwen,无一模型及格!UC伯克利/港大等联合团队提出多模态新基准:考察多视图理解能力
多视图理解推理有新的评判标准了! 什么是多视图理解? 也就是从不同视角整合视觉信息进而实现理解决策。
破解300年数学难题,智能体大突破!谷歌发布超强AI Agent
今天凌晨,谷歌Deepmind在官网发布了,用于设计高级算法的编程AI Agent——AlphaEvolve。 AlphaEvolve与谷歌的大模型Gemini实现深度集成,用于自动评估通用算法的发现与优化,可以帮助开发人员快速设计出最好、高效的矩阵算法。 简单来说,大模型擅长生成各种想法和算法,但是没人知道这些到底行不行,而AlphaEvolve相当于“质检员”,能够按照特定标准来衡量这些想法是否可行。
ICML25 | 让耳朵「看见」方向!仅依靠360°全景视频,就能生成3D空间音频
空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提升沉浸式体验的关键。 然而,现有的技术大多基于固定的视角视频,缺乏对360°全景视频中空间信息的充分利用。 在这样的背景下,一项在空间音频生成领域具有里程碑意义的研究应运而生——OmniAudio:它能够直接从360°视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。
DanceGRPO:首个统一视觉生成的强化学习框架
本文由字节跳动 Seed 和香港大学联合完成。 第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。
25岁MIT辍学天才一战成名!3年成为90亿美金公司CEO
硅谷又出现了一位新的天才。 AI浪潮中,一位年仅25岁的远见者正以惊人的速度改写着软件开发的未来,他就是Michael Truell,AI代码编辑器Cursor背后的母公司Anysphere的CEO。 Cursor仅仅用了12个月,ARR就达到了一亿美元,多篇业内分析认定Cursor是 「SaaS史上最快到$100M ARR的初创公司」。
Meta 推出 CATransformers 框架 助力AI行业实现减排目标
在人工智能迅猛发展的今天,Meta 的 FAIR 团队与佐治亚理工学院联合研发了一款名为 CATransformers 的全新框架。 该框架以降低碳排放为核心设计理念,旨在通过优化模型架构与硬件性能,显著减少 AI 技术在运营中的碳足迹,为可持续的 AI 发展奠定基础。 随着机器学习技术在各个领域的广泛应用,从推荐系统到自动驾驶,其背后的计算需求不断增加。
阿里通义万相Wan2.1-VACE开源 号称首个开源的视频编辑统一模型
通义万相宣布VACE开源,这标志着视频编辑领域迎来了一次重大的技术革新。 此次开源的Wan2.1-VACE-1.3B支持480P分辨率,而Wan2.1-VACE-14B则支持480P和720P两种分辨率。 VACE的出现,为用户带来了一站式的视频创作体验,用户无需在不同模型或工具之间频繁切换,即可完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务,极大地提高了创作效率和灵活性。
阿里巴巴开源全能视频大模型,赋能视频生成与编辑
5月14日晚,阿里巴巴正式推出了通义万相 Wan2.1-VACE,这是当前行业中功能最为全面的视频生成与编辑模型。 该模型的亮点在于它具备多种强大的能力,可以同时实现文生视频、图像参考视频生成、视频重绘、局部编辑、背景延展和时长延展等多项基础生成和编辑功能。 这一开创性的产品标志着视频制作的门槛进一步降低,使更多的创作者能够轻松上手。
OpenAI 升级 ChatGPT:正式引入GPT-4.1 代码能力超强
OpenAI宣布其最新AI模型GPT-4.1及GPT-4.1mini正式在ChatGPT平台上线,为全球用户带来更强大的编码能力和指令执行体验。 这一消息引发了AI领域的广泛关注,标志着ChatGPT在功能与性能上的又一次飞跃。 GPT-4.1:专为编码与高效任务打造OpenAI表示,GPT-4.1是一款高度优化的AI模型,特别在编码任务和指令遵循方面表现出色。
陶哲轩携AI再战数学!o4-mini秒怂弃赛,Claude 20分钟通关
3天后,陶哲轩YouTube视频二更来了。 上一次,他使用GitHub Copilot(基于GPT-4),成功在33分钟内完成一页非形式化证明。 这次,他尝试了一种更短、更概念化的证明版本,并测试Claude、o4-mini能否基于之前的非形式和形式证明,生成类似的形式化代码。
所有AI工具共享记忆!MCP协议杀疯了:100%本地运行,Cursor、Claude都能用
聊完就忘? 当下多数AI助手和开发工具各自独立运行,会话结束上下文即消失,严重影响了使用体验和效率。 OpenMemory MCP,一款可以解决AI工具记忆痛点,并且实现不同工具之间共享上下文信息的开源工具,他来了!
看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
在60个主流基准测试中拿下38项第一! 字节发布轻量级多模态推理模型Seed1.5-VL,仅用532M视觉编码器 200亿活跃参数就能与一众规模更大的顶尖模型掰手腕,还是能带图深度思考的那种。 相关技术报告也第一时间公开了。
代理式AI的五级式综合教程:从基础快速响应到全自主代码生成与执行
译者 | 核子可乐审校 | 重楼在本教程中,我们将讲解代理式架构的五个级别,从最简单的语言模型调用到完全自主的代码生成和执行系统。 本教程专为在Google Colab上无缝运行而设计。 从一个简单的“处理器”开始(仅回显模型输出),你将逐步构建路由逻辑、集成外部工具、编排多步骤工作流,并最终使模型能够规划、验证、优化并执行自己的Python代码。