资讯列表
OpenAI 与软银的百亿 AI “星际之门”计划进展缓慢,融资难题悬而未决
在人工智能领域,OpenAI 与软银共同推出的星际之门(Stargate)项目一度引起了广泛关注。 该项目计划投资高达1000亿美元,目标是建立全球领先的人工智能基础设施,并希望在未来将投资额提升至5000亿美元。 然而,随着时间的推移,融资进展的缓慢和市场环境的变化使得这一宏伟计划面临挑战。
常用模型蒸馏方法:这 N 个核心,你都知道吗?(上)
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活、健壮的模型技术体系。 随着深度学习模型规模的爆炸式增长,它们在各种任务上展现出令人惊叹的性能。 然而,庞大的参数量和计算需求也带来了新的挑战:如何在资源受限的设备上高效部署这些模型?
LLM 学习笔记:最好的学习方法是带着问题去寻找答案
作者:huaxing知其然,然后知其所以然。 本文主要是对学习赛博活佛Andrej Karpathy 7个小时教学视频的总结和拓展阅读笔记,推荐去看原视频,很精彩,链接在文末。 从最常用的聊天应用过程分析开始,引入对话过程原理浅析,再到LLM训练过程;再结合当前主流的应用形式,在得知最新用法的同时,加深对LLM的理解;再谈谈AI的最新重大进展MCP;以及作为JAVAer,在Java领域有哪些前沿能力去整合LLM。
月之暗面开源音频模型Kimi-Audio,从「语音转文字」到「读心对话」,让AI听懂人类 “弦外之音”!
近期,Kimi在语音交互领域发布了Kimi-Audio模型,这是一个开源音频基础模型,在音频理解、生成和对话方面表现出色。 AI让机器不仅 “听到” 声音,更能 “听懂” 语言背后的情感、意图和语境。 Kimi-Audio 的核心突破,在于构建了一个全流程端到端的实时语音对话系统。
200M参数吊打商业巨头!浙大-哈佛开源ICEdit,用1%资源实现图像编辑自由!一句指令生成海报级修图方案
浙江大学联合哈佛大学提出一种高效的基于指令的图像编辑框架ICEdit,与以往的方法相比,ICEdit仅需1%的可训练参数(200M)和0.1% 的训练数据(50k),就展现出强大的泛化能力,能够处理各种编辑任务。 相比 Gemini、GPT4o 等商业模型,我们更加开源,成本更低,速度更快(处理一幅图像大约需要 9 秒),性能强大。 使用ComfyUI-nunchaku,仅需 4 GB VRAM GPU 就足以尝试我们的模型!
OpenAI深夜开源HealthBench,60个国家合力开发5000段真实对话
今天凌晨1点30,OpenAI开源了一个专门面向医疗大模型的测试评估集——HealthBench。 与以往测试集不同的是,该测试集的5000段核心测试对话,全部由来自60个国家/地区的26个专业262名医生打造,极大增强了该测试集的难度、真实性以及丰富度。 并且采用了多轮对话测试,而不是简单的答题或选择题模式。
Sam Altman最新万字专访:2025,Agent智能体应用大年
今天凌晨3点,全球著名投资机构红杉资本(Sequoia Capital)发布了,Sam Altman参加其举办的“2025 AI Ascent”大会。 OpenAI联合创始人兼首席执行官SamA ltaman作为特邀嘉宾,接受了32分钟的专访和现场提问。 Altaman回顾了OpenAI的创业历程、产品规划/发展、对AI行业的看法等。
GPT-5研发内幕首曝!OpenAI首席研究官:AGI指日可待
GPT-5到哪一步了? 最近,GPT-4.1核心研究员Michelle Pokrass透露,构建GPT-5的挑战在于,在推理和聊天之间找到适当的平衡。 她表示,「o3会认真思考,但并不适合进行随意聊天。
知名女演员强烈要求 Meta 删除 AI 伪造广告,强调肖像权的重要性
近日,知名女演员杰米・李・柯蒂斯(Jamie Lee Curtis)在社交媒体上对 Meta 公司 CEO 马克・扎克伯格(Mark Zuckerberg)发出强烈呼吁,要求其立即删除一则使用 AI 深度伪造技术制作的虚假广告。 这则广告通过修改柯蒂斯接受 MSNBC 采访的视频片段,歪曲她的言论来推销一款未公开的产品。 柯蒂斯在声明中指出,她从未授权或同意这则广告的制作和发布,认为这种行为严重侵犯了她的肖像权和个人信誉。
合合信息推出 MCP 服务,助力大模型高效智能文档处理
在人工智能和大模型技术飞速发展的今天,如何高效调用外部工具已成为开发者们面临的新挑战。 不同大模型的调用结构和参数格式各不相同,导致开发者不得不为每种模型单独编写工具调用逻辑,进而影响了集成的效率。 为了解决这一难题,合合信息近日推出了文档处理领域首批 MCP(Model Context Protocol)服务,为企业和开发者提供了一个 “万能接口”。
ChatGPT神更新!Deep Research报告一键导出PDF,表格图像全保留,效率翻倍!
ChatGPT的Deep Research功能正式上线PDF导出功能,为用户提供更便捷的报告分享与存档体验()。 用户现可通过点击分享图标并选择“下载为PDF”,将研究报告导出为包含表格、图像、链接引文和来源的格式化文档。 这一功能不仅适用于新生成的研究报告,还支持历史报告的导出,显著提升了Deep Research的实用性与企业适用性。
苹果 iOS 19 将推出AI电池管理新功能
据彭博社的最新报道,苹果公司在即将推出的 iOS19更新中,将引入一项由人工智能驱动的电池管理功能,旨在帮助用户更有效地延长 iPhone 的电池寿命。 这一新功能将能够分析用户的使用习惯,并相应地优化设备设置,以减少电池的耗损。 iOS19中的电池管理选项将作为 Apple Intelligence 功能套件的一部分。
0.33秒生成1秒音频!Muyan-TTS 开源上线,播客、有声书场景完美适配
开源语音合成迎来新突破!近日发布的开源 TTS 模型 Muyan-TTS 专为播客、有声书、长视频等场景设计,具备零样本语音合成、极速生成与高连贯性朗读能力,是当前最适合批量化长语音生成的模型之一。 Muyan-TTS 基于超10万小时播客数据预训练,仅需 0.33秒即可生成1秒高质量音频,支持无需打断地朗读数分钟文本,语音自然流畅。 更支持说话人定制,任意声音克隆,一键生成具有个性化语气与节奏的语音内容。
Kimi与小红书联手,推出21天打卡挑战吸引用户
近日,人工智能公司 Kimi 宣布与社交电商平台小红书达成市场营销合作,双方共同推出了一项名为 “21天打卡挑战” 的活动,旨在鼓励用户深入体验 Kimi 的核心功能。 小红书作为一个以年轻用户为主的社交平台,这次合作为 Kimi 提供了提升品牌认知的良机。 然而,在行业竞争愈发激烈的背景下,Kimi 面临着越来越大的商业化压力。
Google Gemma AI 模型下载量突破 1.5 亿次
Google 近期宣布,其人工智能模型集合 Gemma 的下载量已经突破1.5亿次,标志着该项目取得了显著进展。 Google DeepMind 的开发者关系工程师 Omar Sanseviero 在社交平台 X 上分享了这一消息,并透露,目前在人工智能开发平台 Hugging Face 上,开发者们已经创造出了超过7万个不同版本的 Gemma 模型。 Gemma 于2024年2月正式发布,旨在与 Meta 的 Llama 等其他开放模型系列进行竞争。
谷歌启动人工智能初创企业基金
谷歌宣布推出一项新的投资基金,旨在支持人工智能领域的初创企业。 这一名为 “人工智能未来基金” 的项目,将为符合条件的初创公司提供多方面的支持,包括资金投资、提前体验谷歌最新人工智能模型的机会,以及来自谷歌团队的专业指导。 在发布的博客文章中,谷歌表示,这项基金不仅仅是财务上的支持,还包括使用谷歌云服务的积分。
ICML 2025 | 长视频理解新SOTA!蚂蚁&人大开源ViLAMP-7B,单卡可处理3小时视频
该工作第一作者为中国人民大学高瓴人工智能学院硕士生程传奇,目前于蚂蚁技术研究院实习,其主要研究领域为多模态大模型,蚂蚁技术研究院副研究员关健为共同第一作者。 在视觉语言模型(Vision-Language Models,VLMs)取得突破性进展的当下,长视频理解的挑战显得愈发重要。 以标准 24 帧率的标清视频为例,仅需数分钟即可产生逾百万的视觉 token,这已远超主流大语言模型 4K-128K 的上下文处理极限。
如何规划AI提示词搜索需要的内容
如何规划AI提示词搜索需要的内容开发者在规划AI提示词时,需要考虑多个因素以确保能够从AI工具中获得高质量、准确且符合预期的输出。 以下是一些关键步骤和策略,以及具体的例子来说明如何规划有效的AI提示词。 明确角色与任务首先,应当明确AI在对话中的角色以及它需要完成的任务。