AI在线 AI在线

模型

月之暗面 Kimi 长思考模型 API 正式发布

月之暗面科技有限公司宣布正式发布其最新的长思考模型API——kimi-thinking-preview。 这一模型具备多模态推理能力和通用推理能力,擅长深度推理,能够帮助用户解决复杂的代码问题、数学难题和工作中的挑战。 kimi-thinking-preview模型是目前最新的k系列思考模型,用户可以通过简单的API调用轻松使用。
5/6/2025 6:00:51 PM
AI在线

音乐界的sd?ACE-Step音乐生成模型发布,20秒打造4分钟完整歌曲

ACE-Step,一款由ACE Studio与StepFun联合开发的音乐生成“基础模型”,于近日正式亮相,被誉为“音乐界的Stable Diffusion”。 该模型以其惊人的生成速度和多样化功能引发行业热议,支持19种语言,可在短短20秒内生成一首长达4分钟的完整音乐作品,效率比主流模型快15倍以上。 核心功能亮点:从歌词到完整歌曲一气呵成ACE-Step以其强大的生成能力重新定义了AI音乐创作。
5/6/2025 5:00:41 PM
AI在线

大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%

你以为大模型已经能轻松“上网冲浪”了? 新基准测试集BrowseComp-ZH直接打脸主流AI。 BrowseComp-ZH是一项由港科大(广州)、北大、浙大、阿里、字节跳动、NIO等机构联合发布的新基准测试集,让20多个中外主流大模型集体“挂科”:GPT-4o在测试中准确率仅6.2%;多数国产/国际模型准确率跌破10%;即便是目前表现最好的OpenAI DeepResearch,也仅得42.9%。
5/6/2025 3:32:23 PM

AI无师自通,搞定所有家务!π0.5突破泛化极限,UC伯克利系出品

近年来,机器人取得了显著进展,能表演杂技、跳舞、听从指令,甚至完成叠衣服、擦桌子等复杂任务。 但机器人面临的最大挑战并非灵活性,而是泛化能力——在新环境中正确完成任务的能力。 想象一个你家中的清洁机器人:每个家庭布局不同,物品摆放各异,机器人必须在多个层面上实现泛化。
5/6/2025 3:31:55 PM
新智元

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。 复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。 并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。
5/6/2025 3:28:14 PM
机器之心

微软Phi-4模型震撼发布:轻量化性能炸裂

嘿,各位AI圈的同仁们! 最近AI界热议的话题可不少,但微软悄悄放出的这个“小”家伙,绝对值得咱们重点关注。 微软这次没有追逐那种动辄千亿参数的“巨无霸”,反其道而行之,推出了参数规模相对小巧的Phi-4系列推理模型。
5/6/2025 1:42:16 PM
墨风如雪

“请”和“谢谢”真有用?研究表明礼貌用语或能提升 AI 模型响应质量

与人工智能进行互动时,使用礼貌用语,例如“请”和“谢谢”,或许真的能带来更好的结果。 谷歌 DeepMind 的高级研究员 Murray Shanahan 近日表示,以礼貌的方式与语言模型交流,实际上可能提升其响应的质量。 图源备注:图片由AI生成,图片授权服务商MidjourneyShanahan 解释说,清晰且友好的措辞,特别是包含“请”和“谢谢”这样的礼貌性词语,可能会对模型的输出产生积极影响。
5/6/2025 10:01:20 AM
AI在线

​英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升

近日,英伟达在 Hugging Face 平台上推出了其最新的自动语音识别(ASR)模型 ——Parakeet-TDT-0.6B-V2。 这一新模型不仅在性能上有显著提升,还将开源理念与商业应用相结合,吸引了广泛关注。  超强转录能力Parakeet-TDT-0.6B-V2的最大亮点在于其出色的转录效率。
5/6/2025 10:01:12 AM
AI在线

315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」

知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」(指它并非难以复制)。 Thorsten Ball 在编程领域以其对系统编程和编程语言的深入研究而闻名,尤其擅长解释器、编译器和虚拟机等主题。 他撰写的《用 Go 语言自制编译器》和《用 Go 语言自制解释器》则被视为编译原理领域的「入门平替」。
5/6/2025 9:15:00 AM
机器之心

DeepSeek开源的文件系统,是如何提升大模型效率的?

在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。 2 月 28 日,DeepSeek 开源了一种高性能分布式文件系统 3FS,官方表示其目的是解决人工智能训练和推理工作负载的挑战。 作为一种并行文件系统,3FS 可以在 180 节点集群中实现 6.6 TiB/s 的聚合读取吞吐量,对于提高 DeepSeek V3、R1 大模型的训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索和 KVCache 查找等工作的效率有重要帮助。
5/6/2025 9:03:00 AM
机器之心

如何选择Embedding Model?关于嵌入模型的十个思考

在大模型应用中,尤其基于RAG框架的大模型应用,嵌入模型(embedding Model)是不可或缺的关键组件。 这里总结了笔者在实践中关于潜入模型的10个思考,希望对大家有所帮助。 嵌入模型在RAG中的重要性嵌入模型能够将文本转换成数值形式的向量,这让计算机可以更高效地处理、对比和检索信息。
5/6/2025 8:51:37 AM
曹洪伟

64页论文揭示AI模型排行榜黑幕:Llama4发布前私下测试27个版本,只取最佳成绩

近日,一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注,尤其是对大型语言模型(LLM)领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。 研究指出,排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。 论文显示,一些大型科技公司可以在公开发布之前对多个模型版本进行私下测试。
5/3/2025 11:00:48 AM
AI在线

AI基准测试平台LMArena陷争议:研究指责其偏袒OpenAI、谷歌和Meta

人工智能领域知名的公共基准测试平台LMArena近日遭遇信任危机。 一项新的研究指出,该平台的排名系统存在偏袒OpenAI、谷歌和Meta等大型供应商的结构性问题,其不透明的流程和头部企业的固有优势可能导致排名失真。 然而,LMArena运营团队已公开否认这些指控。
5/2/2025 10:01:05 AM
AI在线

研究称,流行的人工智能基准 LMArena 据称有利于大型供应商

Salesforce AI Research发布多项创新,旨在解决企业AI系统在强大智能与稳定执行力之间的差距,即“锯齿状智能”。 核心目标是构建更智能、可信、适用于企业应用的AI代理,并向“企业通用智能”(EGI)迈进。 研究重点在于量化和解决AI性能不一致性,推出了SIMPLE数据集作为公开基准。
5/2/2025 10:01:05 AM
AI在线

小身材,大智慧!微软Phi-4系列推理模型发布,性能直逼GPT-4o

微软正积极扩展其Phi系列紧凑型语言模型,最新发布了三款专为高级推理任务设计的新变体:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。 这些模型旨在通过结构化推理和内部反思处理复杂的问答,同时保持轻量级特性,使其能够在包括移动设备在内的低端硬件上高效运行,延续了微软Phi系列在资源受限设备上实现强大AI功能的愿景。 Phi-4-reasoning 拥有140亿个参数,并借鉴OpenAI o3-mini的推理路径,通过监督微调进行训练。
5/2/2025 10:01:05 AM
AI在线

​亚马逊推出 Nova Premier:最新一代 AI 模型的强大实力

近日,亚马逊发布了其 Nova 系列中最强大的 AI 模型 ——Nova Premier。 该模型能够处理文本、图像和视频(但不支持音频),并已在亚马逊的 AI 模型开发平台 Bedrock 上可用。 亚马逊表示,Nova Premier 在 “复杂任务” 方面表现出色,能够进行 “深度理解上下文、多步骤规划以及在多个工具和数据源之间精准执行”。
5/1/2025 11:00:41 AM
AI在线

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%

在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。 这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。 这一创新标志着阿里在多模态人工智能领域的进一步突破。
5/1/2025 10:00:51 AM
AI在线

DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破

中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。 这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。 根据社交媒体上的最新讨论,这一模型被认为是 DeepSeek 在数学领域的重要里程碑,或将推动全球 AI 研究与应用的进一步发展。
4/30/2025 6:00:51 PM
AI在线