模型
原因找到了!马斯克的Grok突然“失心疯”!不停发推“南非白种人灭绝”、“杀死布尔人”,官方回应来了:有员工擅自修改了系统提示词
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)昨天其实发生了一件很“荒唐 滑稽”的事情,小编忍住没有报道。 但忽然发现不对劲,得报。 事情是这样的:5月15日,Grok自己疯狂输出有关“南非白人种族”的暴论。
5/16/2025 1:01:15 PM
云昭
Windsurf重磅发布SWE-1系列!首款全流程软件工程AI模型,挑战Claude 3.5,提效99%!
Windsurf(原Codeium)正式发布其首款自主研发的AI模型家族——SWE-1系列,包括SWE-1、SWE-1-lite和SWE-1-mini。 这一系列模型不仅针对代码生成进行了优化,还首次聚焦整个软件工程生命周期,覆盖从编码、调试到终端操作和多工具协作的全流程。 AIbase综合最新信息,深入解析SWE-1系列的技术突破及其对AI开发生态的深远影响。
5/16/2025 12:00:55 PM
AI在线
DiffMoE:动态Token选择助力扩散模型性能飞跃,快手&清华团队打造视觉生成新标杆!
本文由清华大学和快手可灵团队共同完成。 第一作者是清华大学智能视觉实验室在读本科生史明磊。 在生成式 AI 领域,扩散模型(Diffusion Models)已成为图像生成任务的主流架构。
5/16/2025 11:03:48 AM
ChatGPT的记忆机制被公开了
ChatGPT新版记忆功能居然被民间大佬逆向工程了! 能引用历史记录,甚至还能悄悄藏个人资料? 最近OpenAI推出了一项名为聊天历史记录的额外记忆功能,允许ChatGPT引用历史对话以进行个性化交互。
5/16/2025 10:17:54 AM
超越OpenAI、拿下全球双料第一,“AI吴彦祖”背后大模型SOTA了!
超越OpenAI! 国产大模型突袭,AI语音生成天花板被重新定义了。 MiniMax最新发布Speech-02,同时拿下Artificial Analysis Speech Arena和Hugging Face TTS Arena两项全球权威语音基准测评第一!
5/16/2025 10:15:06 AM
Llamafile 0.9.3震撼支持Qwen3!单文件运行大模型,跨平台便携性炸裂,AI推理更简单!
近日,Mozilla旗下开源项目Llamafile发布0.9.3版本,正式宣布支持Qwen3系列大语言模型。 这一更新通过融合llama.cpp与Cosmopolitan Libc,将复杂的大模型推理过程浓缩为一个可执行文件,极大提升了跨平台便携性和部署效率。 AIbase深入解读这一突破性进展,探索Llamafile如何为AI开发者与用户带来全新体验。
5/16/2025 10:01:05 AM
AI在线
Meta 发布巨型 AI 化学数据集 OMol25及通用模型 UMA
Meta 近日重磅发布了其迄今为止规模最大的 AI 驱动化学开放数据集 OMol25,并同步推出了用于预测分子和材料化学性质的通用人工智能模型 UMA(Universal Atom Model)。 这两项创新成果旨在加速药物研发、电池材料开发和催化剂研究等关键领域。 据 Meta 介绍,OMol25数据集包含了超过1亿次高精度的分子计算数据,其规模远超此前任何公开的同类数据集。
5/16/2025 10:01:05 AM
AI在线
超越OpenAI、ElevenLabs,MiniMax新一代语音模型屠榜!人格化语音时代来了
国产大模型进步的速度早已大大超出了人们的预期。 年初 DeepSeek-R1 爆火,以超低的成本实现了部分超越 OpenAI o1 的表现,一定程度上让人不再过度「迷信」国外大模型。 如今,在语音 AI 领域,国产大模型第一梯队的重量级选手 MiniMax 又抛下了一颗「重磅炸弹」。
5/16/2025 9:12:00 AM
阿里开源全能视频模型!生成编辑都精通,1.3B版本消费级显卡可跑
业界功能最全、消费级显卡可跑、而且还是开源的? 不卖关子了,这就是阿里最新开源的通义万相Wan2.1-VACE,号称当前业界功能最全的视频生成与编辑模型。 有多全呢?
5/16/2025 9:08:00 AM
个人开发者训400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署
打破科技巨头算力垄断,个人开发者联手也能训练超大规模AI模型? Nous Research宣布推出Psyche Network,可以将全球算力整合起来训练强大的人工智能。 Psyche是一个基于Deepseek的V3 MLA架构的去中心化训练网络,测试网首次启动时直接对40B参数LLM进行预训练,可以在单个H/DGX上训练,并在3090 GPU上运行。
5/16/2025 9:06:00 AM
梁文锋署名DeepSeek新论文:公开V3大模型降本方法
梁文锋亲自参与的DeepSeek最新论文,来了! 这一次,团队把DeepSeek-V3在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。 具体而言,DeepSeek-V3之所以可以只用2048块H800,就能达到超大规模集群(如数万块GPU)相当的训练效果,核心在于四项创新技术:内存优化多头潜在注意力(MLA)计算优化混合专家模型(MoE)与FP8低精度训练通信优化多层网络拓扑与低延迟设计推理加速多token预测(MTP)那么这四项优化具体又是如何起到作用的,我们继续往下看。
5/16/2025 9:02:00 AM
DeepSeek-V3 发布新论文,揭示低成本大模型训练的奥秘
近日,DeepSeek 团队发布了关于其最新模型 DeepSeek-V3的一篇技术论文,重点讨论了在大规模人工智能模型训练中遇到的 “扩展挑战” 以及与硬件架构相关的思考。 这篇长达14页的论文不仅总结了 DeepSeek 在开发 V3过程中的经验与教训,还为未来的硬件设计提供了深刻的见解。 值得注意的是,DeepSeek 的 CEO 梁文锋也参与了论文的撰写。
5/16/2025 9:00:55 AM
AI在线
Meta 推迟 Behemoth 发布引发内部担忧,股价一度下跌超3%
据最新报道,Meta Platforms 计划推迟其旗舰 AI 模型 Behemoth 的发布。 原定于今年4月发布的 Behemoth,先是被推迟至6月,如今又预计将延迟到2025年秋季甚至更晚。 这一变动引发了公司内部对于 Meta 在 AI 领域数十亿美元投资方向的担忧。
5/16/2025 9:00:55 AM
AI在线
DeepSeek发布最新论文,5大杀手锏让大模型训练、推理暴涨
昨天,全球著名开源大模型平台DeepSeek在huggingface发布了,超强开源模型V3的论文。 主要从硬件架构和模型设计的双视角探讨如何在不牺牲性能的前提下实现更高效的大规模训练和推理以突破硬件瓶颈。 其中,DeepSeek-MoE和多头潜在注意力、FP8混合精度训练以及多标记预测等成为关键创新技术。
5/16/2025 8:58:09 AM
ICML 2025 | 大模型深度思考新范式:交替「推理-擦除」解决所有可计算问题
作者介绍:本文第一作者是丰田工业大学芝加哥 PhD 学生杨晨晓,研究兴趣是机器学习理论和大模型推理,在 ICML,NeurIPS,ICLR 等顶级会议上发表过论文。 本文提出一个交替「推理 - 擦除」的深度思考新范式 PENCIL,比传统 CoT 更高效地解决更复杂的推理任务。 理论上,我们证明 PENCIL 可用最优空间与最优时间下解决所有可计算问题,而这对于传统的 CoT 是不可能的!
5/16/2025 8:44:01 AM
最新总结,不同抽取任务哪个模型最能打
图片在人工智能的浪潮中,多模态大模型(VLM)正以前所未有的速度改变着我们的世界。 从自然语言处理(NLP)到计算机视觉(CV),从大型语言模型(LLM)到检索增强生成(RAG)和智能体(Agent),AI的边界不断被拓展。 而今天,我们将聚焦于一个关键领域——文档结构化抽取,看看12种顶尖的VLM多模态大模型,谁才是真正的强者!
5/16/2025 1:10:00 AM
哎呀AIYA
Poe 报告:可灵大模型视频生成量约占30%份额 领先Runway
近日,全球知名的大模型整合应用平台 Poe 发布了2025年春季 AI 模型使用趋势报告。 报告显示,在文生视频领域,中国的快手可灵多款视频生成模型迅速崛起,已占据了约30% 的市场份额,领先于 Runway 和谷歌的 Veo2。 图源备注:图片由AI生成,图片授权服务商Midjourney特别值得一提的是,可灵2.0模型自今年4月推出以来,仅仅在三周内就取得了21% 的使用比例,展现出其强大的市场吸引力和应用能力。
5/15/2025 3:00:45 PM
AI在线
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
DeepSeek
AI绘画
模型
数据
机器人
谷歌
大模型
Midjourney
智能
用户
开源
微软
学习
GPT
Meta
图像
AI创作
技术
Gemini
论文
马斯克
Stable Diffusion
算法
芯片
代码
生成式
蛋白质
英伟达
腾讯
神经网络
研究
Anthropic
开发者
3D
计算
Sora
机器学习
AI设计
AI for Science
GPU
AI视频
苹果
场景
华为
百度
人形机器人
预测
搜索
Claude
伟达
训练
深度学习
生成
xAI
Transformer
大语言模型
字节跳动
模态
具身智能
文本
驾驶
智能体
神器推荐
Copilot
LLaMA
视觉
算力
安全
应用
视频生成
干货合集
API
大型语言模型
亚马逊
科技