模型
腾讯开源混元Image 2.1:2K高清+完美文字嵌入,图文天花板来了
今天凌晨,腾讯开源最新图像模型混元Image 2.1。 混元Image 2.1支持原生2K分辨率图像和1000 token的超长篇复杂提示词,并且在文本语义理解和文字嵌入方面非常强几乎完美,能将中英文无缝写入到图像中,很适用于产品封面、插画、海报设计等专业场景此外,腾讯还开源了基于MeanFlow的加速版模型权重,该版本可将推理步数从100步大幅缩减至仅8步,以及业内首个工业级提示词改写模型 PromptEnhancer,能对提示词进行优化,帮助用户生成更细腻、富有表现力的图像。 开源地址: 2.1Github: 2.1?tab=readme-ov-file在线体验: 2.1案例目前,混元Image 2.1已经可以使用,下面给大家展示一下它的生成效果。
9/10/2025 9:35:14 AM
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
“闭源人工智能在阻碍我们探索真正的科学。 ”说这句话的不是别人,是大名鼎鼎的Transformer发明者——Ashish Vaswani。 大佬之所以这么说,是因为他觉得OpenAI等闭源厂商被商业化冲昏了头脑,没心思做基础研究。
9/10/2025 9:08:00 AM
人类秒懂,AI崩溃:一个简单测试,就让GPT-5、Gemini等顶级模型集体“翻车”
人类一眼就能看懂的文字,AI居然全军覆没。 来自A*STAR、NUS、NTU、清华、南开等机构的研究团队,最近有个新发现:不管是OpenAI的GPT-5、GPT-4o,还是谷歌Gemini、Anthropic Claude,甚至国内的Qwen、LLaVA,在面对一些“看得见但读不懂”的文字时,全都表现极差,直接“翻车”。 先切再叠,AI束手无策VYU团队设计了两个小实验:1、选取了100条四字成语,把每个汉字横切、竖切、斜切,再把碎片重新拼接。
9/10/2025 8:31:00 AM
麻省理工AI放王炸!无需说话、秒懂你的想法,外挂AI大脑来了
今天凌晨2点,麻省理工学院分享了一项新的突破性研究Alterego。 AlterEgo是一款非侵入式可穿戴无声语音交互AI设备,其核心是通过捕捉神经肌肉信号实现无声沟通。 当用户内心发声时,例如,你在想下班后会去哪里吃饭,大脑会向发声系统发送神经信号,引发相关肌肉产生微弱肌电信号,而Alterego就会捕捉这些信号。
9/9/2025 3:27:20 PM
再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
在youtube Shorts相机里,每个人都能「千变万化」。 可以是卡通角色、万圣节僵尸,甚至能立刻拥有粉色水光肌,效果自然又流畅。 最神奇的是,这些特效是直接在手机上实时生成的。
9/9/2025 3:23:37 PM
小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%
Meta超级实验室「Meta Superintelligence Labs,MSL」发了新论文! 如果你不断让大语言模型回答「把它改进一下」,会发生什么? 上周,MSL的三位成员上传了一篇ArXiv论文,探索了如何利用强化学习(RL)高效地微调大语言模型。
9/9/2025 3:21:58 PM
GPT-5爆改时尚圈,让Excel原地复活!OpenAI黑客松大奖出炉
OpenAI刚发布GPT-5,便在旧金山举办了GPT-5黑客马拉松挑战赛。 这场比赛选择在周末,从8月9日上午10点开始,到8月9日下午5点结束。 OpenAI邀请了500多位黑客来到旧金山,挑战GPT-5的极限,共有95支队伍参赛,角逐5万美元奖金。
9/9/2025 9:16:00 AM
OpenAI内部大重组!模型行为团队并入Post Training,负责人另起炉灶
OpenAI又要成立新团队了! TechCrunch消息,OpenAI正在对其模型行为(Model behavior)团队进行重组。 模型行为团队,就是OpenAI内部专门塑造模型“个性”的核心研究小组。
9/8/2025 3:13:52 PM
开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜
继π0后,具身智能基座模型在中国也终于迎来了真正的开源——刚刚,WALL-OSS宣布正式开源! 在多项指标中,它还超越了π0。 如果你是搞具身的开发者,了解它的基本资料,你就一定不会想错过它:它是一个通用基础具身模型,泛化性和推理能力一流,你可以在自有本体上部署,快速微调后用起来。
9/8/2025 3:09:59 PM
陶哲轩都惊了!o3首战「AI奥数」碾压夺冠,开源军团仅差5分狂追OpenAI
「AI奥数」第二届大赛,英伟达团队(NemoSkills)曾夺下第一! 这一次,AIMO2组委会再次重启赛题,OpenAI o3首次参赛,就拿下了最亮眼的成绩。 陶哲轩激动表示,过去,这个比赛仅限于开源模型,计算资源也卡得比较紧。
9/8/2025 9:15:00 AM
苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
就在刚刚,苹果在Hugging Face上重磅开闸:这一次不是零碎更新,而是FastVLM与MobileCLIP2两条多模态主线集中亮相。 一个主打「快」,把首字延迟压到竞品的1/85;另一个突出「轻」,在保持与SigLIP相当精度的同时,体积减半。 打开摄像头实时字幕、离线识别翻译、相册语义搜索,这些场景都能体验。
9/8/2025 9:14:00 AM
幸好图灵不是一位好棋手
咱就是说,还好祖师爷图灵不是一位国际象棋大师! 不然整个世界的AI发展脉络以及技术进展速度,可能和现在完全不一样……看到这儿有的人可能犯嘀咕:不是,为啥这么说啊? ?
9/8/2025 9:04:00 AM
大模型破译甲骨文创下新SOTA!复旦团队推出新框架
让大模型破译从未见过的甲骨文,准确率拿下新SOTA! 来自复旦大学的研究人员提出了一种基于部首和象形分析的可解释甲骨文破译框架——不仅在公开基准数据集HUST-OBC和EV-OBC上,达到最先进的Top-10识别准确率以及优异的零样本破译能力。 而且面对未破译甲骨文,所提方法也能够输出可解释性的分析文本,从而为考古破译工作提供潜在帮助。
9/8/2025 9:02:00 AM
设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
建筑平面图是AEC(建筑、工程、施工)领域的核心 「语言」,贯穿设计思想草绘、方案交流与落地执行全流程。 而住宅作为人们日常生活的基本空间载体,其平面图更是在建筑设计早期发挥着核心作用。 然而,传统平面图设计流程高度依赖建筑师个人经验,存在效率低、反馈慢、缺乏智能辅助等问题。
9/8/2025 8:54:00 AM
谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
GPT-5 Pro再次得到了AI大佬的认可。 今天,Karpathy一早激动发文,「必须再吹一波OpenAI的GPT-5 Pro,真的太强了」! 这究竟是肿么回事儿?
9/8/2025 8:53:00 AM
调整训练数据出场顺序,大模型就能变聪明!无需扩大模型/数据规模
模型训练重点在于数据的数量与质量? 其实还有一个关键因素——数据的出场顺序。 对此,微软亚洲研究院提出了一种全新的文本数据组织范式DELT(Data Efficacy in LM Training),通过引入数据排序策略,充分挖掘训练数据潜力,在不同模型尺寸与规模下都达到了良好性能。
9/8/2025 8:50:00 AM
字节发了个机器人全能大模型,带队人李航
机器人终于不用散装大脑了! 字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。 经常做机器人的朋友都知道,以前想让机器人干活,得先解决一个烦人的问题——模块之间的信息代沟。
9/8/2025 8:45:00 AM
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
总参数达到1万亿,阿里迄今为止最大的模型来了! 没错,就是前几日大家期待已久的Qwen3-Max-Preview (Instruct)。 1万亿啥概念?
9/8/2025 8:40:00 AM
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
Anthropic
图像
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
具身智能
AI视频
人形机器人
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
生成式AI
深度学习
DeepMind
架构
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
MCP
预测