理论
Qwen3来了!新一代高性能与混合推理能力兼备的大语言模型!
阿里云正式发布通义千问Qwen3系列大模型,这一里程碑式更新在性能、训练规模和推理能力等多个维度实现重大突破。 作为国产大模型的领军者,Qwen3不仅以2350亿参数的MoE架构刷新性能记录,更通过创新的"混合思考模式"和360万亿token的超大规模训练,成为当前性能领先的开源大语言模型。 1、Qwen3的性能表现Qwen3系列包含多个版本,涵盖MoE混合专家模型和Dense稠密模型。
4/30/2025 10:59:04 AM
AI包办79%代码,程序员饭碗不保!前端开发要凉,人类只配改Bug?
就在昨天,Anthropic再次更新了他们的人类经济指数报告。 这次他们把研究重点放到了编码上。 在分析了50万份有关编码的用户对话后,他们总结出了一些趋势。
4/30/2025 9:52:42 AM
新智元
零基础十分钟学会 MCP,AI 从此听你指挥!
是否好奇过,为什么有些人能让 AI 助手读取电脑文件、查询实时天气,甚至控制其他软件? 今天,这扇通往 AI 无限可能的大门将为你敞开! 我将用最通俗易懂的语言,手把手教你如何通过 MCP 这个"魔法接口",让你的 AI 助手——无论是 Claude、ChatWise 还是 Cherry Studio——从一个"只会聊天"的助手,变身为能够操作你电脑文件的"全能管家"。
4/30/2025 9:37:07 AM
林月半子聊AI
细思极恐,AI操控舆论达人类6倍!卧底4月无人识破,Reddit集体沦陷
一项惊人的实验揭秘:AI超强说服力,已达人类的6倍! 当你在论坛上激烈争辩,对方逻辑缜密、情感真挚,句句击中内心——但你不知道的是,这根本不是人类,而是一个AI机器人。 最近,苏黎世大学在Reddit热门辩论子版块r/changemyview(CMV)秘密进行的实验,震惊了全球。
4/30/2025 9:20:00 AM
新智元
DeepSeek定制训练:微调与推理技术应用
一. 前言介绍本文内容:模型加载与预处理:详细讲解如何加载预训练模型、分词器,并处理输入数据集。 LoRA配置:介绍如何使用LoRA技术配置模型,并高效进行微调,节省计算资源。
4/30/2025 9:19:32 AM
微软1bit LLM新研究:原生4bit激活值量化,可充分利用新一代GPU对4bit计算的原生支持
微软又有“1 bit LLM”新成果了——发布BitNet v2框架,为1 bit LLM实现了原生4 bit激活值量化,由此可充分利用新一代GPU(如GB200)对4 bit计算的原生支持能力。 同时减少内存带宽&提升计算效率。 之前,微软持续研究BitNet b1.58,把LLM的权重量化到1.58-bit,显著降低延迟、内存占用等推理成本。
4/30/2025 9:16:00 AM
量子位
炸裂登场!Qwen3:等了这一个月,开源AI新王带着“思考引擎”杀来了!
全世界的AI圈子,似乎都在屏息等待。 从各种小道消息到官方偶尔泄露的只言片语,过去这一个月,大家都在猜测阿里通义千问的下一代大模型——Qwen3,到底会带来怎样的惊喜。 今天,靴子终于落地!
4/30/2025 9:11:15 AM
墨风如雪
不要思考过程,推理模型能力能够更强丨UC伯克利等最新研究
其实……不用大段大段思考,推理模型也能有效推理! 是不是有点反常识? 因为大家的一贯印象里,推理模型之所以能力强大、能给出准确的有效答案,靠的就是长篇累牍的推理过程。
4/30/2025 9:09:00 AM
量子位
AI知识库的真相,你知道吗?
很多人对AI知识库的想象是这样的,他们以为只需将所有资料一股脑地拖进AI客户端,比如 Cherry Studio 内。 图片这样,AI就会认真阅读所有内容,并自动生成完美结论。 然而,实际体验后,许多人发现AI知识库的效果远没有想象中理想,经常遇到各种奇怪的问题。
4/30/2025 9:06:23 AM
程序员NEO
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
本文由华东师范大学和小红书联合完成,共同第一作者是华东师范大学在读硕士、小红书 NLP 团队实习生黄文轩和翟子杰,通讯作者是小红书 NLP 团队负责人曹绍升,以及华东师范大学林绍辉研究员。 多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。 然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。
4/30/2025 9:00:00 AM
机器之心
AI杀手级应用有苗头了,自主使用操作系统Agent智能体,开源!
最近微软开源了一个 Agent 叫 UFO,通过自然语言指令实现 Windows 操作系统上的自动化任务操作。 图片之前我们分享的 Agent 大多是自主使用浏览器,而 UFO 更进了一步,可以使用操作系统中的各种APP帮你完成任务。 下面是 UFO 的架构图UFO² architecture可以看到,它是一个多Agent系统,中间的 HostAgent 用来解析用户的自然语言,启动必要的应用程序。
4/30/2025 8:57:55 AM
渡码
OpenAI玩崩了!GPT-4o更新后变马屁精差评如潮,奥特曼:一周才能完全修复
GPT-4o更新后,有点失控了。 现在简简单单地问一句“天为什么是蓝的? ”,得到的都不是答案,而是先来一句花式夸夸:你这问题真是太有见地了——你有个美丽的心灵,我爱你。
4/30/2025 8:42:00 AM
量子位
谷歌推出 AI 语言练习工具:支持拍照识词、对话练地道口语
IT之家 4 月 30 日消息,谷歌今日宣布推出三项全新 AI 实验功能,旨在通过更个性化的方式帮助用户学习外语。 第一项实验能帮助用户快速掌握当前场景所需的表达,第二项则鼓励用户放下教科书式语言,用更地道、口语化的方式交流。 第三项实验则利用手机摄像头,让用户借助现实场景学习词汇。
4/30/2025 8:08:23 AM
清源
Google 的 A2A 与 MCP 该如何选择?还是两种都用?
1.引言:协作式人工智能的曙光想想你是如何与同事合作完成那些复杂项目的 —— 你们互相分享信息、提出问题,并整合彼此的专业知识。 现在,请想象这些 AI Agent 也能做同样的事情,它们不再各自为战,而是通过协同工作来解决问题。 这正是 Google 于 2025 年 4 月 9 日发布的 Agent-to-Agent(A2A)协议[1]所追求的目标。
4/30/2025 4:00:00 AM
Baihai IDP
开源的轻量化VLM-SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling
缩小视觉编码器的尺寸,能够有效的降低多模态大模型的参数量。 再来看一个整体的工作,从视觉侧和语言模型侧综合考量模型参数量的平衡模式,进一步降低参数量,甚至最小达256M参数量,推理时显存占用1GB。 下面来看看,仅供参考。
4/30/2025 3:20:00 AM
于俊晖
国内首个「混合推理模型」Qwen3开源,盘点它的N种对接方式!
今日凌晨,通义千问团队正式开源了 Qwen3 大模型,并且一口气发布了 8 个型号,其中包括 0.6B、1.7B、4B、8B、14B、32B 以及 30B-A3B 和 235B-A22B,使用者可以根据自己的业务情况,选择合适的版本进行使用。 更让人惊喜的是,最新的 Qwen3 系列模型具备双模推理能力(深入思考/快速响应)、支持 119 种语言及方言,并强化了 Agent 功能与代码执行能力,全面满足复杂问题处理与全球化应用需求。 “PS:Qwen3 也是国内首个「混合推理模型」,「快思考」与「慢思考」集成进同一个模型,对简单需求可低算力「秒回」答案,对复杂问题可多步骤「深度思考」,大大节省算力消耗。
4/30/2025 2:00:00 AM
磊哥
数据科学家必备:从回归到CNN,简明概述常见机器学习模型
机器学习是现代人工智能的核心,支撑着从推荐系统到自动驾驶汽车等各类应用。 但每一个智能应用背后,都离不开那些奠定基础的模型。 本文将为你简明而全面地梳理关键的机器学习模型,帮助你系统掌握核心概念与应用。
4/30/2025 1:40:00 AM
新叔
赶在Deepseek-r2之前,阿里发布全球最强开源模型Qwen3,4张H20即可部署满血版
最近几天,开源大模型是异常活跃。 从前几天有爆料deepseek-r2即将发布的消息:图片到昨天Qwen3短暂发布又撤回:图片再到今天Qwen3正式发布。 感觉就像一场军备竞赛,阿里这次终于抢在了deepseek-r2发布之前发布了Qwen3!
4/30/2025 1:10:00 AM
DD
资讯热榜
AI时代设计师如何突围?D20峰会揭示未来设计师生存法则
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
DeepRare 重磅发布:全球首个可循证智能体诊断系统,直击医学Last Exam难题
考试提分新工具:网页版 ChatGPT 测试“学习和掌握”功能,AI 助你成学霸
我测试了100+案例,教你零基础复刻外网刷屏的 AI 视频(附提示词模板)
MinerU 2.0部署教程!
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
终结Coding?ShellAgent三句话造出马斯克同款「AI女友」!
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
英伟达
Anthropic
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Agent
Sora
AI视频
GPU
百度
AI设计
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
神器推荐
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA