理论
TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨
在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型优劣的关键指标。 OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的惊艳表现背后,测试时缩放(TTS)技术功不可没。 测试时缩放(TTS,Test-Time Scaling)是一种提升大语言模型推理能力的新兴策略,通过在测试阶段优化推理过程(如多数投票、蒙特卡洛树搜索等)提升大型语言模型(LLMs)的性能,而无需修改模型参数。
4/25/2025 9:12:00 AM
机器之心
UniToken:多模态AI的“全能选手”,一次编码搞定图文理解与图像生成!
首次在统一框架内实现理解与生成的“双优表现”,打破了多模态统一建模的僵局! 复旦大学和美团的研究者们提出了UniToken——一种创新的统一视觉编码方案,在一个框架内兼顾了图文理解与图像生成任务,并在多个权威评测中取得了领先的性能表现。 UniToken通过融合连续和离散视觉表征,有效缓解了以往方法中“任务干扰”和“表示割裂”的问题,为多模态统一建模提供了新的范式。
4/25/2025 9:10:00 AM
突发!OpenAI免费开放Deep research,超强AI Agent
今天凌晨4点30,OpenAI推出轻量级版本的Deep research功能提高当前的速率限制,以扩大Plus、Team和Pro用户的使用范围。 值得一提的是,从今天开始免费ChatGPT用户可以使用Deep research,并且支持最新的o4-mini模型。 下面「AIGC开放社区」就用免费版为大家展示一下Deep research的免费功能。
4/25/2025 9:09:00 AM
AIGC开放社区
从模型原理到代码实践,深入浅出上手 Transformer,叩开大模型世界的大门
作者 | Plus一、序言作为非算法同学,最近被Cursor、DeepSeek搞的有点焦虑,同时也非常好奇这里的原理,所以花了大量业余时间自学了Transformer并做了完整的工程实践。 希望自己心得和理解可以帮到大家~如有错漏,欢迎指出~本文都会以用Transformer做中英翻译的具体实例进行阐述。 二、从宏观逻辑看Transformer让我们先从宏观角度解释一下这个架构。
4/25/2025 9:00:00 AM
腾讯技术工程
微软重磅官宣:「AI智能体」同事连夜上线!预言25年人类同事成稀有物种
就在刚刚,微软宣布:AI同事真来了! CEO纳德拉亲自种草,激动表示:今天,对Microsoft 365 Copilot来说是个大日子。 Copilot的界面,已经完全AI化。
4/25/2025 8:55:00 AM
新智元
DeepResearch轻量版今日面向免费用户开放,实测一波,秒生成,太快了!
刚刚3个小时前,OpenAI推出轻量级版本的Deep research功能提高当前的速率限制,以扩大Plus、Team和Pro用户的使用范围。 值得一提的是,从今天开始免费ChatGPT用户可以使用DeepResearch,并且支持最新的o4-mini模型。 我这里实测了一下,中美两国人形机器人的市场现状和趋势分析,要求生成一份深度分析报告。
4/25/2025 8:44:04 AM
AI语音革命新纪元:Sesame模型让聊天AI“活”出表情包式情绪声线
译者 | 朱先忠审校 | 重楼Sesame使用一种名为残差向量量化的深度学习技术对语音进行编码最近,Sesame人工智能公司发布了他们最新的语音转语音(Speech-to-Speech)模型的演示。 这是一个非常擅长说话的对话式人工智能代理,它们能够提供相关的答案,并带有表情地说话,而且说实话,它们非常有趣,互动性很强。 请注意,有关这方面的系统的技术论文尚未发布,但他们确实发布了一篇简短的博客文章,并提供了有关他们使用的技术和他们所构建的先前算法的大量信息。
4/25/2025 8:19:05 AM
朱先忠
企业中最常用的十种GenAI工具
从AI聊天机器人和虚拟助手,到音频和视频生成器,这些都是当今最前沿的GenAI工具。 自OpenAI于2022年推出ChatGPT以来,GenAI已大规模进入企业领域。 根据Precedence Research的数据,2024年全球GenAI市场规模已超过250亿美元,并预计到2033年将达到惊人的8030亿美元。
4/25/2025 7:10:00 AM
Thor Olavsrud
CISO仍未遏制影子AI飙升的数据风险
GenAI带来了诸多益处,但同时也伴随着数据安全风险,这主要通过影子AI的使用和敏感信息的泄露来实现。 在企业中,这些风险正在加剧,因为员工经常使用私人GenAI账户来处理敏感数据。 根据Netskope的一项研究,尽管大多数企业(90%)都提供了官方批准的GenAI应用,甚至更多(98%)的企业为用户提供了包含AI功能的应用,但企业中未经授权的AI服务使用仍在激增。
4/25/2025 7:05:00 AM
John
机械臂+大模型+多模态:打造人机协作具身智能体
在人工智能快速发展的浪潮中,多模态大模型已成为技术前沿,使AI能够同时理解文本、图像、音频等多种信息。 这一突破为具身智能体开辟了新天地。 最近我在github中就找到了一个这样好玩的项目vlm_arm,其将机械臂与多模态大模型结合,打造一个能听人话、看图像、执行精准操作的人机协作智能体系统。
4/25/2025 2:30:00 AM
贝塔街的万事屋
基于MiniO存储的RAGFlow+Dify图片处理方案
上篇文章中介绍了如何基于 RAGFlow 知识库,通过 Dify 的 HTTP 请求获取映射 Code 节点替换,将占位符解析为最终的 img 标签,来稳定的实现问答中图片正常显示问题。 Dify RAGFLow:基于占位符的图片问答升级方案(最佳实践)其中的"占位符"和"实际图片访问 URL"映射关系的存储使用了阿里云的 OSS 存储服务。 初期选择阿里云 OSS 作为存储,主要是方便大家快速验证和迭代 RAG 应用的核心逻辑,避免过早陷入基础设施的维护细节。
4/25/2025 1:30:00 AM
韦东东
智能体的五大商业用例
AI的下一代已经到来,它具有自主性。 智能体与聊天机器人由相同的AI系统提供支持,但可以独立行动、协作以实现更大的目标,并接管整个业务流程,这项技术相对较新,但所有主要参与者都已经加入。 去年10月,微软宣布包括标准银行、路透社、Virgin Money和苏黎世保险在内的10万家组织正在使用Copilot .
4/25/2025 1:10:00 AM
Maria
DeepSeek在数据领域的30个应用场景
在这个数据AI的时代,DeepSeek作为新一代AI模型正在改变我们处理、分析和理解数据的方式。 本文为您揭秘DeepSeek在数据领域的30个颠覆性应用场景,带大家一窥AI如何重塑数据价值链。 一、数据获取与处理篇1.
4/25/2025 12:50:00 AM
大数据AI智能圈
揭秘大模型的魔法:训练你的tokenizer
大家好,我是写代码的中年人。 在这个人人谈论“Token量”、“百万上下文”、“按Token计费”的AI时代,“Tokenizer(分词器)”这个词频频出现在开发者和研究者的视野中。 它是连接自然语言与神经网络之间的一座桥梁,是大模型运行逻辑中至关重要的一环。
4/25/2025 12:20:00 AM
写代码的中年人
Windsurf全面降价!编程赛道的价格战要来了;被OpenAI收购尚未证实
编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)刚刚得到消息,AI编码助手初创公司 Windsurf周一宣布“全面”降价,称随着与竞争对手 Cursor 的竞争加剧,用户可以“大幅节省成本”。 Windsurf 表示,它将放弃其复杂的“流程操作积分”系统,该系统会向开发者收取其 AI 在后台执行的操作的费用。 此外,该公司还将team plans的价格从每位用户每月 35 美元降至 30 美元,同时其企业计划的价格也将“大幅降低”。
4/24/2025 6:40:17 PM
云昭
谷歌“Wi-Fi密码”式的最瘦大模型
Gemma 3 的“低门槛 AI”计划露面了,谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。 —Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码,其实却是谷歌迄今为止最精简的大模型是的,不再只属于高端服务器和土豪显卡,普通玩家的游戏卡,甚至手机,都能一试身手。 这波操作的核心是三个字:量化训练(Quantization-Aware Training, QAT)。
4/24/2025 2:13:00 PM
文摘菌
大模型向量去重的N种解决方案!
简单来说,“向量”Vector 是大模型(LLM)在搜索时使用的一种“技术手段”,通过向量比对,大模型能找出问题的相关答案,并且进行智能回答。 向量简介Vector 是向量或矢量的意思,向量是数学里的概念,而矢量是物理里的概念,但二者描述的是同一件事。 “定义:向量是用于表示具有大小和方向的量。
4/24/2025 11:09:13 AM
磊哥
刚刚,OpenAI最强图像生成API上线,一张图1毛5!
昨夜,OpenAI发布全新图像生成模型gpt-image-1,API向所有开发者开放。 这一次,他们直接把每张图的成本打到几美分。 图片对于低、中、高质量的方形图像,生成大约花费0.02美元、0.07美元、0.19美元。
4/24/2025 10:31:54 AM
资讯热榜
AI时代设计师如何突围?D20峰会揭示未来设计师生存法则
DeepRare 重磅发布:全球首个可循证智能体诊断系统,直击医学Last Exam难题
李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
MinerU 2.0部署教程!
考试提分新工具:网页版 ChatGPT 测试“学习和掌握”功能,AI 助你成学霸
我测试了100+案例,教你零基础复刻外网刷屏的 AI 视频(附提示词模板)
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
终结Coding?ShellAgent三句话造出马斯克同款「AI女友」!
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
Anthropic
英伟达
智能体
代码
算法
Stable Diffusion
训练
芯片
开发者
蛋白质
腾讯
生成式
苹果
LLM
神经网络
AI新词
Claude
3D
研究
生成
机器学习
AI for Science
xAI
计算
人形机器人
Agent
Sora
AI视频
GPU
百度
AI设计
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
神器推荐
亚马逊
视频生成
Copilot
DeepMind
模态
架构
LLaMA