preview

TeleAI “复杂推理大模型” 达竞赛级数学表现，评分超 o1-preview

TeleAI “复杂推理大模型” 达竞赛级数学表现，评分超 o1-preview

近日，中国电信人工智能研究院（TeleAI）“复杂推理大模型” TeleAI-t1-preview 正式发布，即将上线天翼 AI 开放平台。 TeleAI-t1-preview 使用了强化学习训练方法，通过引入探索、反思等思考范式，大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。早在 1500 多年前，数学家祖冲之就曾在《辩戴法兴难新历》中指出，复杂事物的运行规律并非超自然现象，而是可以通过实际观测、数据推理而严谨求得。

1/26/2025 9:41:00 AM 新闻助手

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

o1-preview 终于赢过了 mini 一次！亚利桑那州立大学的最新研究表明，o1-preview 在规划任务上，表现显著优于 o1-mini。相比于传统模型的优势更是碾压级别，在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。要知道之前，OpenAI 自己人也发了一张图，显示 preview 论性能比不过满血版，论经济性又不如 mini，处于一个十分尴尬的地位。作者在推文中表示，尽管存在可保证性和成本问题，但仅针对 CoT 而言，o1 已经超越了大模型的“近似检索”性质，提升到了“近似推理”

9/28/2024 3:09:17 PM 清源

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜：数学能力碾压 Claude 和谷歌 Gemini 模型，o1-mini 并列第一

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜：数学能力碾压 Claude 和谷歌 Gemini 模型，o1-mini 并列第一

o1 模型发布 1 周，lmsys 的 6k 投票就将 o1-preview 送上了排行榜榜首。同时，为了满足大家对模型「IOI 金牌水平」的好奇心，OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1，终于迎来了 lmsys 竞技场的测评结果。不出意外，o1-preview 在各种领域绝对登顶，超过了最新版的 GPT-4o，在数学、困难提示和编码领域表现出色；而 o1-mini 虽然名字中自带「mini」，但也和最新版的 GPT-4o 并列综合排名第二，困难提示、编码、数学

9/20/2024 1:29:05 PM 问舟

OpenAI 再成“榜一大哥”：o1-preview AI 模型更轻松驾驭数学、编程等任务

OpenAI 再成“榜一大哥”：o1-preview AI 模型更轻松驾驭数学、编程等任务

科技媒体 The Decoder 昨日（9 月 19 日）发布博文，报道称在聊天机器人竞技场（Chatbot Arena）上，OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台，它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。结果结果显示，o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。Lmsys 提供的数学模型优势图表清楚地显示，o1-preview 和 o1

9/20/2024 10:29:14 AM 故渊

o1 模型完整思维链成 OpenAI 头号禁忌，问多了等着封号吧

o1 模型完整思维链成 OpenAI 头号禁忌，问多了等着封号吧

警告！不要在 ChatGPT 里问最新 o1 模型是怎么思考的 ——只要尝试几次，OpenAI 就会发邮件威胁撤销你的使用资格。请停止此活动，确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。大模型新范式 o1 横空出世不到 24 小时，就已经有不少用户反馈收到这封警告邮件，引起众人不满。有人反馈只要提示词里带“reasoning trace”、“show your chain of thought”等关键词就会收到警告。甚至完全避免出现关键词，使用其他手

9/14/2024 12:50:33 PM 汪淼

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉