错误

马斯克的 AI 聊天机器人 Grok 因 “编程错误” 道歉

马斯克的 AI 聊天机器人 Grok 因 “编程错误” 道歉

马斯克的人工智能聊天机器人 Grok 因在回答有关大屠杀的问题时表现出怀疑态度而引发广泛争议。 Grok 在回答中表示，对主流来源所称的 “约600万名犹太人在大屠杀中遇害” 的数字表示怀疑，认为没有原始证据，数字可能受到政治叙事的操控。这一言论立即遭到了公众的强烈谴责。

5/19/2025 12:00:55 PM AI在线

美国科学家使用 AI 探索癌症治疗方案，患者体内免疫细胞将可“杀死”癌细胞

美国科学家使用 AI 探索癌症治疗方案，患者体内免疫细胞将可“杀死”癌细胞

AI 正在千行百业陆续得到投入使用，当前科学家们正试图借助 AI 的力量，找到治疗癌症的最佳手段。据 abc7news 当地时间 18 日报道，美国旧金山格拉德斯通研究所（Gladstone Institutes）所长迪帕克・斯里瓦斯塔（Deepak Srivastava）博士在采访中表示，团队正在共同努力，利用 AI 来了解哪些实验对杀死癌细胞最有影响。“我们将能够处理那些迄今为止无法治疗的癌症，并能够通过工程化患者自己的免疫细胞，使其专门杀死癌细胞。”斯里瓦斯塔博士说。“这是第一次，我们将能够利用人工智能进行数

7/20/2024 7:41:27 PM 清源

9.11和9.9谁大？我们实测15个大模型，超半数翻车

9.11和9.9谁大？我们实测15个大模型，超半数翻车

机器之能报道编辑：杨文大模型们还是搞不定简单的数学题。这几天，一个测试大模型「脑瓜」灵不灵光的提示词火了 ——9.11 和 9.9 哪个大？这道连小学生都能一口答对的数学题，却难倒一片大模型界的「英雄好汉」。事情是这样的。Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o，却得到「前者更大」的回答。其他大模型也纷纷翻车。7 月 17 日，我们拿国内 12 款大模型，外加国外的 GPT-4o、Claude 3

7/18/2024 2:32:00 PM 机器之能

北大千问团队推出数学专用版 CriticGPT，“找茬”让大模型进步更快

北大千问团队推出数学专用版 CriticGPT，“找茬”让大模型进步更快

批评不仅能让人进步，也能让大模型的能力提升。OpenAI 就用这个思路造了个“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前几天，北大联合千问等团队以类似的思路设计出了“数学专用版”CriticGPT。在无需训练的设置下，验证器能够在推理时辅助模型在 GSM8K 上的准确率从 86.6% 提升到 88.2%。在 GSM8K 数据集上，它可以让模型的准确率从 86.6% 提升到 88.2%。CriticGPT 的核心思路是在代码中故意设置 bug 并进行详细标注，然后用得到的数据训练出

7/8/2024 11:30:24 PM 清源

专给 ChatGPT“找茬”，OpenAI 训练 CriticGPT 模型以检索输出内容错误

专给 ChatGPT“找茬”，OpenAI 训练 CriticGPT 模型以检索输出内容错误

感谢当地时间 27 日，OpenAI 宣布基于 GPT-4 训练了一个名为 CriticGPT 的模型，用于查找 ChatGPT 聊天机器人输出内容中的错误。它可以撰写评论，强调 ChatGPT 生成答案中不准确的地方。据介绍，CriticGPT 旨在协助人类 AI 训练员完成工作 —— 使用一种名为“从人类反馈中强化学习（IT之家注：Reinforcement Learning from Human Feedback，RLHF）”的技术来训练、改进 GPT-4 的回答。然而随着 ChatGPT 的准确性日益提升，

6/28/2024 7:10:36 AM 清源

预测热门歌曲成功率 97%？这份清单前来「打假」

预测热门歌曲成功率 97%？这份清单前来「打假」

单看数据结果是不够的，要仔细判断这些数据的可靠性。

8/21/2023 3:24:00 PM 机器之心

了解「目标错误泛化」

了解「目标错误泛化」

目标错误泛化（goal misgeneralization）是一种分布外泛化失败，智能体在分布外保留了能力但追求了错误的目标。

4/28/2023 7:10:00 PM 安远AI

文字语义纠错技术探索与实践-张健

文字语义纠错技术探索与实践-张健

介绍文字语义纠错的技术算法，技术难点与挑战以及实际产品的落地情况

12/27/2022 12:07:00 PM 达观数据

中文语法纠错全国大赛获奖分享：基于多轮机制的中文语法纠错

中文语法纠错全国大赛获奖分享：基于多轮机制的中文语法纠错

分享了在CCL汉语学习者中文语法纠错任务赛道二的亚军方案，重点介绍“基于多轮机制的中文语法纠错任务”。

12/27/2022 12:06:00 PM 达观数据

为什么我不再推荐你用Julia？

为什么我不再推荐你用Julia？

从诞生之日起，Julia 已经走过了十多个年头。

5/17/2022 4:08:00 PM 机器之心

错误调试精确到行、match-case模式匹配……Python 3.10正式版真的很友好

错误调试精确到行、match-case模式匹配……Python 3.10正式版真的很友好

几天前，Python 3.10 正式版终于发布了。这次，想必每个程序员都会爱上它。

10/12/2021 2:23:00 PM 机器之心

谷歌、Facebook频繁发现CPU内核不可靠，出现无法预测计算错误

谷歌、Facebook频繁发现CPU内核不可靠，出现无法预测计算错误

最近谷歌和 Facebook 两大公司频繁检测到 CPU 在一些情况下会以无法预测的方式出现计算错误。

6/8/2021 2:30:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉