验证

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

研究团队构成：香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。团队核心成员：香港科技大学的研究助理教授曹嘉伦，主要研究领域包括 AI&SE、人工智能测试、形式化验证等；中国科学院软件研究所副研究员陆垚杰，主要研究领域包括大语言模型及其应用。随着 DeepSeek-R1 的流行与 AI4Math 研究的深入，大模型在辅助形式化证明写作方面的需求日益增长。

3/8/2025 3:46:00 PM 机器之心

科学发现速度提高10倍？统计原则+智能体，斯坦福&哈佛提出自动化假设验证框架POPPER

科学发现速度提高10倍？统计原则+智能体，斯坦福&哈佛提出自动化假设验证框架POPPER

编辑丨coisini假设验证在科学发现、决策制定和信息获取中具有基础作用。无论是在生物学、经济学还是政策制定中，研究者往往依赖于检验假设来指导其结论。传统上，这一过程涉及设计实验、收集数据并分析结果以确定假设的有效性。

2/25/2025 2:26:00 PM ScienceAI

AI“攻克”CAPTCHA 网站验证系统

AI“攻克”CAPTCHA 网站验证系统

互联网时代，网站如何判断访问者是人类用户还是机器人？其中一个被广泛部署的解决方案，就是 CAPTCHA 验证系统。不过在迈入 AI 时代后，CAPTCHA 验证系统的识别和防御能力被大打折扣。用户在访问某些网站时，可能就会遇到 CAPTCHA 验证系统，要求用户从 9 张图片中，筛选汽车、自行车、桥梁或红绿灯等，来证明是人类访问者。根据苏黎世联邦理工学院（ETH Zurich）的最新研究，AI 现在可以成功击败这些谜题。这款人工智能解谜软件建立在一个被广泛使用的人工智能图片处理模型之上，该模型被称为“You Onl

9/24/2024 10:21:12 AM 故渊

谷歌 DeepMind 展示 GenRM 技术：微调 LLMs 作为奖励模型，提升生成式 AI 推理能力

谷歌 DeepMind 展示 GenRM 技术：微调 LLMs 作为奖励模型，提升生成式 AI 推理能力

谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文，介绍展示了 GenRM 生成式验证器，创造性提出奖励模型，从而提升生成式 AI 推理能力。AI 行业内，目前提高大语言模型（LLMs）的主流做法就是 Best-of-N 模式，即由 LLM 生成的 N 个候选解决方案由验证器进行排序，并选出最佳方案。这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分，但它们无法利用预训练 LLMs 的文本生成能力。DeepMind 团队为了克服这个局限性，尝试使用下一个 token 预测目标来

9/3/2024 7:06:26 AM 故渊

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性

Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性

编辑 | 白菜叶可验证性是维基百科的核心内容政策：声明需要有引用的支持。维护和提高维基百科参考文献的质量是一项重要的挑战，迫切需要更好的工具来帮助人类完成这项工作。在这里，Samaya AI 和 Meta FAIR 的研究人员表明，可以借助由信息检索系统和语言模型提供支持的人工智能 (AI) 来解决改进参考的过程。这种基于神经网络的系统（这里称之为 SIDE）可以识别不太可能支持其主张的维基百科引文，然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型，因此从数千名维基百科编辑的贡献和综合智慧中

10/24/2023 11:25:00 AM ScienceAI

如何防止我的模型过拟合？这篇文章给出了6大必备方法

如何防止我的模型过拟合？这篇文章给出了6大必备方法

正如巴菲特所言：「近似的正确好过精确的错误。」

1/20/2021 3:01:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉