验证
7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!
研究团队构成:香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。 团队核心成员:香港科技大学的研究助理教授曹嘉伦,主要研究领域包括 AI&SE、人工智能测试、形式化验证等;中国科学院软件研究所副研究员陆垚杰,主要研究领域包括大语言模型及其应用。 随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。
3/8/2025 3:46:00 PM
机器之心
科学发现速度提高10倍?统计原则+智能体,斯坦福&哈佛提出自动化假设验证框架POPPER
编辑丨coisini假设验证在科学发现、决策制定和信息获取中具有基础作用。 无论是在生物学、经济学还是政策制定中,研究者往往依赖于检验假设来指导其结论。 传统上,这一过程涉及设计实验、收集数据并分析结果以确定假设的有效性。
2/25/2025 2:26:00 PM
ScienceAI
AI“攻克”CAPTCHA 网站验证系统
互联网时代,网站如何判断访问者是人类用户还是机器人?其中一个被广泛部署的解决方案,就是 CAPTCHA 验证系统。不过在迈入 AI 时代后,CAPTCHA 验证系统的识别和防御能力被大打折扣。用户在访问某些网站时,可能就会遇到 CAPTCHA 验证系统,要求用户从 9 张图片中,筛选汽车、自行车、桥梁或红绿灯等,来证明是人类访问者。根据苏黎世联邦理工学院(ETH Zurich)的最新研究,AI 现在可以成功击败这些谜题。这款人工智能解谜软件建立在一个被广泛使用的人工智能图片处理模型之上,该模型被称为“You Onl
9/24/2024 10:21:12 AM
故渊
谷歌 DeepMind 展示 GenRM 技术:微调 LLMs 作为奖励模型,提升生成式 AI 推理能力
谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文,介绍展示了 GenRM 生成式验证器,创造性提出奖励模型,从而提升生成式 AI 推理能力。AI 行业内,目前提高大语言模型(LLMs)的主流做法就是 Best-of-N 模式,即由 LLM 生成的 N 个候选解决方案由验证器进行排序,并选出最佳方案。这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分,但它们无法利用预训练 LLMs 的文本生成能力。DeepMind 团队为了克服这个局限性,尝试使用下一个 token 预测目标来
9/3/2024 7:06:26 AM
故渊
Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性
编辑 | 白菜叶可验证性是维基百科的核心内容政策:声明需要有引用的支持。维护和提高维基百科参考文献的质量是一项重要的挑战,迫切需要更好的工具来帮助人类完成这项工作。在这里,Samaya AI 和 Meta FAIR 的研究人员表明,可以借助由信息检索系统和语言模型提供支持的人工智能 (AI) 来解决改进参考的过程。这种基于神经网络的系统(这里称之为 SIDE)可以识别不太可能支持其主张的维基百科引文,然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型,因此从数千名维基百科编辑的贡献和综合智慧中
10/24/2023 11:25:00 AM
ScienceAI
- 1
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
大模型
数据
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
Agent
AI for Science
芯片
苹果
腾讯
Stable Diffusion
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
RAG
人形机器人
研究
AI视频
生成
大语言模型
具身智能
Sora
工具
GPU
百度
华为
计算
字节跳动
AI设计
AGI
大型语言模型
搜索
视频生成
场景
深度学习
DeepMind
架构
生成式AI
编程
视觉
Transformer
预测
AI模型
伟达
亚马逊
MCP