验证
7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!
研究团队构成:香港科技大学、中国科学院软件研究所、西安电子科技大学和重庆大学。 团队核心成员:香港科技大学的研究助理教授曹嘉伦,主要研究领域包括 AI&SE、人工智能测试、形式化验证等;中国科学院软件研究所副研究员陆垚杰,主要研究领域包括大语言模型及其应用。 随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在辅助形式化证明写作方面的需求日益增长。
3/8/2025 3:46:00 PM
机器之心
科学发现速度提高10倍?统计原则+智能体,斯坦福&哈佛提出自动化假设验证框架POPPER
编辑丨coisini假设验证在科学发现、决策制定和信息获取中具有基础作用。 无论是在生物学、经济学还是政策制定中,研究者往往依赖于检验假设来指导其结论。 传统上,这一过程涉及设计实验、收集数据并分析结果以确定假设的有效性。
2/25/2025 2:26:00 PM
ScienceAI
AI“攻克”CAPTCHA 网站验证系统
互联网时代,网站如何判断访问者是人类用户还是机器人?其中一个被广泛部署的解决方案,就是 CAPTCHA 验证系统。不过在迈入 AI 时代后,CAPTCHA 验证系统的识别和防御能力被大打折扣。用户在访问某些网站时,可能就会遇到 CAPTCHA 验证系统,要求用户从 9 张图片中,筛选汽车、自行车、桥梁或红绿灯等,来证明是人类访问者。根据苏黎世联邦理工学院(ETH Zurich)的最新研究,AI 现在可以成功击败这些谜题。这款人工智能解谜软件建立在一个被广泛使用的人工智能图片处理模型之上,该模型被称为“You Onl
9/24/2024 10:21:12 AM
故渊
谷歌 DeepMind 展示 GenRM 技术:微调 LLMs 作为奖励模型,提升生成式 AI 推理能力
谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文,介绍展示了 GenRM 生成式验证器,创造性提出奖励模型,从而提升生成式 AI 推理能力。AI 行业内,目前提高大语言模型(LLMs)的主流做法就是 Best-of-N 模式,即由 LLM 生成的 N 个候选解决方案由验证器进行排序,并选出最佳方案。这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分,但它们无法利用预训练 LLMs 的文本生成能力。DeepMind 团队为了克服这个局限性,尝试使用下一个 token 预测目标来
9/3/2024 7:06:26 AM
故渊
Meta FAIR 和 Samaya AI 团队利用 AI 提高维基百科的可验证性
编辑 | 白菜叶可验证性是维基百科的核心内容政策:声明需要有引用的支持。维护和提高维基百科参考文献的质量是一项重要的挑战,迫切需要更好的工具来帮助人类完成这项工作。在这里,Samaya AI 和 Meta FAIR 的研究人员表明,可以借助由信息检索系统和语言模型提供支持的人工智能 (AI) 来解决改进参考的过程。这种基于神经网络的系统(这里称之为 SIDE)可以识别不太可能支持其主张的维基百科引文,然后从网络上推荐更好的引文。该团队在现有的维基百科参考资料上训练这个模型,因此从数千名维基百科编辑的贡献和综合智慧中
10/24/2023 11:25:00 AM
ScienceAI
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉