论文
两岁的Llama,最初的14位作者已跑了11个!Mistral成最大赢家
Meta 开源 Llama 模型家族帮助该公司制定了 AI 战略,某种程度上也改变了全世界的大模型格局。 然而,令人意想不到的是,短短几年,Llama 的初创者们大多已经转投他处。 在 2023 年发表的那篇具有里程碑意义的论文《 LLaMA: Open and Efficient Foundation Language Models 》中,Llama 被推向世界,当时论文共有 14 位作者。
5/27/2025 3:37:46 PM
DeepSeek发布大模型训练端到端论文,展示卓越工程深度
近日,DeepSeek发布了一篇关于大模型训练的最佳端到端技术论文,引发业界广泛关注。 该论文全面阐述了DeepSeek在大模型研发中的技术突破,涵盖软件、硬件及混合优化方案,展现了其令人惊叹的工程深度。 在**软件**层面,论文详细介绍了多头潜在注意力机制(MLA),显著降低推理过程中的内存占用;FP8混合精度训练通过低精度计算提升效率,同时保证数值稳定性;DeepEP通信库优化了专家并行(EP)通信,支持FP8低精度操作,加速MoE模型训练与推理;LogFMT对数浮点格式则通过均匀化激活分布,进一步优化计算效率。
5/21/2025 11:01:05 AM
AI在线
谢赛宁团队提出BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式!
BLIP3-o 是一个统一的多模态模型,它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。 与之前扩散 VAE 特征或原始像素的研究不同,BLIP3-o 扩散了语义丰富的CLIP 图像特征,从而为图像理解和生成构建了强大而高效的架构。 此外还发布了包含 2000 万张带详细标题的图片(BLIP3o Pretrain Long Caption)和 400 万张带短标题的图片(BLIP3o Pretrain Short Caption)的数据集。
5/20/2025 9:08:59 AM
AI入侵学术圈,超700篇顶刊论文暴雷!科学侦探揭秘真相,登Nature头版
「截至我最后的知识更新」,「重新生成响应」,「作为一个AI语言模型」......这些短句,已经成为顶刊论文中的常态。 2024年,一篇发表在Radiology Case Reports上论文,因文中出现了「我是一个AI语言模型」,直接被撤稿。 令人震惊的是,这句话不仅没有引起作者注意,更逃过了编辑、审稿人、排版人的审查。
4/25/2025 10:57:39 AM
新智元
ICLR 2025时间检验奖颁给Adam之父!Bengio「注意力机制」摘亚军
刚刚,ICLR 2025时间检验奖公布! 斩获大奖的是,xAI工程师、Hinton高徒Jimmy Ba发表的Adam优化器。 获得亚军的是,Yoshua Bengio团队提出的「注意力机制」,为Transformer和大模型奠定了基础。
4/16/2025 8:30:00 AM
新智元
首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的
嚯! 完全由AI生成的论文,通过顶会ICLR评审? !
4/9/2025 9:12:28 AM
量子位
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
有点意思。 这不DeepSeek前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛,引得大家纷纷联想是不是R2马上要来了。 然鹅……奥特曼这边却发了一条“变卦”的消息:计划改变:我们可能在几周之后先发布o3和o4-mini。
4/7/2025 8:15:00 AM
量子位
CVPR 2025:单图秒变专业影棚,几何/材质/光影全搞定,数据训练代码全开源
如何从一张普通的单幅图像准确估计物体的三维法线和材质属性,是计算机视觉与图形学领域长期关注的难题。 这种单图逆渲染任务存在严重的不确定性,传统方法通常需要多角度或多光源的拍摄条件,难以在日常场景中普遍应用。 近日,由香港中文大学、上海人工智能实验室及南洋理工大学的研究团队联合研发的论文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。
4/3/2025 9:25:53 AM
量子位
三大模型巨头比拼思考“幻觉”:DeepSeek 不敌 ChatGPT,Gemini 用词最少
近日,智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了 4 组对照实验:提供相同的提示词,让 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 进行推理分析,研究三个模型在应对幻觉问题上的性能对比。 其研究发现:ChatGPT 03-mini 在应对大模型幻觉问题上占有绝对优势,能够灵活切换不同的策略进行思考推理。 相比之下,DeepSeek R1 和 Gemini 2.0 Flash 虽然能够尝试使用策略,但表现了出对这些策略的抗拒,且推理过程存在错误或混乱。
3/28/2025 3:37:00 PM
郑佳美
性能无损,模型隐私保护效果提升50%!蚂蚁数科创新跨域微调框架| AAAI 2025 Oral
大模型的快速及持续发展,离不开对模型所有权及数据隐私的保护。 AAAI 2025期间,蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队提出了一种创新的跨域微调框架ScaleOT,可以实现在模型性能无损的前提下,将模型隐私保护效果提升50%。 相比于知识蒸馏技术,还降低了90%的算力消耗,为百亿级参数模型的跨域微调提供了一种高效和轻量化的解决方案。
3/4/2025 9:20:00 AM
量子位
CVPR 2025录用率22.1%,LeCun中奖!大模型参评,审稿人19篇论文被拒
刚刚,CVPR 2025录用结果出炉! 今年,共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.1%。 近两年来,CVPR录用结果逐年递减。
2/27/2025 12:30:00 PM
新智元
全球AI顶会AAAI 2025 在美开幕,产学研联手的“中国队”表现亮眼
当地时间2月25日,AAAI 2025 在美国宾夕法尼亚州费城举办,会议为期8天,于3月4日结束。 AAAI 由国际人工智能促进协会主办,是人工智能领域历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议,每年举办一届。 AAAI 2025 共有12957篇有效投稿,录用3032篇,录取率为 23.4%。
2/27/2025 10:28:00 AM
新闻助手
大学老师说AI作文全判0分 网友:过度依赖造成思维惰性
近年来,随着人工智能技术的迅速发展,AI 工具逐渐成为大学生完成各类报告和论文的 “得力助手”。 根据央视新闻的报道,部分高校教师和专家表示,利用 AI 生成内容的学生中,个别案例涉及不当行为,如伪造研究数据、编辑实验图片和替代自主设计等,已构成学术不端。 在某高校的作业群中,一则通知引起了学生们的广泛关注。
2/27/2025 9:34:00 AM
AI在线
南大钱超团队攻克百亿晶体管难题,斩获EDA顶会2025最佳论文!AI学院本硕博生联手
据南京大学人工智能学院网站报道,南大LAMDA组钱超教授团队在DATE 2025发表的芯片设计优化论文「Timing-Driven Global Placement by Efficient Critical Path Extraction」获会议最佳论文奖。 电子设计自动化(Electronic Design Automation,EDA)是芯片设计的基石产业,被誉为「芯片之母」。 欧洲设计自动化与测试会议(Design, Automation and Test in Europe Conference,DATE)是EDA领域的顶级国际学术会议。
2/24/2025 12:33:28 PM
新智元
AMD开源科研AI Agent,一站式自动写论文
科学研究的漫长历程中,受限于时间和资源,许多高质量的研究想法未能得到充分探索。 如果能够减少探索想法的限制,研究人员将能够同时研究多个概念,增加科学发现的效率。 所以,为了帮助科研人员节省时间快速撰写论文,AMD和约翰·霍普金斯大学的研究人员联合开源了一个专用于科研的AI Agent——Agent Laboratory。
2/12/2025 1:44:12 PM
AIGC开放社区
如何训练最强代码大模型?北大aiXcoder-7B贡献前沿实践
本文的通讯作者是北京大学计算机学院长聘教授李戈。 本文一作是 aiXcoder 蒋思源和北大李戈教授课题组博士生李佳,团队重点关注融合深度学习与软件工程的代码建模方法。 如何训练一个代码大模型?
2/12/2025 1:34:40 PM
机器之心
本科生推翻姚期智40年前的猜想,哈希表的平均查询时间竟与填满程度无关
1985 年,著名计算机科学家、图灵奖得主姚期智提出了一个与哈希表有关的猜想。 现在,40 年过去了,一名本科生却成功推翻了这个猜想。 而这项成就却源自一个始于 2021 年秋的故事。
2/11/2025 11:17:30 AM
机器之心
AI伪造论文渗透学术圈:Google Scholar成虚假科学温床,如何应对?
编辑 | 1984随着生成式 AI 技术的普及,学术界正面临着一个新的挑战:越来越多疑似由 AI 生成的研究论文正在渗透到学术期刊、档案库和知识库中。 这些论文通常借助 ChatGPT 等普及型 AI 应用来模仿学术写作风格,其危害不容忽视。 作为广受欢迎的学术搜索引擎,Google Scholar 在展示搜索结果时,并未区分这些可疑论文与经过严格质量把关的研究成果。
1/22/2025 6:27:00 PM
ScienceAI
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
Anthropic
英伟达
论文
AI新词
代码
训练
算法
Stable Diffusion
LLM
芯片
蛋白质
腾讯
开发者
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
华为
AI设计
工具
RAG
大语言模型
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
特斯拉
应用
DeepMind