LLM
OpenAI 最新研究揭示:最先进的 AI 仍难以解决编码问题
近日,OpenAI 的研究人员在一篇新发布的论文中坦言,尽管目前的 AI 技术已经相当先进,但这些模型依然无法与人类程序员相媲美。 OpenAI 首席执行官山姆・阿尔特曼曾表示,预计到今年底,AI 将能够战胜 “低级” 软件工程师,但研究结果却显示,这些 AI 模型仍然面临重大挑战。 图源备注:图片由AI生成,图片授权服务商Midjourney在研究中,OpenAI 团队使用了一种名为 SWE-Lancer 的新基准测试,评估了从自由职业网站 Upwork 上提取的1400多项软件工程任务的表现。
2/24/2025 9:09:00 AM
AI在线
TOMG-Bench:大语言模型开放域分子生成新基准
编辑 | ScienceAI科学家提出了一个新的基准测试——TOMG-Bench,用于评估 LLM 在分子领域的开放域生成能力。 项目主页::: Datasets::、材料科学等领域进步的关键环节。 然而,传统的分子发现方法往往依赖于反复实验和数据分析,效率低下且成本高昂。
2/18/2025 4:25:00 PM
ScienceAI
短短10天,Ilya神秘初创SSI再融10亿美元!仅凭一个主页估值300亿
彭博独家称,Ilya神秘初创SSI即将融资超10亿美元,估值超300亿美元。 图片据介绍,总部位于旧金山的风险投资公司Greenoaks Capital Partners领投,计划投资5亿美元。 Greenoaks同时也是AI明星公司Scale AI和Databricks的投资者。
2/18/2025 8:56:05 AM
新智元
自主式AI崛起是否意味着SaaS的终结?
自主式AI崛起:SaaS的终结?不,是新的开始!在科技日新月异的今天,一个名为自主式AI的新星正在冉冉升起,它以其独特的魅力和无限的潜力,让人们对未来充满了遐想。 自主式AI,这种能够独立行动、自主决策的人工智能,正悄然改变着企业的运营模式,预示着软件应用的新纪元即将到来。 要点:动态AI生态系统:软件应用正从静态、单一的模式转变为动态、由AI驱动的生态系统,无缝集成各种业务需求。
2/18/2025 8:22:00 AM
Frank Palermo
Meta首席AI科学家认为当前GenAI和LLM将很快过时
Meta首席人工智能科学家Yann LeCun表示,目前的生成式人工智能(GenAI)和大型语言模型(LLM)范式可能很快就会过时。 他认为,这些系统需要新的突破来理解物理世界并与之互动。 LeCun在达沃斯世界经济论坛上谈到GenAI系统时表示:“没有人会再使用它们,至少不会将其作为人工智能系统的核心组件。
2/17/2025 11:04:27 AM
AI情报室
还在忙NSFC申报?试试DeepSeek R1结合牛津的推理Agent用变分推理生成国家自然科学基金申请书
又到了一年一度的国家自然科学基金申报季,众多科研工作者正在为申报书的撰写绞尽脑汁。 如何在有限的时间内,产出一份既专业严谨又富有创新性的申报材料,成为了许多研究者面临的挑战。 本文介绍了一种基于DeepSeek R1大模型与牛津大学最新推理Agent框架相结合的智能辅助方案。
2/17/2025 8:35:06 AM
AI修猫Prompt
DeepSeek671B提到的MOE是什么?图解MOE(混合专家模型)
本文仅做记录,图挺形象的。 原文:,你可能会在标题中看到“MoE”这个词。 那么,这个“MoE”到底代表什么?
2/17/2025 3:00:00 AM
Grootendorst
DeepSeek数学大翻车?普林斯顿谷歌锤爆LLM:做题不会推理,全靠死记硬背
破案了! 就在刚刚,来自普林斯顿和谷歌的研究者发现——大模型做数学题,不是靠推理,而是靠从训练集里记下的解题技巧! 论文地址:「未解之谜」一直困扰着不少业内人士:在数学上,LLM到底是学会了举一反三,还是只是学会了背题?
2/14/2025 10:23:00 AM
新智元
本地轻松使用Gemini 2.0 Pro
译者 | 布加迪审校 | 重楼谷歌加大了角逐人工智能领域的筹码,发布了最新的实验模型。 继DeepSeek和OpenAI之后,谷歌宣布推出Gemini 2.0 Flash以及两个新的实验模型:Gemini 2.0 Pro和Gemini 2.0 Flash-Lite。 据谷歌DeepMind团队声称,Gemini 2.0 Pro是其迄今为止最先进的模型,在编程性能和处理复杂提示方面表现出色。
2/14/2025 8:00:00 AM
布加迪
一文带你看懂开源大模型基石LLaMA核心技术点,DeepSeek/千问等LLM的模型结构基础
LLaMA是目前很多SOTA开源大模型的基础,包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。 因此,LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。 这篇文章就给大家汇总一下LLaMA的核心模型结构。
2/14/2025 1:00:00 AM
Fareise
DeepSeek 系列模型详解之——DeepSeek LLM
DeepSeek LLM发布于2024年1月,收集了2万亿个词元用于预训练,在模型层面沿用了LLaMA的架构,并将余弦退火学习率调度器替换为多阶段学习率调度器,便于持续训练。 并从多种来源收集了超过100万个实例进行监督微调(SFT)。 此外,利用直接偏好优化(DPO)技术进一步提升模型的对话能力。
2/13/2025 11:00:30 AM
小喵学AI
近端策略优化(PPO)算法的理论基础与PyTorch代码详解
近端策略优化(Proximal Policy Optimization, PPO)算法作为一种高效的策略优化方法,在深度强化学习领域获得了广泛应用。 特别是在大语言模型(LLM)的人类反馈强化学习(RLHF)过程中,PPO扮演着核心角色。 本文将深入探讨PPO的基本原理和实现细节。
2/13/2025 10:34:30 AM
Dhanoop Karunakaran
推荐一个企业级知识图谱增强的检索增强生成(RAG)的项目
介绍Microsoft GraphRAG 是一个开源项目,旨在利用 Microsoft Graph 的强大功能构建企业级的知识图谱增强的检索增强生成(RAG)方案。 简单来说,它将企业内部的各种数据源(如邮件、文档、日历、联系人等)通过 Microsoft Graph 连接起来,形成一个结构化的知识图谱,然后利用这个知识图谱来增强 RAG 系统的检索能力,从而提升大语言模型(LLM)在企业应用中的问答和生成效果。 项目架构GraphRAG 的架构设计清晰且模块化,主要包含以下几个核心组件:(1) 数据连接器(Data Connectors):负责从各种企业数据源(如 Microsoft 365 服务,包括 Exchange Online、SharePoint Online、OneDrive、Teams 等)提取数据。
2/13/2025 9:01:03 AM
IT运维技术圈
AI已学会自我复制!复旦新研究:开源LLM克隆成功率最高90%
AI已跨越关键「红线」,实现了自我复制。 复旦大学的研究人员在一项新研究中,展示了两种开源的LLM具备自我克隆的能力。 在没有人类帮助的情况下,AI成功实现自我复制,这不仅是它超越人类的关键一步,也是「流氓AI」出现的早期信号。
2/12/2025 10:05:00 AM
新智元
Grok-3意外「走光」,不是推理模型!马斯克:xAI新模型比DeepSeek更好
当OpenAI和谷歌密集发布新AI模型时,马斯克的xAI怎么还没动静? 就在最近,马斯克公开表示称,xAI的新模型很快就要发布了,而且是比DeepSeek更好的那种! 根据公开消息,网友汇总了马斯克、Greg Yang等关于xAI下一代新模型Grok-3的消息。
2/11/2025 9:20:00 AM
新智元
人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/10/2025 1:15:00 PM
机器之心
Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现
继近日斯坦福李飞飞、Percy Liang 等人推出 S1 后,李飞飞的学生、OpenAI 早期成员与前特斯拉 AI 总监也录制了一期最新长达 3 小时的长视频上传到 YouTube,深入浅出地从神经网络的起源、GPT-2、ChatGPT 到最近 DeepSeek-R1 介绍了 AI 大模型的系列进化:视频链接:,视频讲解十分通俗易懂,即使没有技术背景的观众也能轻松理解! 尤其是在视频的第 2 个小时开始,他对最近爆火的 DeepSeek-R1 论文进行了深入介绍,并直言 DeepSeek R1 在性能方面与 OpenAI 的模型不相上下,它的出现推动了 RL 技术的发展。 除了盛赞 DeepSeek-R1 的技术创新外,Andrej Karpathy 还对纯 RL 的学习能力给予了高度评价,但又指出 RL 非常非常擅长发现一种方法来“欺骗”模型,阻碍了 RLHF 成为专业技术的步伐。
2/7/2025 2:50:00 PM
郑佳美
未来教室的变革:大语言模型LLM会取代老师吗?揭秘教育新纪元
大语言模型(LLM)的发展是近年来人工智能领域的重要突破,其背后是深度学习、自然语言处理等技术的快速进步。 从早期的简单问答系统到现在能够理解和生成复杂文本的智能模型,大语言模型已经广泛应用于各个领域,包括客服机器人、智能搜索引擎、自动化写作等。 随着技术的进步,人们开始探讨这样一个问题:大语言模型是否将在未来取代老师的角色?
2/7/2025 12:54:57 PM
tune
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
智能体
训练
芯片
开发者
蛋白质
生成式
腾讯
苹果
AI新词
神经网络
3D
LLM
Claude
研究
生成
机器学习
计算
AI for Science
Sora
人形机器人
xAI
AI视频
AI设计
GPU
华为
百度
搜索
Agent
大语言模型
场景
字节跳动
预测
大型语言模型
深度学习
工具
伟达
Transformer
视觉
RAG
具身智能
神器推荐
亚马逊
Copilot
模态
AGI
LLaMA
文本
架构
视频生成