Andrej Karpathy
全网祝贺!Andrej Karpathy官宣创业:是自己热爱的AI+教育
Karpathy:以前在特斯拉、OpenAI都是「副业」,现在做的才是「正职」。刚刚,Andrej Karpathy在X平台宣布了自己的下一站去向:创办一家名为 Eureka Labs 的人工智能 教育公司。很高兴与大家分享,我正在创办一家名为 Eureka Labs 的人工智能 教育公司。公告如下:我们是 Eureka Labs,我们正在打造一所AI原生的新型学校。我们如何才能获得学习新知识的理想体验?例如,在物理学方面,我们可以想象与费曼(Feynman)一起学习高质量的课程材料,费曼会在每一步都为你提供指导。
五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活
论老黄卖铲子的技术含量。2019 年 2 月,OpenAI 发布了 GPT-2,因为在文本生成上的优异表现,以及对于预训练 Transformer 架构的充分运用,被认为是如今大预言模型的「始祖」。五年后的今天,训练 GPT-2 这样 15 亿参数的大模型,只需要花费 672 美元,在一个 8XH100 的 GPU 节点上跑 24 个小时就可以搞定了。本周四,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 在他纯 C 语言复现 GPT-2 大模型的项目「llm.c」的最新
Karpathy点赞,这份报告教你如何用 LLaMa 3创建高质量网络数据集
众所周知,对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说,构建高质量的网络规模数据集是非常重要的。然而,即使是最先进的开源 LLM 的预训练数据集也不公开,人们对其创建过程知之甚少。最近,AI 大牛 Andrej Karpathy 推荐了一项名为 FineWeb-Edu 的工作。这项工作将原始 15 万亿个 FineWeb token,经 Llama 3 70B 评判,过滤为 1.3 万亿个高质量(教科级)token。事实证明,LLM 从教育内容中学习会更好更快。部分原因是普通的互联网爬
12年前上手深度学习,Karpathy掀起一波AlexNet时代回忆杀,LeCun、Goodfellow等都下场
没想到,自 2012 年 AlexNet 开启的深度学习革命已经过去了 12 年。而如今,我们也进入了大模型的时代。近日,知名 AI 研究科学家 Andrej Karpathy 的一条帖子,让参与这波深度学习变革的许多大佬们陷入了回忆杀。从图灵奖得主 Yann LeCun 到 GAN 之父 Ian Goodfellow,纷纷忆往昔。到目前为止,该帖子已经有 63 万 的浏览量。在帖子中,Karpathy 提到:有一个有趣的事实是,很多人可能听说过 2012 年 ImageNet/AlexNet 的时刻,以及它开
纯C语言手搓GPT-2,前OpenAI、特斯拉高管新项目火了
「Real men program in C.」众所周知,大语言模型还在快速发展,应该有很多可以优化的地方。我用纯 C 语言来写,是不是能优化一大截?也许很多人开过这样的脑洞,现在有大佬实现了。今天凌晨,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。GitHub 链接:,立即引发了机器学习社区的热烈讨论,项目的 Star 量不到七个小时就冲上了 2000。有网友表示,
突发!AI大牛Andrej Karpathy离开OpenAI
Andrej Karpathy 又离职了!刚刚,AI大牛Andrej Karpathy官宣了一条重要消息:他昨天已经从OpenAI离职,不过这中间没有什么戏剧性冲突,他只是想去尝试一下自己的个人项目。Karpathy在官宣离职的推文中写道,「是的,我昨天离开了OpenAI。首先,没发生什么特别的事情,这不是由于任何特定事件、问题或者争议导致的(但请继续提供阴谋论,因为它们确实很有趣 :))。实际上,在过去的大约一年时间里,在OpenAI的经历真的很棒——团队非常强大,人们非常棒,路线图也非常令人兴奋,我认为我们都有
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉