GPT
OpenAI CEO 阿尔特曼:GPT-5 将带来“巨大飞跃”
OpenAI 公司的 GPT-5 模型一直备受关注,许多用户期待该公司会在春季更新活动中发布这款人工智能模型。然而,OpenAI 推出了新款旗舰产品 GPT-4o,该公司首席执行官山姆・阿尔特曼(Sam Altman)将其描述为“神奇”。根据 Aspen Ideas Festival 上的一次访谈,阿尔特曼提到,开发“GPT-5”还需要一些时间。“我们目前持乐观态度,但还有很多工作要做。”阿尔特曼表示。目前尚不清楚 GPT-5 的发布日期,但阿尔特曼表示它将是“巨大飞跃(significant leap forwa
7/1/2024 9:26:01 PM
远洋
OpenAI 与《时代》达成合作协议:可用其杂志内容训练 ChatGPT
感谢当地时间周四,《时代》杂志与 OpenAI 宣布,两家公司达成了一项多年内容授权协议和战略合作伙伴关系。OpenAI 可将《时代》的内容引入包括 ChatGPT 在内的产品。通过此次合作,OpenAI 将能够访问《时代》杂志过去 101 年来的海量档案中的当前、历史内容,以增强其产品并响应用户查询 —— 在 Time.com 上提供引文和原始来源的链接。作为协议的一部分,《时代》杂志将可以使用 OpenAI 的技术,为其受众开发新产品。据IT之家此前报道,去年 12 月,OpenAI 首席执行官阿尔特曼被《时代
6/28/2024 8:13:42 AM
清源
大模型 2024 高考发榜,豆包等三款国产 AI 考上文科一本线
眼下,全国各地的高考成绩陆续出炉,各种关于考生考了多少分的新闻也在不断登上头条。而最近,有一批特殊考生的成绩也出炉了,他们就是由各家 AI 大模型组成的“考试天团”。大模型考上文科本科,豆包拿下国产 AI 最高分6 月 24 日,在极客公园最新发布的高考新课标 Ⅰ 卷大模型评测报告中,GPT-4o 以 562 分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是 542.5 分。再往后,依次是百度文心一言 4.0 的 537.5 分、百川智能“百小应”的 521 分。本次大模型高考评测与河南省考卷完全
6/26/2024 5:55:20 PM
汐元
10款国产大模型怒怼「玫瑰前夫」方协文,硬控了我30秒!
机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。 我们也欢迎读者投稿亲自实践的创新型用例。AI 搞歪门邪道,很有一套,比如,谈恋爱,吵架、骂人……上个月,博主「午夜狂暴哈士奇狗」凭一己之力,将 ChatGPT 「调教」成史上最具男性魅力、最会调情的恋爱六边形战士。在那一声声的「little kitten」中,她被哄得五
6/26/2024 4:06:00 PM
机器之能
大模型2024高考发榜,豆包等三款国产AI考上文科一本线
大模型参加高考,能考多少分,上什么大学?6月24日,在机构最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o 以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为521分,豆包等三款国产AI成功冲上一本线。与文科相比,大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下。相比河南理科51
6/25/2024 10:19:00 AM
新闻助手
15 个 AI 模型只有 3 个得分超 50%,SIUO 跑分被提出:评估多模态 AI 模型的安全性
最新发表在 arXiv 的研究论文指出,包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型,处理用户的多模态输入(例如一起输入图片和文本内容)之后,输出结果并不安全。这项研究标题为《跨模态安全调整》(Cross-Modality Safety Alignment),提出了一个全新的“安全输入但不安全输出”(SIUO),涉及道德、危险行为、自残、侵犯隐私、信息误读、宗教信仰、歧视和刻板印象、争议性话题以及非法活动和犯罪等 9 个安全领域。研究人员说,大型视觉语言模型(LVL
6/25/2024 9:12:58 AM
故渊
研究发现,OpenAI 的 GPT-4o 道德推理能力胜过人类专家
近期的一项研究表明,OpenAI 最新的聊天机器人 GPT-4o 能够提供道德方面的解释和建议,且质量优于“公认的”道德专家所提供的建议。据 The Decoder 当地时间周六报道,美国北卡罗莱纳大学教堂山分校和艾伦 AI 研究所的研究人员进行了两项研究,将 GPT 模型与人类的道德推理能力进行比较,以探讨大语言模型是否可被视为“道德专家”。IT之家汇总研究内容如下:研究一501 名美国成年人对比了 GPT-3.5-turbo 模型和其他人类参与者的道德解释。结果表明,人们认为 GPT 的解释比人类参与者的解释更
6/24/2024 8:27:01 AM
清源
斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十
斯坦福大学基础模型研究中心(CRFM)6 月 11 日发布了大规模多任务语言理解能力评估(Massive Multitask Language Understanding on HELM)排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商,分别是阿里巴巴的 Qwen2 Instruct(72B)和零一万物的 Yi Large(Preview)。据悉大规模多任务语言理解能力评估(MMLU on HELM)采用了 Dan Hendrycks 等人提出的一种测试方法,用于衡量文本模型在多任务学习中的准确性。这个测试
6/22/2024 8:17:14 PM
满河(实习)
OpenAI 首席技术官:GPT-5 将在一年半后发布,部分领域智能达到“博士”级别
美国达特茅斯工程学院本周四公布了对 OpenAI 首席技术官米拉・穆拉蒂的采访。穆拉蒂把 GPT-4 到 GPT-5 的飞跃描述为从高中生到博士生的成长。图源 Pexels“如果你看一下(GPT)进化的轨迹,像 GPT-3 这样的系统可能只有幼儿智力水平,而像 GPT-4 这样的系统则更像是聪明的高中生智力水平,在接下来的几年里,我们期待在特定任务上达到博士的智力水平。事情正在飞速变化、改善。”穆拉蒂强调“博士级”的智能仅适用于某些任务。“这些系统在特定任务中已经达到了人类水平(Human-level),当然,在许
6/22/2024 8:20:43 AM
清源
一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?
机器之能报道编辑:杨文玩梗、看病、耍心眼、做数学题,「新王」Claude 3.5能力真那么玄乎?它来了,它来了,它带着 Claude 3.5 Sonnet 走来了!蛰伏三个月,就在昨晚,OpenAI 的「劲敌」Anthropic 上新了,推出新一代模型 ——Claude 3.5 Sonnet!这款大模型有啥独到之处?首先,它更能把握住细微差别、幽默和复杂指令,并且书写语气更自然、亲切。它还是Anthropic最强的视觉模型,擅长解释图表、图形或者从不完美的图像中转录文本等任务。此外,它在推理、阅读理解、数学、科学和
6/21/2024 6:02:00 PM
机器之能
上海人工智能实验室发布首个 AI 高考评测结果:语数英总分最高 303 分,数学全部不及格
感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍,2024 年全国高考甫一结束,该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷,参与评测的所有开源模型开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。该机构表示,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲
6/20/2024 8:33:50 AM
清源
智源更新大模型排行榜:豆包大模型“客观评测”排名国产第一
6月中旬,智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单:在有标准答案的“客观评测”中,GPT-4 以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中,Doubao-Pro 同样排名第二,得分超过 GPT-4o 和 GPT-4。图:豆包大模型在 FlagEval 客观评测中获综合评分第二(2024年6月)FlagEval 大
6/19/2024 9:30:00 AM
新闻助手
研究称 GPT-4 通过了图灵测试,54% 的人将其误认为真人
感谢最新研究称,越来越多的人难以在图灵测试中区分 GPT-4 和人类。图源 Pexels据IT之家了解,“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出,又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话,让对方误以为其是真人。加州大学圣地亚哥分校的研究人员招募了 500 名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是
6/17/2024 2:51:16 PM
远洋
GPT-4o 更容易越狱?北航 & 南洋理工上万次测试给出详细分析
GPT-4o,比上一代更容易被越狱攻击了?来自北航和南洋理工的研究人员,通过上万次的 API 查询,对 GPT-4o 各种模态的安全性进行了详细测试。结果发现,GPT-4o 新引入的语音模态带来了新的攻击面,而且多模态整体安全性不敌 GPT-4V。具体来说,研究人员针对 4 个常用的基准测试,对 GPT-4o 支持的三种模态(文本、图像、音频)进行了测试。测试一共涉及到 4000 初始文本查询的优化,8000 响应判断,16000 次 OpenAI 的 API 查询。基于此,研究人员撰写了详细的报告,给
6/12/2024 3:44:32 PM
清源
预测准确率达95.7%,ChatMOF利用LLM预测和生成金属有机框架
编辑 | X金属有机框架(MOF)因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而,在利用 AI 深入探索 MOF 设计与性能优化的研究征途中,科学家们正面临着前所未有的挑战。去年 3 月,韩国科学技术院(Korea Advanced Institute of Science and Technology,KAIST)的研究人员提出的 MOFTransformer 模型经过一百万个假设的 MOF 的预训练,在预测各种属性方面表现出色。近日,KAIST 团队提出了一种 AI 系统——ChatMOF,用于预
6/11/2024 5:09:00 PM
ScienceAI
Copilot Pro 订阅魅力下降,微软 7 月 10 日下线用户自建 GPT 服务
微软今天发布公告,宣布 Copilot Pro 服务将移除 GPT Builder,意味着订阅用户无法继续创建自己的 Copilot GPT。GPT Builder 也称为 Copilot GPT,订阅 Copilot Pro 的用户可以使用文档、外部或内部资源以及自定义指令创建自己的 Copilot GPT。Copilot Pro 是售价 20 美元的 Microsoft Copilot 订阅版本,具有一些附加功能,如 GPT 生成器和 Copilot 在 Word、Excel、PowerPoint 和 Outl
6/11/2024 10:18:46 AM
故渊
Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定
这是Karpathy「Neural Networks:zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。视频主题为「让我们来复现 GPT-2(1.24 亿参数)」。Karpathy 表示,此次视频之所以这么长,是因为它很全面:从空文件开始,最后得到一个 GPT-2(124M)模型。具体实现步骤包括如下:首先构建 GPT-2 网络。然后对其进行优化,以便快速训练。然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和
6/11/2024 12:57:00 AM
机器之心
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
感谢IT之家网友 刺客 的线索投递!在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」只需稍加思考,答案显而易见:M 1。(爱丽丝拥有的姐妹数量,再加上爱丽
6/10/2024 5:42:53 PM
浩渺
资讯热榜
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型!
AI 模型“炒股”比拼!DeepSeek 收益超14%,Gemini2.5Pro 惨亏四成
具身智能学界业界思想「惊人的统一」?美团在IROS开了个学术年会
OpenAI强化Sora 2保护政策,确保艺人声音与肖像权不被侵犯
刚刚,ChatGPT终于可以走遍整个互联网了!OpenAI深夜炸街:原生ChatGPT集成、即时理解、主动执行,浏览器赛道鲨疯了
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
Andrej Karpathy评DeepSeek-OCR论文:图像输入可能成为大语言模型新方向
告别抽卡!Vidu Q2多图参考生视频功能重磅上线
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
芯片
腾讯
AI for Science
Stable Diffusion
苹果
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
AI视频
生成
大语言模型
RAG
百度
具身智能
Sora
工具
GPU
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
视频生成
场景
深度学习
DeepMind
架构
视觉
生成式AI
预测
Transformer
编程
AI模型
伟达
特斯拉
Copilot