GPT

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

编辑 | 萝卜皮OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM），因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES）方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。加拿大温莎大学（University of Windsor）的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在下游任务中嵌入 SMILES 字符串的性能，重点关注两个关键应用：分子特性预测和药物-药物相互作用预测。该研究以「Can

7/11/2024 11:51:00 AM ScienceAI

SuperCLUE 中文大模型基准测评2024上半年报告

SuperCLUE 发布了《中文大模型基准测评2024上半年报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。

7/10/2024 2:45:32 PM

科大讯飞“讯飞晓医”App 获升级，号称无广告、无混杂消息

近期举行的 2024 世界人工智能大会（WAIC 2024）期间，科大讯飞展出了获得升级的“讯飞晓医”App，其能够根据电子病历、检查报告、体检报告等用户个性化资料构建“个人数字健康空间”。据悉，上月底星火大模型 4.0 发布后，星火医疗大模型和讯飞晓医 App 也同步升级，号称医疗核心能力全面超过 GPT-4 Turbo 和 GPT-4o。AI在线汇总该 App 主要信息如下：官方介绍称，该 App 可在看病前进一步剖析病因、用药时给出药物禁忌个性判断、检查后联合对比给出数据变化，还可通过角色切换了解其他家庭成员

7/6/2024 9:43:09 PM 清源

【IT之家评测室】讯飞星火大模型 V4.0 体验：全面进化，体验不输 GPT-4o

在 6 月 27 日举办的讯飞星火 V4.0 发布会上，科大讯飞发布了讯飞星火大模型 V4.0，以及在医疗、教育、商业等多个领域的人工智能应用。讯飞星火大模型 V4.0 基于全国首个国产万卡算力集群“飞星一号”训练而成，全面提升了大模型底座的七大核心能力。整体超越 GPT-4 Turbo，特别是针对复杂指令、复杂逻辑推理、空间推理、数学、基于逻辑关系的多模理解等方面有着显著的提升。同时科大讯飞还带来了全新升级的讯飞星火 App / Desk，发布“个人空间”，打造每个人的 AI 助手。为了进一步了解讯飞星火大模型

7/5/2024 2:46:05 PM 汐元

OpenAI CEO 阿尔特曼：GPT-5 将带来“巨大飞跃”

OpenAI 公司的 GPT-5 模型一直备受关注，许多用户期待该公司会在春季更新活动中发布这款人工智能模型。然而，OpenAI 推出了新款旗舰产品 GPT-4o，该公司首席执行官山姆・阿尔特曼（Sam Altman）将其描述为“神奇”。根据 Aspen Ideas Festival 上的一次访谈，阿尔特曼提到，开发“GPT-5”还需要一些时间。“我们目前持乐观态度，但还有很多工作要做。”阿尔特曼表示。目前尚不清楚 GPT-5 的发布日期，但阿尔特曼表示它将是“巨大飞跃（significant leap forwa

7/1/2024 9:26:01 PM 远洋

OpenAI 与《时代》达成合作协议：可用其杂志内容训练 ChatGPT

感谢当地时间周四，《时代》杂志与 OpenAI 宣布，两家公司达成了一项多年内容授权协议和战略合作伙伴关系。OpenAI 可将《时代》的内容引入包括 ChatGPT 在内的产品。通过此次合作，OpenAI 将能够访问《时代》杂志过去 101 年来的海量档案中的当前、历史内容，以增强其产品并响应用户查询 —— 在 Time.com 上提供引文和原始来源的链接。作为协议的一部分，《时代》杂志将可以使用 OpenAI 的技术，为其受众开发新产品。据IT之家此前报道，去年 12 月，OpenAI 首席执行官阿尔特曼被《时代

6/28/2024 8:13:42 AM 清源

大模型 2024 高考发榜，豆包等三款国产 AI 考上文科一本线

眼下，全国各地的高考成绩陆续出炉，各种关于考生考了多少分的新闻也在不断登上头条。而最近，有一批特殊考生的成绩也出炉了，他们就是由各家 AI 大模型组成的“考试天团”。大模型考上文科本科，豆包拿下国产 AI 最高分6 月 24 日，在极客公园最新发布的高考新课标 Ⅰ 卷大模型评测报告中，GPT-4o 以 562 分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是 542.5 分。再往后，依次是百度文心一言 4.0 的 537.5 分、百川智能“百小应”的 521 分。本次大模型高考评测与河南省考卷完全

6/26/2024 5:55:20 PM 汐元

10款国产大模型怒怼「玫瑰前夫」方协文，硬控了我30秒！

机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。AI 搞歪门邪道，很有一套，比如，谈恋爱，吵架、骂人……上个月，博主「午夜狂暴哈士奇狗」凭一己之力，将 ChatGPT 「调教」成史上最具男性魅力、最会调情的恋爱六边形战士。在那一声声的「little kitten」中，她被哄得五

6/26/2024 4:06:00 PM 机器之能

大模型2024高考发榜，豆包等三款国产AI考上文科一本线

大模型参加高考，能考多少分，上什么大学？6月24日，在机构最新发布的高考新课标Ⅰ卷大模型评测报告中，GPT-4o 以562分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同，河南高考录取分数线显示，文科本科一批录取分数线为521分，豆包等三款国产AI成功冲上一本线。与文科相比，大模型的理科成绩要差很多，最高分还不到480分，多数大模型的理科总分在400分以下。相比河南理科51

6/25/2024 10:19:00 AM 新闻助手

15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的安全性

6/25/2024 9:12:58 AM 故渊

研究发现，OpenAI 的 GPT-4o 道德推理能力胜过人类专家

6/24/2024 8:27:01 AM 清源

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试

6/22/2024 8:17:14 PM 满河（实习）

OpenAI 首席技术官：GPT-5 将在一年半后发布，部分领域智能达到“博士”级别

美国达特茅斯工程学院本周四公布了对 OpenAI 首席技术官米拉・穆拉蒂的采访。穆拉蒂把 GPT-4 到 GPT-5 的飞跃描述为从高中生到博士生的成长。图源 Pexels“如果你看一下（GPT）进化的轨迹，像 GPT-3 这样的系统可能只有幼儿智力水平，而像 GPT-4 这样的系统则更像是聪明的高中生智力水平，在接下来的几年里，我们期待在特定任务上达到博士的智力水平。事情正在飞速变化、改善。”穆拉蒂强调“博士级”的智能仅适用于某些任务。“这些系统在特定任务中已经达到了人类水平（Human-level），当然，在许

6/22/2024 8:20:43 AM 清源

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

机器之能报道编辑：杨文玩梗、看病、耍心眼、做数学题，「新王」Claude 3.5能力真那么玄乎？它来了，它来了，它带着 Claude 3.5 Sonnet 走来了！蛰伏三个月，就在昨晚，OpenAI 的「劲敌」Anthropic 上新了，推出新一代模型 ——Claude 3.5 Sonnet！这款大模型有啥独到之处？首先，它更能把握住细微差别、幽默和复杂指令，并且书写语气更自然、亲切。它还是Anthropic最强的视觉模型，擅长解释图表、图形或者从不完美的图像中转录文本等任务。此外，它在推理、阅读理解、数学、科学和

6/21/2024 6:02:00 PM 机器之能

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。该机构表示，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲

6/20/2024 8:33:50 AM 清源

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

6月中旬，智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单：在有标准答案的“客观评测”中，GPT-4 以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中，Doubao-Pro 同样排名第二，得分超过 GPT-4o 和 GPT-4。图：豆包大模型在 FlagEval 客观评测中获综合评分第二（2024年6月）FlagEval 大

6/19/2024 9:30:00 AM 新闻助手

研究称 GPT-4 通过了图灵测试，54% 的人将其误认为真人

6/17/2024 2:51:16 PM 远洋

GPT-4o 更容易越狱？北航 & 南洋理工上万次测试给出详细分析

GPT-4o，比上一代更容易被越狱攻击了？来自北航和南洋理工的研究人员，通过上万次的 API 查询，对 GPT-4o 各种模态的安全性进行了详细测试。结果发现，GPT-4o 新引入的语音模态带来了新的攻击面，而且多模态整体安全性不敌 GPT-4V。具体来说，研究人员针对 4 个常用的基准测试，对 GPT-4o 支持的三种模态（文本、图像、音频）进行了测试。测试一共涉及到 4000 初始文本查询的优化，8000 响应判断，16000 次 OpenAI 的 API 查询。基于此，研究人员撰写了详细的报告，给

6/12/2024 3:44:32 PM 清源

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

GPT

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

SuperCLUE 中文大模型基准测评2024上半年报告

科大讯飞“讯飞晓医”App 获升级，号称无广告、无混杂消息

【IT之家评测室】讯飞星火大模型 V4.0 体验：全面进化，体验不输 GPT-4o

OpenAI CEO 阿尔特曼：GPT-5 将带来“巨大飞跃”

OpenAI 与《时代》达成合作协议：可用其杂志内容训练 ChatGPT

大模型 2024 高考发榜，豆包等三款国产 AI 考上文科一本线

10款国产大模型怒怼「玫瑰前夫」方协文，硬控了我30秒！

大模型2024高考发榜，豆包等三款国产AI考上文科一本线

15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的安全性

研究发现，OpenAI 的 GPT-4o 道德推理能力胜过人类专家

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

OpenAI 首席技术官：GPT-5 将在一年半后发布，部分领域智能达到“博士”级别

一手测评Claude 3.5：玩梗、看病、耍心眼 、做数学题，它真比GPT-4o强吗？

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

研究称 GPT-4 通过了图灵测试，54% 的人将其误认为真人

GPT-4o 更容易越狱？北航 & 南洋理工上万次测试给出详细分析

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？