任务

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

9/27/2024 5:36:00 PM

ScienceAI

迈向「多面手」医疗大模型，上交大团队发布大规模指令微调数据、开源模型与全面基准测试

编辑 | ScienceAI近日，上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队，在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》，从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。GitHub: Link: : ，大型语言模型（LLM）取得了显著的进展，并在医疗领域取得了一定成果。这些模型在医学多

9/3/2024 7:09:00 PM

ScienceAI

Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型，适用于二维姿势预估、身体部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。这些模型的参数数量各不相同，从 3 亿到 20 亿不等。它们采用视觉转换器架构，任务共享相同的编码器，而每个任务有不同的解码器头。二维姿势预估：这项任务包括检测和定位二维图像中人体的关键点。这些关键点通常与肘、膝和肩等关节相对应，有助于了解人的姿势和动作。身体部位分割：这项任务将图像分割成不同的身体部位，如头部、躯干、手臂和腿部。图像中的每个像

8/24/2024 2:36:02 PM

故渊

无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成

在长文本理解能力这块，竟然没有一个大模型及格！北大联合北京通用人工智能研究院提出了一个新基准数据集：LooGLE，专门用于测试和评估大语言模型（LLMs）长上下文理解能力。该数据集既能够评估 LLMs 对长文本的处理和检索能力，又可以评估其对文本长程依赖的建模和理解能力。结果不评不知道，一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。比如像 Claude3-200k，GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex 这种商业模型，

8/7/2024 12:46:42 PM

汪淼

专治 AI 大模型对错误答案“过于自信”，麻省理工学院提出新型高效低耗校准方法

人们正在越来越多地使用大模型完成各种任务，不论是翻译、总结文章还是识别金融诈骗，大模型都是“无所不包”。尽管这些模型都具有“惊人”能力，但它们偶尔也会生成错误答案，并对错误答案过于自信、对正确答案信心不足，使用户对大模型是否值得信任表示怀疑。据 MIT NEWS 今日报道，麻省理工学院（MIT）和 MIT-IBM Watson AI Lab 的研究人员提出了一种专为大型语言模型量身定制的校准方法。他们的方法被称为“温度计”，其原理是在大语言模型之上构建一个较小的辅助模型来对其进行校准。图源 Pexels据悉，这种被

7/31/2024 3:02:13 PM

清源

有效评估Agent实际表现，新型在线评测框架WebCanvas来了

当 LLM Agent 踏入真实的在线网络世界时，它们的表现能否如预期般游刃有余？

7/17/2024 3:00:00 PM

机器之心

击败25个分子设计算法，佐治亚理工、多伦多大学、康奈尔提出大语言模型MOLLEO

作者 | 佐治亚理工学院王浩瑞编辑 | ScienceAI分子发现作为优化问题，因其优化目标可能不可微分而带来显著的计算挑战。进化算法（EAs）常用于优化分子发现中的黑箱目标，通过随机突变和交叉来遍历化学空间，但这会导致大量昂贵的目标评估。在这项工作中，佐治亚理工学院、多伦多大学和康奈尔大学研究者合作提出了分子语言增强进化优化（MOLLEO），通过将拥有化学知识的预训练大语言模型（LLMs）整合到进化算法中，显著改善了进化算法的分子优化能力。该研究以《Efficient Evolutionary Search Ov

7/1/2024 4:14:00 PM

ScienceAI

人为破坏也能修正，中国首个视觉扩散架构人形机器人生成式模型发布

IT之家从天府发布官方公众号获悉，成都人形机器人创新中心发布了中国首个基于视觉扩散架构的人形机器人任务生成式模型 R-DDPRM。▲ 任务中断时的任务断点快速全局推理与接续执行能力该模型具有同时确定拿起物体的最佳抓持位姿、移动物体最佳路线、能耗最少最佳等多要素全局规划思维能力。能够在人为破坏任务进程时迅速进行决策修正和调整执行方式，接续完成任务，该模型的泛化能力能让人形机器人自主流畅完成从整理房间到复杂外科手术等各种复杂任务。成都人形机器人创新中心是中西部地区首个人形机器人创新中心，位于成都科创生态岛，是四川省人工

6/27/2024 3:43:11 PM

沛霖（实习）

GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

难度大升级的多任务长视频理解评测基准 MLVU 来了！由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢？最终排名第一的 GPT-4o 单选正确率还不足 65%。而且研究发现，大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明，提升上下文窗口，提升图像理解能力，以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开，具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计，大部分视频的长度都在 1

6/22/2024 4:32:26 PM

清源

OpenAI 首席技术官：GPT-5 将在一年半后发布，部分领域智能达到“博士”级别

美国达特茅斯工程学院本周四公布了对 OpenAI 首席技术官米拉・穆拉蒂的采访。穆拉蒂把 GPT-4 到 GPT-5 的飞跃描述为从高中生到博士生的成长。图源 Pexels“如果你看一下（GPT）进化的轨迹，像 GPT-3 这样的系统可能只有幼儿智力水平，而像 GPT-4 这样的系统则更像是聪明的高中生智力水平，在接下来的几年里，我们期待在特定任务上达到博士的智力水平。事情正在飞速变化、改善。”穆拉蒂强调“博士级”的智能仅适用于某些任务。“这些系统在特定任务中已经达到了人类水平（Human-level），当然，在许

6/22/2024 8:20:43 AM

清源

22个任务超越SOTA，43个任务媲美SOTA，Google推出医学治疗通用大模型

编辑 | 萝卜皮医生和科学家如果想开发一种新的疗法，这将是一个漫长且昂贵的任务，需要满足许多不同的标准，而能够加快这一过程的人工智能模型将是无价之宝。然而，目前大多数人工智能方法只能解决一组定义狭窄的任务，通常局限于特定领域。为了弥补这一差距，Google 团队提出了 Tx-LLM，这是一种通用大型语言模型（LLM），由 PaLM-2 微调而成，可编码有关各种治疗方式的知识。仅使用一组权重，Tx-LLM 可同时处理与自由文本交织的各种化学或生物实体（小分子、蛋白质、核酸、细胞系、疾病）信息，使其能够预测广泛的相关属

6/12/2024 2:36:00 PM

ScienceAI

新型人形机器人 Menteebot 亮相：人类可用自然语言向其发号施令

初创公司 Mentee Robotics 今日展示了旗下首款人形机器人的原型，号称在所有操作层都继承了人工智能，也是“你可以指导的”个性化人工智能机器人。 IT之家汇总该产品大致信息：它可以奔跑、侧身行走甚至转弯，官方称其具有与人类相同的平衡和控制力。据介绍，它在举起重物时还会调整步态。功能层面，该机器人内置人工智能算法、自然语言处理模型和软件，可以启动“高级训练技术”。该公司表示，这意味着机器人不会受限于有限的命令集，甚至可以与人类进行对话，用户可以通过自然语言向机器人发出指令。此外，其内置的自然语言处理模型

4/17/2024 10:13:59 PM

清源

联合国际顶尖高校昆仑万维开源数字智能体研发工具包AgentStudio

AgentStudio旨在为研究人员和开发者提供一个覆盖智能体完整开发流程的综合性平台，让开发者们能够轻松、高效、灵活地构建专属数字智能体。

3/30/2024 10:21:00 AM

机器之心

微软亚研院新作：让大模型一口气调用数百万个 API

近年来，人工智能发展迅速，尤其是像 ChatGPT 这样的基础大模型，在对话、上下文理解和代码生成等方面表现出色，能够为多种任务提供解决方案。但在特定领域任务上，由于专业数据的缺乏和可能的计算错误，它们的表现并不理想。同时，虽然已有一些专门针对特定任务的 AI 模型和系统表现良好，但它们往往不易与基础大模型集成。为了解决这些重要问题，TaskMatrix.AI 破茧而出、应运而生，这是由微软（Microsoft）设计发布的新型 AI 生态系统。其核心技术近期在《科学》合作期刊 Intelligent Computi

3/28/2024 12:52:01 PM

汪淼

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

现代人工智能之父Jürgen：“将人类文明视为一个更宏伟计划的一部分”

11/8/2023 4:09:00 PM

新闻助手

机器会说话 | 李学龙团队建立无人机“聊天群”

在线群聊极大地方便了人们的沟通方式，能否把机器也拉进群，让它们组团商量着干活，并和人类无障碍地沟通和交流，更好地服务于生产生活？

10/28/2023 1:37:00 PM

新闻助手

MIT研究人员将Transformer与图神经网络结合，用于设计全新蛋白质

编辑 | 萝卜皮凭借其复杂的排列和动态功能，蛋白质通过采用简单构建块的独特排列（其中几何形状是关键）来执行大量的生物任务。将这个几乎无限的排列库转化为各自的功能，可以方便研究人员设计用于特定用途的定制蛋白质。麻省理工学院（MIT）的 Markus Buehler 提出了一种灵活的基于语言模型的深度学习策略，将 Transformer 与图神经网络结合起来，以更好地理解和设计蛋白质。「通过这种新方法，我们可以通过对基本原理进行建模，利用大自然发明的一切作为知识基础。」Buehler 说，「该模型重新组合了这些自然构建

9/12/2023 6:02:00 PM

ScienceAI

陶哲轩：初学者不宜用AI工具做专家级任务，GPT对专家帮助不大

对于不同技能水平的人，使用 GPT 等 AI 工具收获的成效也大不一样。

9/11/2023 7:24:00 AM

机器之心

资讯热榜

腾讯混元推出业界首个美术级 3D 生成大模型 Hunyuan3D-PolyGen，建模效率提升超七成 OpenAI 重申今夏推出最强模型 GPT-5，具备完整多模态 AI 能力 Character.AI 突破性技术：实时 AI 角色视频互动刷新复杂Agent推理记录！阿里通义开源网络智能体超越DeepSeek R1，Grok-3 香港数码港：香港 AI 超算中心已有超九成资源投入使用日农机厂商久保田推出农户专用生成式 AI 服务，可解答农作物种植有关问题 ChatGPT 推出“一起学习”功能：不直接给答案，引导用户自主思考阿里通义开源网络智能体 WebSailor，登顶开源网络智能体榜单

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌数据机器人大模型 Midjourney 用户智能开源微软 Meta GPT 学习图像技术 Gemini AI创作马斯克论文 Anthropic 代码英伟达算法 Stable Diffusion 智能体芯片训练开发者生成式腾讯蛋白质苹果 AI新词神经网络 3D Claude 研究生成 LLM 机器学习计算 Sora AI视频 AI设计 GPU 人形机器人 AI for Science xAI 华为百度搜索大语言模型 Agent 场景字节跳动预测深度学习伟达大型语言模型工具 Transformer RAG 视觉神器推荐具身智能 Copilot 模态亚马逊 AGI LLaMA 文本算力驾驶

任务

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

迈向「多面手」医疗大模型，上交大团队发布大规模指令微调数据、开源模型与全面基准测试

Meta 发布 Sapiens 视觉模型，让 AI 分析和理解图片 / 视频中人类动作

无一大模型及格！北大 / 通研院提出超难基准 LooGLE，专门评估长文本理解生成

专治 AI 大模型对错误答案“过于自信”，麻省理工学院提出新型高效低耗校准方法

有效评估Agent实际表现，新型在线评测框架WebCanvas来了

击败25个分子设计算法，佐治亚理工、多伦多大学、康奈尔提出大语言模型MOLLEO

人为破坏也能修正，中国首个视觉扩散架构人形机器人生成式模型发布

GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

OpenAI 首席技术官：GPT-5 将在一年半后发布，部分领域智能达到“博士”级别

22个任务超越SOTA，43个任务媲美SOTA，Google推出医学治疗通用大模型

新型人形机器人 Menteebot 亮相：人类可用自然语言向其发号施令

联合国际顶尖高校 昆仑万维开源数字智能体研发工具包AgentStudio

微软亚研院新作：让大模型一口气调用数百万个 API

目标智能体社会，MetaGPT携手Jürgen Schmidhuber团队

机器会说话 | 李学龙团队建立无人机“聊天群”

MIT研究人员将Transformer与图神经网络结合，用于设计全新蛋白质

陶哲轩：初学者不宜用AI工具做专家级任务，GPT对专家帮助不大

联合国际顶尖高校昆仑万维开源数字智能体研发工具包AgentStudio