大模型

IBM Granite 3.0模型：为大规模企业AI应用指明方向

IBM在企业AI领域做出了一系列颇为独特的探索。蓝色巨人目前正在推动全栈技术布局，以自2020年来兴起的AI和混合云作为企业战略领域的两大基础性支柱，同时借鉴了自身在其产品组合中积累下的优势。更重要的是，这套方案扭转了主要以AI概念验证为目标的总体趋势，转而专注于解决高度具体的业务用例，且执行效率更高。

11/6/2024 3:34:51 PM

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列，参数规模达2100亿

生命科学领域，已经率先进入到基础模型时代！今年，化学诺贝尔奖授予了AlphaFold，AI Science受到空前的关注。人们惊叹于，仅仅是一个蛋白质结构预测模型，就能释放出如此巨大的行业潜力。

11/6/2024 2:58:05 PM 量子位

从谷歌、微软、百度，到Perplexity、Kimi、秘塔，大模型真的“搭”上了搜索的快车吗？

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）回到一年前， Perplexity 可能没想到自己押宝的这条赛道如今挤满了人。毕竟，直到今年 4 月，这家 AI 搜索的领头羊才刚刚迈入 10 亿美元俱乐部。然而就在上周，谷歌和 OpenAI 前后脚发布了新的 AI 搜索功能，大有打擂台的硝烟味。

11/5/2024 6:58:05 PM 伊风

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

中国电信人工智能研究院（TeleAI）在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进行预训练，再通过少量有标注数据进行微调。

11/3/2024 9:37:53 AM 沛霖（实习）

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。

11/1/2024 2:44:00 PM 新闻助手

独家丨字节招兵买马，拟在欧洲设立AI研发中心

知情人士透露，字节跳动目前已经开始寻找欧洲的 LLM 和 AI 方面技术大牛，积极招揽人才。而纵观欧洲各国的 AI 技术水平，瑞士、英国和法国相对靠前。其中，瑞士和英国都有不少知名院校。

10/31/2024 2:57:00 PM 晓楠

95 后创业者 VAST 宋亚宸：要做3D「抖音」内容平台

2022 年 9 月接近尾声的一天，Google 发布了文生 3D 技术DreamFusion，利用预训练的 2D 文本到图像扩散模型，提出SDS（score distillation scapling）方法，首次完成开放域文本到 3D的合成。听到这个消息时，宋亚宸非常激动，他在商汤时就很关注 3D 生成技术。 DreamFusion的发布对于整个3D领域是一个大的转折点，意味着 3D内容制作的成本和门槛趋近于零，虽然生成的 3D模型效果很差，但已经是一个大的技术变革。

10/31/2024 11:26:00 AM 张进

实时音视频领域拓荒者的十年

2015 年，声网将WebRTC大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的RTC（实时视音频）大会。在大会开始的前夕，现任声网市场VP、RTC大会主策人彭小欢失眠了，她非常担心明天会不会有人来。一晃十年过去了，当年的RTC大会早已升级为RTE（实时互联网）大会， 10 月 25 日RTE 2024也如期而至，但早已不用担心是否有人光顾，现场可谓是座无虚席。

10/31/2024 10:31:00 AM 张进

西湖大学发布 “AI 科学家” Nova，效果相比SOTA提升2.5倍

还记得今年夏天让众多科研工作者“瑟瑟发抖”的 AI scientist 吗？彼时的它，作为一个由谷歌Transformer 论文作者 Llion Jones 和前谷歌研究人员 David Ha 共同创立的全自动科学研究平台，从提出研究设想、检查创新程度，再到设计实验、编写程序、再GPU上执行实验并收集结果，到最后完成论文的撰写，一气呵成，让不少科研工作者早早就有了“事业危机感”。此外，该项目还获得了New Enterprise Associates、Khosla Ventures、Lux Capital等多家全球知名投资机构以及NVIDIA等产业投资人的投资，进一步推动了其技术突破和市场化落地。

10/23/2024 3:44:00 PM 郑佳美

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI近年来，大语言模型（LLMs）已在自然语言、计算机视觉等通用领域引发了新一轮技术革命，通过大规模语料和模型参数进行预训练，LLMs能够掌握语言的共性规律，能够对多种下游任务产生质的提升，已经形成了新的人工智能范式。在生命科学领域，单细胞组学技术的突破产生了大量不同物种细胞的基因表达谱数据，形成了海量的生命「语料」。如果把基因表达值看作单词，组合在一起构成细胞「句子」，进而形成组织「段落」和器官「文章」，并将不同物种作为生命「语种」，利用LLMs相关技

10/8/2024 2:03:00 PM ScienceAI

给机器人装上「虫脑」？非Transformer液态神经网络终于来了！MIT CSAIL负责人创业成果

在大模型时代，谷歌 2017 年开创性论文《Attention Is All You Need》中提出的 Transformer 已经成为主流架构。然而，刚刚一家由 MIT 计算机科学与人工智能实验室 (CSAIL) 前研究人员共同创立的初创公司 Liquid AI 却走出了不一样的路线。Liquid AI 表示他们的目标是「探索构建超越生成式预训练 Transformer (GPT) 基础模型的方法」。为了实现这一目标，Liquid AI 推出了其首批多模态 AI 模型：Liquid Foundation Mod

10/1/2024 2:20:00 PM 机器之心

最受欢迎开源大模型，为什么是通义？

开源与闭源之争早已非新奇的话题，但毋庸置疑的是，开源极大地促进了大模型技术发展和生态繁荣。大模型被认为是最烧钱的技术，训练一个大模型往往需要大量的数据、计算资源，导致训练成本巨大，众所周知GPT-3的训练费用据说超过 4600万美元，在大模型开源之前，大模型一直是那些有大量资金加持的大厂和明星创业公司才有资格碰的事情。随着如 llama、Mistral、Falcon 这些开源先锋搅动了整个大模型竞争浪潮，那些没有AI积累的企业、大量中小公司团队，今天个人开发者，都能基于开源底座模型，用很低的成本训练、部署自己的专属模型，llama 这样的开源先锋也因此拥有一众拥趸。

9/29/2024 11:15:00 AM 张进

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

编辑 | ScienceAI随着全球糖尿病患病率的逐年攀升，糖尿病已成为全球范围内极具挑战的公共健康问题。据统计，全球约有 10% 的人口受到糖尿病的影响。到 2045 年，全球糖尿病患者人数预计将攀升至惊人的 7.83 亿。然而，由于糖尿病医生短缺、医疗资源分布不均以及患者自我管理能力的不足，糖尿病的管理和治疗仍面临重重困难。如何高效、智能化地管理糖尿病，已成为当前医学界和科技界共同关注的重要课题。为应对这一挑战，上海交通大学清源研究院 MIFA 实验室与复旦大学附属中山医院内分泌科组成的研究团队，联手开发出一款

9/24/2024 2:35:00 PM ScienceAI

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

编辑 | KX9 月 23 日，IBM 与 NASA 合作发布了一个用于天气和气候的新型通用 AI 模型 Prithvi WxC，该模型可以在台式计算机上运行，且开源。Prithvi WxC 具有 23 亿参数，使用 MERRA-2 数据集的 160 个变量开发而成。Prithvi WxC 采用创新的 Transformer 架构。研究人员在一系列具有挑战性的下游任务上测试了该模型，即：自回归滚动预测、降尺度、重力波通量参数化和极端事件估计。由于其独特的设计和训练机制，Prithvi WxC 可以解决比现有天气 A

9/24/2024 2:35:00 PM ScienceAI

大语言模型如何助力药物开发? 哈佛团队最新综述

作者 | 莫纳什大学郑伊圳编辑 | ScienceAI大语言模型因其展现出类人般的推理、工具使用和问题解决能力而备受瞩目，此外，它在化学、生物学等专业领域也展现出深厚的理解能力，进一步提升了其应用价值。近日，哈佛大学、莫纳什大学和格里菲斯大学（Griffith University）组成的研究团队，发表最新综述《Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials》。论文

9/18/2024 4:37:00 PM ScienceAI

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

天下武功唯快不破，但 OpenAI 不走寻常路，新出的 o1 系列宣告天下：我们更慢，但更强了。 o1 要花更多的时间思考问题，再做出反应，但在复杂推理层面直接窜了几个档位。在国际数学奥林匹克 (IMO) 资格考试中，GPT-4o 仅正确解决了 13% 的问题，而 o1 得分为 83%。

9/13/2024 3:50:00 PM 刘洁

元象发布中国最大MoE开源大模型落地应用登顶港台榜

元象XVERSE发布中国最大MoE开源模型：XVERSE-MoE-A36B，加速AI应用低成本部署，将国产开源提升至国际领先水平。该模型总参数255B，激活参数36B，达到100B模型性能的「跨级」跃升，同时训练时间减少30%，推理性能提升100%，使每token成本大幅下降。元象「高性能全家桶」系列全部开源，无条件免费商用，让海量中小企业、研究者和开发者能按需选择。

9/13/2024 11:58:00 AM 朱可轩

端侧ChatGPT时刻！这家清华系大模型公司赶在OpenAI、苹果之前

下周苹果即将召开发布会了！但最令笔者期待的不是 iphone16，而是苹果今年提出的 Apple Intelligence 的进展，这是苹果今年进军端侧 AI 的一大杀手锏。其实早在今年年初，国内就有一家当时还名不见经传的大模型公司率先喊出 “端侧AI是未来大趋势”的口号，当时还没有太多玩家意识到端侧AI的重要性。

9/9/2024 3:54:00 PM 我在思考中

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉

大模型

IBM Granite 3.0模型：为大规模企业AI应用指明方向

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列，参数规模达2100亿

从谷歌、微软、百度，到Perplexity、Kimi、秘塔，大模型真的“搭”上了搜索的快车吗？

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

独家丨字节招兵买马，拟在欧洲设立AI研发中心

95 后创业者 VAST 宋亚宸：要做3D「抖音」内容平台

实时音视频领域拓荒者的十年

西湖大学发布 “AI 科学家” Nova，效果相比SOTA提升2.5倍

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

给机器人装上「虫脑」？非Transformer液态神经网络终于来了！MIT CSAIL负责人创业成果

最受欢迎开源大模型，为什么是通义？

上交大、复旦中山团队开发糖尿病专用大语言模型，助力个性化糖尿病管理

23亿参数，Transformer架构，NASA、IBM发布「天气+气候」通用AI模型Prithvi WxC

大语言模型如何助力药物开发? 哈佛团队最新综述

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

元象发布中国最大MoE开源大模型 落地应用登顶港台榜

端侧ChatGPT时刻！这家清华系大模型公司赶在OpenAI、苹果之前

元象发布中国最大MoE开源大模型落地应用登顶港台榜