数据
ICLR2024 | Harvard FairSeg: 第一个研究分割算法公平性的大型医疗分割数据集
作者 | 田宇编辑 | 白菜叶近年来,人工智能模型的公平性问题受到了越来越多的关注,尤其是在医学领域,因为医学模型的公平性对人们的健康和生命至关重要。高质量的医学公平性数据集对促进公平学习研究非常必要。现有的医学公平性数据集都是针对分类任务的,而没有可用于医学分割的公平性数据集,但是医学分割与分类一样都是非常重要的医学 AI 任务,在某些场景分割甚至优于分类,因为它能够提供待临床医生评估的器官异常的详细空间信息。在最新的研究中,哈佛大学(Harvard University)的Harvard-Ophthalmolo
1/23/2024 6:10:00 PM
ScienceAI
2023京东零售技术年度盘点
过去一年,围绕开放生态建设、低价心智等主要方向,京东零售技术团队持续攻坚。从百亿补贴、调整流量分配机制为用户提供低价品质好货,到简化商家进驻流程、优化商家体验,带动商家数量增长和平台生态活跃,再到将大模型结合到内部大量业务场景,探索效率提升……快速响应、助力业务的同时,京东零售技术团队继续夯实增强自身能力、探索创新。我们选取了11项有代表性的技术成果,与大家分享。供应链创新技术入围行业最高奖项 京东长期致力于通过前沿的数智化技术和算法,提高供应链效率。2023年,智能供应链团队提出并应用了端到端库存管理技术和可解释
1/23/2024 3:49:00 PM
机器之心
OpenLAM | 深度势能预训练大模型DPA-2发布
在迈向通用大原子模型(Large Atomic Model,LAM)的征途上,深度势能核心开发者团队面向社区,发起 OpenLAM 大原子模型计划。OpenLAM 的口号是“征服元素周期表!”,希望通过建立开源开放的围绕微尺度大模型的生态,为微观科学研究提供新的基础设施,并推动材料、能源、生物制药等领域微尺度工业设计的变革。经过北京科学智能研究院、深势科技、北京应用物理与计算数学研究所等 29 家单位的 42 位合作者的通力协作,深度势能团队近日面向社区发布了深度势能预训练大模型 DPA-2,将成为 OpenLAM
12/28/2023 6:02:00 PM
ScienceAI
华东政法数据法律研究中心、蚂蚁集团等发布《数据跨域管控白皮书》
12月27日,在“第六届中国数据法律高峰论坛”上,《数据跨域管控白皮书》(以下简称“白皮书”)正式发布。该白皮书由华东政法大学数据法律研究中心、蚂蚁集团牵头,华控清交、华为云、中电数创、广州数据交易所等单位联合参与。白皮书首次系统化给出了数据跨域管控的实操指引,是行业积极响应国家数据流通政策,共同应对数据滥用、数据泄露、责任不清等数据流通风险挑战,助力数据价值释放的重要成果。 (《数据跨域管控白皮书》发布,参编单位代表及嘉宾共同见证)我国已将数据列为重要生产要素,并且鼓励数据要素流通。12月8日,国家数据局局长刘烈
12/28/2023 4:51:00 PM
新闻助手
第四范式、南洋理工联合研究成果入围国际顶会 SIGMOD 2024
近日,第四范式与新加坡南洋理工大学教授Shuhao Zhang的最新联合研究成果(乱序数据流中实现主动误差补偿的流式窗口连接,论文标题 PECJ: Stream Window Join on Disorder Data Streams with Proactive Error Compensation),被国际顶级数据库学术会议 SIGMOD 2024 (ACM SIGMOD/PODS International Conference on Management of Data 2024)作为常规研究论文录取。SI
12/18/2023 4:49:00 PM
新闻助手
腾讯科技Hi Tech Day暨2023数字开物大会:智能涌现将通往无数的未来
腾讯科技讯 12月14日,以“智能涌现 数开万物”为主题的腾讯科技Hi Tech Day暨2023数字开物大会在北京国家会议中心召开,腾讯科技邀请知名院士、知名经济学家、知名大学教授、研究院院长、产业大咖、互联网大厂高管、知名科技领域头部企业高管、产业数字化转型企业高管等共话AI趋势。大会开场,腾讯新闻运营总经理黄晨霞发表主办方致辞。她回顾了2023年新技术的涌现发展,并提出如何让这些新技术打开真正的产业变革之门,为人类社会创造更多的福祉的思考。黄晨霞表示,在应用落地的路上,我们要厘清大模型的基础还有哪些卡点、AI
12/16/2023 7:36:00 PM
新闻助手
为通用人工智能提速,蚂蚁图计算连续四次打破权威测评世界纪录
近日,国际关联数据基准委员会(Linked Data Benchmark Council,以下简称LDBC)发布了图数据基准测评“LDBC SNB-BI”最新结果。由蚂蚁集团自研的流式图计算引擎TuGraph Analytics在30TB规模的数据集上成功完成了基准测试,数据规模和性能打破了此前美国某图数据库厂商的公开纪录,关键指标中的并发吞吐量提升至2.84倍,查询能力提升至1.86倍。 LDBC官方公布蚂蚁LDBC SNB-BI测评新纪录在本次测评中,测试产品需要快速导入和分析30TB 规模的数据,处理多达72
12/12/2023 10:47:00 AM
新闻助手
哈工大与腾讯开发:一种专门针对蛋白质组数据设计的反卷积方法
编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,
10/25/2023 11:10:00 AM
ScienceAI
哈工大与腾讯团队合作开发:一种专门针对蛋白质组数据设计的深度学习反卷积方法
编辑 | 萝卜皮细胞类型反卷积是一种用于从大量测序数据中确定/解析细胞类型比例的计算方法,并且经常用于分析肿瘤组织样本中的不同细胞类型。然而,由于重复性/再现性、参考标准可变以及缺乏单细胞蛋白质组参考数据的挑战,使用蛋白质组数据分析细胞类型的反卷积技术仍处于起步阶段。哈尔滨工业大学、腾讯 AI lab 以及苏黎世联邦理工学院的研究团队合作开发了一种专门针对蛋白质组数据设计的基于深度学习的反卷积方法(scpDeconv)。scpDeconv 使用自动编码器利用来自批量蛋白质组数据的信息来提高单细胞蛋白质组数据的质量,
10/24/2023 3:00:00 PM
ScienceAI
1句指令+5美元+20分钟,就能训练出小型专业模型,Prompt2Model了解一下
大规模语言模型(LLM)使用户可以借助提示和上下文学习来构建强大的自然语言处理系统。然而,从另一角度来看,LLM 在特定自然语言处理任务上表现存在一定退步:这些模型的部署需要大量计算资源,并且通过 API 与模型进行交互可能引发潜在的隐私问题。为了应对这些问题,来自卡内基梅隆大学(CMU)和清华大学的研究人员,共同推出了 Prompt2Model 框架。该框架的目标是将基于 LLM 的数据生成和检索方法相结合,以克服上述挑战。使用 Prompt2Model 框架,用户只需提供与 LLM 相同的提示,即可自动收集数据
8/31/2023 5:10:00 PM
机器之心
3000多条数据里选出200条效果反而更好,MiniGPT-4被配置相同的模型超越了
今年四月诞生的多模态大型语言模型 MiniGPT-4 不仅能看图聊天,还能利用手绘草图建网站,可以说是功能强大。而在预训练之后的微调阶段,该模型使用了 3000 多个数据。确实很少,但上海交通大学清源研究院和里海大学的一个联合研究团队认为还可以更少,因为这些数据中大部分质量都不高。他们设计了一个数据选择器,从中选出了 200 个数据,然后训练得到了 InstructionGPT-4 模型,其表现竟优于微调数据更多的 MiniGPT-4!这究竟是如何做到的?
8/29/2023 2:21:00 PM
机器之心
OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽
众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。
8/8/2023 2:24:00 PM
机器之心
企业数据,大语言模型和矢量数据库
随着 ChatGPT 的推出,通用人工智能的时代缓缓拉开序幕。我们第一次看到市场在追求人工智能开发者,而不是以往的开发者寻找市场。
8/1/2023 11:30:00 AM
机器之心
大模型与知识图谱融合?爱数推出基于大模型的领域认知智能产品与方案
大模型的影响力正在深入各行业,对各厂商而言,既是机遇也是挑战。2023年世界人工智能大会期间,超过30家大模型厂商在上海亮相,有人在大炼模型,也有人迅速找到场景落地,事实上在大模型出现之前就已经有一些天然的场景需求。在数据总量越来越大的今天,数据存储、数据管理、数据xx的重要性正在B端企业凸显。换句话说数据已经成为企业的有形资产,数据治理正在成为新经济增长的重要方向之一。越来越多数据厂商正在思考——如何用大模型赋能数据治理。2023世界人工智能大会期间,爱数在“大模型时代的领域认知智能”论坛上宣布,全面升级AnyS
7/18/2023 2:51:00 PM
机器之心
单细胞生物学基础大型语言模型scGPT更新版来了,在超3300万个细胞上进行预训练
编辑 | 紫罗就在前不久,多伦多大学研究团队发布首个单细胞生物学基础大型语言模型:scGPT,其在超 1000 万个细胞上进行预训练。现在,该研究团队首次尝试对超过 3300 万个细胞进行生成预训练来更新 scGPT。论文的通讯作者、多伦多大学助理教授 Bo Wang 在推特激动发文:「令人兴奋的 scGPT 更新:自 4 月份发布以来,受到社区的极大关注,我们很高兴地宣布单细胞多组学数据的基础模型 scGPT 的首次重大更新。」更新后的研究以「scGPT: Towards Building a Foundatio
7/5/2023 6:11:00 PM
ScienceAI
资讯热榜
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型!
刚刚,ChatGPT终于可以走遍整个互联网了!OpenAI深夜炸街:原生ChatGPT集成、即时理解、主动执行,浏览器赛道鲨疯了
告别抽卡!Vidu Q2多图参考生视频功能重磅上线
最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马!
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
通义千问再放大招!Qwen3-VL 家族新增 2B 与 32B 模型,开源矩阵全面升级
保姆级教程!教你用Coze工作流2分钟生成优质文章
OpenAI 招募逾百名前投行人士训练 AI,目标干掉初级银行从业者的重复活
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
芯片
AI for Science
腾讯
Stable Diffusion
Agent
苹果
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
AI视频
生成
RAG
大语言模型
Sora
百度
具身智能
工具
GPU
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
视频生成
场景
深度学习
DeepMind
架构
生成式AI
视觉
编程
预测
Transformer
AI模型
伟达
特斯拉
Copilot