数据
快手基于 Flink 构建实时数仓场景化实践
一、快手实时计算场景快手业务中的实时计算场景主要分为四块:公司级别的核心数据:包括公司经营大盘,实时核心日报,以及移动版数据。相当于团队会有公司的大盘指标,以及各个业务线,比如视频相关、直播相关,都会有一个核心的实时看板;大型活动实时指标:其中最核心的内容是实时大屏。例如快手的春晚活动,我们会有一个总体的大屏去看总体活动现状。一个大型的活动会分为 N 个不同的模块,我们对每一个模块不同的玩法会有不同的实时数据看板;运营部分的数据:运营数据主要包括两方面,一个是创作者,另一个是内容。对于创作者和内容,在运营侧,比如上
8/25/2021 2:45:00 PM
阿里云大数据AI技术
拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你
只需要把公式图片用鼠标拖动到工具内,就能一键转成 LaTex 公式。
8/15/2021 12:35:00 PM
机器之心
Snowflake如日中天是否代表Hadoop已死?大数据体系到底是什么?
作者 | 阿里云计算平台研究员关涛、阿里巴巴项目管理专家王璀任何一种技术都会经历从阳春白雪到下里巴人的过程,就像我们对计算机的理解从“戴着鞋套才能进的机房”变成了随处可见的智能手机。在前面20年中,大数据技术也经历了这样的过程,从曾经高高在上的 “火箭科技(rocket science)”,成为了人人普惠的技术。回首来看,大数据发展初期涌现了非常多开源和自研系统,并在同一个领域展开了相当长的一段“红海”竞争期,例如Yarn VS Mesos、Hive VS Spark、Flink VS SparkStreaming
8/11/2021 3:43:00 PM
阿里云大数据AI技术
数仓架构的持续演进与发展 — 云原生、湖仓一体、离线实时一体、SaaS模式
数据仓库概念从1990年提出,经过了四个主要阶段。从最初的数据库演进到数据仓库,到MPP架构,到大数据时代的数据仓库,再到今天的云原生的数据仓库。在不断的演进过程中,数据仓库面临着不同的挑战。
8/11/2021 3:12:00 PM
阿里云大数据AI技术
Hologres揭秘:深度解析高效率分布式查询引擎
Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供实时决策的能力,让大数据发挥出更大的商业价值。Hologres作为HSAP服务分析一体化的落地最佳实践,其查询引擎是一个完全自研的执行引擎,它的核心设计目标是支持所有类型的分布式分析和服务查询,并做到极致查询性能。为了做到这一点,我们借鉴了各
8/11/2021 3:09:00 PM
阿里云大数据AI技术
融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系
本文由 T3 出行大数据平台负责人杨华和资深大数据平台开发工程师王祥虎介绍 Flink、Kylin 和 Hudi 湖仓一体的大数据生态体系以及在 T3 的相关应用场景,内容包括:
湖仓一体的架构
Flink/Hudi/Kylin 介绍与融合
T3 出行结合湖仓一体的实践
8/11/2021 3:08:00 PM
阿里云大数据AI技术
百分点大数据技术团队:ClickHouse国家级项目性能优化实践
编者按ClickHouse自从2016年开源以来便备受关注,主要应用于数据分析(OLAP)领域,各个大厂纷纷跟进大规模使用。百分点科技在某国家级项目建设中完成了多数据中心的ClickHouse集群建设,日增千亿数据量,在此基础上进行优化与性能调优,能够更好地解决部署规模扩大和数据量扩容等问题。本文结合项目的数据规模及业务场景,重点介绍了百分点大数据技术团队在ClickHouse国家级项目建设中的性能优化实践。一、概览2020年4月,百分点大数据技术团队结合某国家级多数据中心的Clickhouse集群建设,发表了“C
7/22/2021 9:58:00 AM
百分点科技
Hologres揭秘:高性能原生加速MaxCompute核心原理
Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构,与此同时为业务提供实时决策的能力,让大数据发挥出更大的商业价值。从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologres底层技术原理揭秘系列,从
7/12/2021 6:21:00 PM
阿里云大数据AI技术
经济学家看「数据」,何谓数据资产时代?
「数据是一切的起点,中国又是数据大国,这使得数据运作在中国变得非常重要。」在昨日举行的2021BAAI智源大会首日全体大会上,清华大学国家金融研究院院长朱民发表了题为《数据资产时代》的主题演讲,剖析了数据的经济学属性和资产特性,阐释了数据资产化的意义和必要性,解读了数据资产化转型将面临的挑战和应对策略。本文整理了朱民博士演讲的部分内容,并在文末附有相关演讲资料。整理报道 | 齐健数据在今天的社会中无处不在,随着数据规模的扩大,数据应用的加深,人们开始愈发重视数据的经济学特征。数据的虚拟特性,使其可重复使用,且转移成
6/2/2021 4:26:00 PM
机器之能
百分点科技杜晓梦:数据科学的下一片“战场”
编者按:如今在科技领域,越来越多的女性从业者成为行业中坚力量,“她智慧”不同视⻆的思维方式,以及她们对事物的敏感度和包容性,使得这些女性领导者在企业管理过程中具有敏锐的洞察力、缜密的思辨力和透彻而深入的分析能力。2021年,数字商业时代联合中国网开展了2021年度专题策划:科技创新中的“她观点”,以女性的视角专业解读科技创新源动力,百分点科技首席数据科学家杜晓梦受邀接受采访,以独特的视角解读了何为数据科学,它的下一片“战场”在哪里?每秒超过1.7兆的新信息,这是现阶段数据时代为经济社会变革而提供的基础环境,伴随技术
5/14/2021 11:34:00 AM
百分点科技
【征稿】IJCAI 2021联邦学习与迁移学习国际研讨会
数字时代,隐私和安全正成为一个关键问题。公司和组织每天都在收集大量的数据,然而数据隐私保护相关法律法规越来越严格,给大数据和人工智能带来了新的挑战。例如欧盟的《通用数据保护条例》(General data Protection Regulation,GDPR)就明确提出,禁止在没有明确用户授权的情况下,直接合并来自不同来源的用户数据进行AI建模。为了探索AI如何适应这种新的监管环境,微众银行、京东、第四范式等中国企业联合香港科技大学、新加坡南洋理工大学、普林斯顿大学等国际知名高校及科研院所,将在第30届人工智能国际
4/9/2021 11:16:00 AM
新闻助手
矩阵元获批“上海市分布式隐私人工智能技术创新中心”
近日,上海市科学技术委员会发布了《关于2020年度上海市技术创新中心建设立项的通知》,为贯彻落实《关于进一步深化科技体制机制改革 增强科技创新中心策源能力的意见》,推进重点产业领域技术创新,经专家评审论证,确定将“上海市特种数控装备技术创新中心”等18家技术创新中心列入2020年度上海市技术创新中心建设立项计划。矩阵元全资子公司上海阵方科技有限公司将承担“上海市分布式隐私人工智能技术创新中心”的建设工作。党的十九届四中全会提出将数据与资本、土地、知识、技术和管理并列作为可参与分配的生产要素,这体现出数据在国民经济运
3/25/2021 2:21:00 PM
新闻助手
百分点认知智能实验室:基于不完全标注样本集的信息抽取实践
编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业
3/25/2021 2:12:00 PM
百分点科技
百分点科技:媒体数据中台建设方法论和落地实践
编者按媒体融合下半场的重心将向智能化趋势发展。如何打造实用有效的媒体数据产品和服务,继而完成数智化转型,已成为媒体行业当前最为关注的问题。本文围绕当前媒体机构的转型需求,百分点科技大数据技术团队系统地介绍了百分点科技媒体数据中台建设方法论及实践成果。一、媒体数据中台建设背景以报纸、出版、广播电视等为代表的传统媒体,和以网站、新闻客户端、微博、微信公众号、IPTV、OTT等为代表的新媒体产品,无论是呈现方式、传播途径,还是建设目标、技术体系都大不相同,这就导致了系统建设重复浪费、各应用系统和发布渠道各自为政,出现业务
3/10/2021 5:04:00 PM
百分点科技
百分点大数据技术团队:数据治理“PAI”实施方法论
编者按数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需求个性化、数据应用智能化的需求,以及在2B和2G行业中数据质量参差不齐、数据应用难以发挥价值、数据资产难以沉淀等问题,如何做好数据治理工作、提升数据治理能力成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据治理项目经验,总结了一套做好数据治理工作及提升数据治理能力的实施方法论。近年来,推动数据治理体系建设一直是业界探索的热点,另外,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数
3/10/2021 4:51:00 PM
百分点科技
资讯热榜
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
机器人
数据
谷歌
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
英伟达
生成式
蛋白质
开发者
Anthropic
腾讯
研究
神经网络
3D
计算
生成
Sora
机器学习
AI设计
AI for Science
苹果
GPU
训练
AI视频
华为
Claude
搜索
场景
人形机器人
百度
智能体
xAI
预测
伟达
大语言模型
深度学习
Transformer
字节跳动
模态
LLaMA
文本
具身智能
神器推荐
Copilot
视觉
驾驶
API
应用
Agent
算力
大型语言模型
工具
安全
干货合集
视频生成