找回密码
 会员注册
查看: 15|回复: 0

哔哩哔哩大数据建设之路—数据开发篇

[复制链接]

9

主题

0

回帖

28

积分

新手上路

积分
28
发表于 2024-10-6 23:29:22 | 显示全部楼层 |阅读模式
本期作者韩志华大数据平台工具负责人赵孔明大数据平台资深开发工程师邓晓大数据平台资深开发工程师01 平台总体简介?1.1 数据平台介绍项目代号:Berserker - 狂战士平台定位∶基于大数据生态组件的数据采集、传输、存储、查询、开发、分析、挖掘、测试、执行、运维管理的一站式数据开发治理平台,服务于公司内部对数据有需求的各种角色成员。不同角色的日常工作∶数据分析师/产品/运营∶●?找到想要的数据表---数据地图;●?启发式分析探索---即席查询;●?简单ETL制作临时监控表---数据开发;●?制作业务监控报表--报表工具;数据开发∶●?异构数据源整合入仓---数据集成;●?开发高质量的ETL例行任务---数据开发/运维中心;●?数据探查---即席查询,数据地图;●?管理数仓模型---数据管理;●?数据治理工作的开展---数据质量,数据资产;●??可视化,数据API等数据服务发布--报表工具/数据盘;平台规模∶?1.2 发展历程?1.3 产品功能总览???1.4 平台建设方向六个方向+一个大前端,由专门的团体负责不同方向的技术建设。?1.5 应用总览目前线上共有40+个微服务,微服务框架使用B站的[Kratos][1]?。02?数据开发产品功能主要包括离线批调度、实时流计算、ETL开发、ADHOC、用户开发接口、运维中心等,用以满足用户做数据加工、分析与运维工作。整体规模∶离线任务15W+,日例行任务25W+,任务链路1W+,最长链路40+,流式任务4000+。早期整个数据开发功能都在一个调度系统中,后面业务功能陆续从调度系统中拆分出去,调度系统只作为一个基础的底层引擎。调度系统是内部自研的,项目代号Archer-弓兵,主要是承担着任务调度(时间、依赖)工作,同时它也管理着任务执行机,承担着资源调度的工作。数据开发主要包括下面组件∶CN(Control Node):?调度系统控制层,包括定时调度、依赖、限流、路由、提交、执行集群管理等,通信层客户端;EN (Execute Node):?调度系统执行层,承接CN任务提交,将任务提交到本地或集群执行,并主动上报任务状态到CN,通信层服务端;API:任务管理等Web层服务,以及通用对外API接口层;SqIScan:SQL任务解析服务,提供解析与编译功能;DataManager:任务IDC管理服务,负责计算任务目标执行集群,与跨机房数据复制管理;Blackhole:kerberos统一认证服务;Admin:调度系统控制台管理,提供限流路由策略配置、EN管理;?2.1 架构?&?产品功能核心组件?组件协作核心功能功能与应用场景?2.2 建设之路现在系统已经趋于稳定健壮(可用性:达4个9,性能:99分位调度延时
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2025-1-11 05:48 , Processed in 0.467976 second(s), 26 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表