https://zhuanlan.zhihu.com/p/426005241
OneData
onedata 是通过完善的规范定义,同时结合数据中台产品,进行指标的统一定义及梳理,进一步标准化建模,从而保证数据只加工一次的目标实现。
业务模块:根据业务属性,将业务划分出几个相对独立的版块,使业务版块之间的指标或业务重叠性较小
规范定义:结合行业的数据仓库建设经验和本身公司数据自身特点,设计出一套数据规范命名的体系,规范定义将会被用在模型设计中。
模型设计:以维度建模理论为基础,基于维度建模总线架构,构建一致性的维度和事实
数仓建设常见问题
1.数据孤岛,烟囱式重复建设 ———— 缺少公共数据的提炼和汇总,出现烟囱式重复建设,同时也加剧了数据孤岛的问题
2.数据不一致 ———— 孤岛式的建设,缺少统一的组织及方法论,指标口径不统一,数据表级字段名不一致,数据有二义性
3.缺少统一模型规范 当不同业务之间有数据交叉的场景时,为了尽快响应业务需求,直接从其他业务明细层甚至原始数据层获取数据,不同的研发团队不同规范,造成模型设计不统一,复用性差。
4.效率差、响应慢 缺少公共聚合数据的沉淀和积累,每次新的需求都需要5-7天以上的研发,无法服用,产出时效差,数据质量低,资源消耗成本高居不下
数仓建设流程
业务调研+需求分析 (做的足够重复)-> 数据总体架构设计,根据数据域对数据进行划分 -> 按照维度建模理论,构建总线矩阵、抽象出业务过程和维度
业务调研
构建大数据数据仓库,就需要了解各个业务领域、业务线的业务有什么共同点和不同点,以及各个业务线可以细分为哪几个业务模块,每个业务模块具体的业务流程又是怎样的
需求调研
调研业务运营人员需求,数据分析师需求, 比如报表,邮件定期报告,对接业务系统
通过需求调研分析后,就清楚数据要做成什么样的。很多时候,都是由具体的数据需求驱动数据仓库团队去了解业务系统的业务数据,这两者并没有严格的先后顺序。
数据域划分
数据域 (主题域)
| 主题域 | 业务过程或者维度 不可拆分的事件 |
|---|---|
| 商品 | Sku (用于库存管理和销售跟踪),spu(用于展示),定价,上架,下架 等 |
| 会员/用户 | 同源用户, 注册,登录,发帖,评论 等 |
| 供应链 | 商品采购,挑拨,订单履约(接受,处理优化,拣货,包装物料,装运订单,交付在线下达,处理退货,退款), |
| 物流 | 商品配送 揽收,投递 |
| 仓储 | 商品仓库, 入库,出库,自营仓库,第三方仓库 |
| 流量 | 相关行为数据, 搜索,浏览,曝光,点击,舆情, |
| 交易域 | 加入购物车,下单,支付,退订单,推优惠券 |
| 售后 | 工单,退货 |
| 促销 | 优惠券,活动,代金券 |
| 营销 | 门户广告, 邮件营销,社区营销,门店活动 |
总线矩阵
确定每个数据域下的业务过程, 业务过程与哪些维度相关, 定义数据域下的业务过程和维度
| 主题域 | 业务过程 | 可分析维度 |
|---|---|---|
| 交易 | 购物车 | 商品| 用户| 类目|省份|渠道|订单 |
| 下单 | ||
| 支付 |
标准化定义
数仓规范一般有哪些呢? 数仓的规范建设一般包括数仓命名规范、开发规范、模型设计规范等
1、数仓命名规范,一般包括数据库命名规范、系统来源命名规范、数据表级字段命名规范、指标命名规范等。
2、开发规范:一般包括建表规范、作业流规范、数据格式规范、数据字典规范、词根规范、任务注释规范等。
3、模型设计规范:一致性维度设计规范、事实表设计规范、数仓分层规范、主题域划分规范等。
数据仓库分层
stg->Ods 数据基础层-> dwd 数据明细中间层-> dws 数据汇总中间层 -> dim 维度层-> ads 数据应用层
文档信息
- 本文作者:Jessica
- 本文链接:https://jessica0530.github.io/2023/04/18/OneData%E7%90%86%E8%AE%BA/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)