How to be a data Architecture

2020/10/25 大数据架构 共 1358 字,约 4 分钟

数据架构的数据和技术技能

数据架构师为数据管理系统创建蓝图。在评估了公司的潜在数据源(内部和外部)之后,

架构师设计了一个计划以集成,集中,保护和维护它们。这使员工可以在正确的时间,正确的位置访问关键信息。

  • 与IT团队和管理层合作,设计出满足行业需求的数据策略。(数据方面 电商行业需求是什么,金融行业需求是什么)
  • 建立实施架构所需的数据清单 (数据清单是啥)
  • 研究数据获取的新机会 (比如埋点)
  • 识别和评估当前的数据管理技术 (比如 数据湖,olap 的clickhouse)
  • 创建一个流畅的,端到端的愿景,以了解数据如何在组织中流动 (端到端的稳定的场景)
  • 为数据库结构开发数据模型 (数仓建立)
  • 设计,记录,构造和部署数据库体系结构和应用程序(例如大型关系数据库,mysql数据库)
  • 集成技术功能(例如,可伸缩性,安全性(数据安全性),性能,数据恢复,可靠性(数据可靠性)等)
  • 采取措施确保数据准确性和可访问性,和质量
  • 不断监控,完善和报告数据管理系统的性能
  • 将新系统与现有仓库结构融合
  • 维护所有数据体系结构工件和过程的公司存储库

数据架构师的业务技能

  • 分析性问题解决:应对重要数据挑战,并清楚地了解重要问题;采用正确的方法/方法来最大程度地利用时间和人力资源。
  • 有效的沟通:认真听取管理层,数据分析师和相关人员的意见,以提出最佳的数据设计;向非技术同事解释复杂的概念。
  • 专家管理:有效指导和建议一组数据建模人员,数据工程师,数据库管理员和初级架构师。
  • 行业知识:了解您选择的行业运作方式以及如何收集,分析和利用数据;面对大数据发展保持灵活性。

https://kknews.cc/tech/j2am5vy.html

大数据技术发展历程

批处理

在大数据技术成熟之前,受限于数据收集、存储和分析能力,样本数量相对较小,大数据技术的出现让数据存储和分析能力不再是瓶颈,研究者可以在更大规模的数据上,以更快地速度进行数据分析

MapReduce map-shuffle-reduce的方式 (中间数据如何交换和传输,如果将计算伸缩扩展到多个节点,由大数据框架来处理)

map阶段再不同节点上分别进行处理,生成中间结果,shuffle阶段进行组合,

Reduce最终将一组数据 计算出结果,

但不是所有的计算 都可以简单的拆分成map reduce,为了解决问题需要起多个MapReduce任务,任务之间相互依赖,而且中间结果都需要落盘

Spark优化mapreduce的计算部分,在计算层面提供更细致的服务,尽量将大部分计算放在内存中,

流处理

Storm 只能保证 at least once和 at most once,且只有ack几只

spark streaming mini-batch的思想,每次处理一小批数据,一小批数据包含多个事件,以接近实时处理的效果,

但总有延迟,并且 spark structure上 加入了 实时的语义

Flink

支持再有界和无界的数据流上 做有状态计算的大数据引擎,

比起Storm,它的吞吐量更高,延迟更低,准确性能得到保障;比起Spark Streaming,它以事件为单位,达到真正意义上的实时计算,且所需计算资源相对更少

https://www.infoq.cn/article/high-throughput-low-latency-stream-processing-with-flink

文档信息

Search

    Table of Contents