数据架构的数据和技术技能
数据架构师为数据管理系统创建蓝图。在评估了公司的潜在数据源(内部和外部)之后,
架构师设计了一个计划以集成,集中,保护和维护它们。这使员工可以在正确的时间,正确的位置访问关键信息。
- 与IT团队和管理层合作,设计出满足行业需求的数据策略。(数据方面 电商行业需求是什么,金融行业需求是什么)
- 建立实施架构所需的数据清单 (数据清单是啥)
- 研究数据获取的新机会 (比如埋点)
- 识别和评估当前的数据管理技术 (比如 数据湖,olap 的clickhouse)
- 创建一个流畅的,端到端的愿景,以了解数据如何在组织中流动 (端到端的稳定的场景)
- 为数据库结构开发数据模型 (数仓建立)
- 设计,记录,构造和部署数据库体系结构和应用程序(例如大型关系数据库,mysql数据库)
- 集成技术功能(例如,可伸缩性,安全性(数据安全性),性能,数据恢复,可靠性(数据可靠性)等)
- 采取措施确保数据准确性和可访问性,和质量
- 不断监控,完善和报告数据管理系统的性能
- 将新系统与现有仓库结构融合
- 维护所有数据体系结构工件和过程的公司存储库
数据架构师的业务技能
- 分析性问题解决:应对重要数据挑战,并清楚地了解重要问题;采用正确的方法/方法来最大程度地利用时间和人力资源。
- 有效的沟通:认真听取管理层,数据分析师和相关人员的意见,以提出最佳的数据设计;向非技术同事解释复杂的概念。
- 专家管理:有效指导和建议一组数据建模人员,数据工程师,数据库管理员和初级架构师。
- 行业知识:了解您选择的行业运作方式以及如何收集,分析和利用数据;面对大数据发展保持灵活性。
https://kknews.cc/tech/j2am5vy.html
大数据技术发展历程
批处理
在大数据技术成熟之前,受限于数据收集、存储和分析能力,样本数量相对较小,大数据技术的出现让数据存储和分析能力不再是瓶颈,研究者可以在更大规模的数据上,以更快地速度进行数据分析
MapReduce map-shuffle-reduce的方式 (中间数据如何交换和传输,如果将计算伸缩扩展到多个节点,由大数据框架来处理)
map阶段再不同节点上分别进行处理,生成中间结果,shuffle阶段进行组合,
Reduce最终将一组数据 计算出结果,
但不是所有的计算 都可以简单的拆分成map reduce,为了解决问题需要起多个MapReduce任务,任务之间相互依赖,而且中间结果都需要落盘
Spark优化mapreduce的计算部分,在计算层面提供更细致的服务,尽量将大部分计算放在内存中,
流处理
Storm 只能保证 at least once和 at most once,且只有ack几只
spark streaming mini-batch的思想,每次处理一小批数据,一小批数据包含多个事件,以接近实时处理的效果,
但总有延迟,并且 spark structure上 加入了 实时的语义
Flink
支持再有界和无界的数据流上 做有状态计算的大数据引擎,
比起Storm,它的吞吐量更高,延迟更低,准确性能得到保障;比起Spark Streaming,它以事件为单位,达到真正意义上的实时计算,且所需计算资源相对更少
https://www.infoq.cn/article/high-throughput-low-latency-stream-processing-with-flink
文档信息
- 本文作者:Jessica
- 本文链接:https://jessica0530.github.io/2020/10/25/%E6%95%B0%E6%8D%AE%E6%9E%B6%E6%9E%84%E5%B8%88/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)