How to be a data Architecture

数据架构师为数据管理系统创建蓝图。在评估了公司的潜在数据源（内部和外部）之后，

架构师设计了一个计划以集成，集中，保护和维护它们。这使员工可以在正确的时间，正确的位置访问关键信息。

https://kknews.cc/tech/j2am5vy.html

大数据技术发展历程

批处理

在大数据技术成熟之前，受限于数据收集、存储和分析能力，样本数量相对较小，大数据技术的出现让数据存储和分析能力不再是瓶颈，研究者可以在更大规模的数据上，以更快地速度进行数据分析

MapReduce map-shuffle-reduce的方式 (中间数据如何交换和传输,如果将计算伸缩扩展到多个节点,由大数据框架来处理)

map阶段再不同节点上分别进行处理,生成中间结果,shuffle阶段进行组合,

Reduce最终将一组数据计算出结果,

但不是所有的计算都可以简单的拆分成map reduce，为了解决问题需要起多个MapReduce任务,任务之间相互依赖,而且中间结果都需要落盘

Spark优化mapreduce的计算部分,在计算层面提供更细致的服务,尽量将大部分计算放在内存中,

流处理

Storm 只能保证 at least once和 at most once,且只有ack几只

spark streaming mini-batch的思想,每次处理一小批数据,一小批数据包含多个事件,以接近实时处理的效果,

但总有延迟,并且 spark structure上加入了实时的语义

Flink

支持再有界和无界的数据流上做有状态计算的大数据引擎,

比起Storm，它的吞吐量更高，延迟更低，准确性能得到保障；比起Spark Streaming，它以事件为单位，达到真正意义上的实时计算，且所需计算资源相对更少

https://www.infoq.cn/article/high-throughput-low-latency-stream-processing-with-flink

jessica