大数据之亚秒级实时计算技术学什么?

新增亚秒级实时计算进阶课程课程分为十二个阶段学习:

第⼀阶段:⼤数据数据采集

本阶段属于⼤数据的核⼼数据采集部分,主要分为离线数据采集使⽤Sqoop框架,实时数据采集使⽤Flume及DataX等组件,对于MySQL或Oracle的实时数据需要使⽤ogg和cannal采集。

第⼆阶段:实时计算基础(NoSQL+消息中⼼)

本阶段是学习⼤数据的核⼼消息中间件。本阶段在于培养企业级海量数据场景下NoSQL⼤ 数据存储以及实时数据的消息队列相关的开发能⼒;

第三阶段:⼤数据实时OLAP框架

本阶段为⼤数据的核⼼实战课程,通过实时OLAP为实时数仓指标构建打下基础,主要分为ClickHouse和Doris企业应⽤⼴泛的OLAP技术。

第四阶段:实时计算基础(NoSQL+消息中⼼)

本阶段为企业级数据湖开发课程,以Hudi为主要开发⼯具,兼顾IceBerg和Datalake数据湖基础内容,完成湖上建仓的任务。

第五阶段:Flink技术栈

本阶段学习当下全球热⻔的亚秒级计算框架: Flink技术栈;Flink是⼀款分布式的内存迭代计算框架,其性能超出前代计算框架Spark;Flink计算框架是⽬前全球范围内热⻔的⼤数据体系下的计算框架(没有之⼀),是我们需要点学习的内容

第六阶段:FlinkSQL从原理到精通

FlinkSQL以SQL作为主要开发语⾔,摒弃了Java开发的冗余,使⽤SQL完成关键指标的统计计算是这部分核⼼内容。

第七阶段:实时项⽬1-物联⽹⾏业⼤数据实时项⽬

⻋联⽹项⽬来源于其实数据和业务场景,采⽤Flink技术栈,结合Hbase,HDFS等热⻔⼤数据组件,完成物联⽹或⻋企等数字化转型。

第⼋阶段:实时项⽬2-⾦融证券⾏业⼤数据实时项⽬

本阶段为⼤数据体系中实时数据处理⽅向的项⽬实战阶段。项⽬采⽤流处理计算引擎Flink,实时处理100万笔/s的交易数据基于企业主流的流处理技术框架:Flume、Kafka、Flink、Hbase等基于Hive和Kylin的批数据处理,可进⾏海ᰁ多维分析.搭建监察预警体系,包括:预警规则管理,实时预警,历史预警,监察历史数据分析等。

第九阶段:实时项⽬3-智慧出⾏实时项⽬

本阶段为⼤数据体系中出⾏⾏业实时数据处理⽅向的项⽬实战阶段。项⽬采⽤流处理计算引擎Flink,实时处理出⾏⾏业的实时数据,该项⽬基于企业主流的流处理技术框架:Flume、Kafka、Flink、Hbase等,可进⾏海ᰁ⻋辆和⽤户多维分析等。

第⼗阶段:实时项⽬4-基于湖仓⼀体的在线视频实时分析项⽬

本阶段为⼤数据在线视频实时数据处理⽅向的项⽬。项⽬采⽤流处理计算引擎Flink,实时处理千万数据ᰁ视频流数据,基于企业主流的流处理技术框架:Flume、Kafka、Flink、FlinkSQL等技术栈,可进⾏海ᰁ多维分析。最终实现搭建在线视频实时分析指标体系等。

第⼗⼀阶段:Flink源码剖析

Flink源码对于⽇常Flink⼆次开发具有⾮常重要的价值和意义,这⾥带着⼤家从Flink提交任务执⾏到Flink资源管理,分布式缓存等各⽅⾯带您深⼊了解Flink源码设计哲学。

第⼗⼆阶段:Flink⼆次开发

Flink⼆次开发主要针对于多个企业针对不同业务场景进⾏Flink计算引擎的封装或⼆次开发任务,皆在完成定制化企业任务需求,是每⼀位⼤数据开发⼯程师进阶提升技能必备。

IT⾏业在不断发展技术迭代⾮常频繁。博学⾕课程也在不断的根据⾏业动态实时更新课程内容。

flink作业资源怎么评估?

Flink 任务并行度合理行一般根据峰值流量进行压测评估,并且根据集群负载情况留一定量的 buffer 资源

1.⭐ 如果数据源已经存在,则可以直接消费进行测试

2.⭐ 如果数据源不存在,需要自行造压测数据进行测试

1.⭐ source 并行度配置:以 kafka 为例,source 的并行度一般设置为 kafka 对应的 topic 的分区数

2.⭐ transform(比如 flatmap、map、filter 等算子)并行度的配置:这些算子一般不会做太重的操作,并行度可以和 source 保持一致,使得算子之间可以做到 forward 传输数据,不经过网络传输

3.⭐ keyby 之后的处理算子:建议最大并行度为此算子并行度的整数倍,这样可以使每个算子上的 keyGroup 是相同的,从而使得数据相对均匀 shuffle 到下游算子,如下图为 shuffle 策略

4.⭐ sink 并行度的配置:sink 是数据流向下游的地方,可以根据 sink 的数据量及下游的服务抗压能力进行评估。如果 sink 是 kafka,可以设为 kafka 对应 topic 的分区数。注意 sink 并行度最好和 kafka partition 成倍数关系,否则可能会出现如到 kafka partition 数据不均匀的情况。但是大多数情况下 sink 算子并行度不需要特别设置,只需要和整个任务的并行度相同就行。

推荐内容