大數據之亞秒級實時計算技術學什么？flink作業資源怎么評估？-焦點熱訊

來源：產業經濟網時間：2023-06-12 15:19:05

大數據之亞秒級實時計算技術學什么?

新增亞秒級實時計算進階課程課程分為十二個階段學習：

第?階段：?數據數據采集

本階段屬于?數據的核?數據采集部分,主要分為離線數據采集使?Sqoop框架,實時數據采集使?Flume及DataX等組件,對于MySQL或Oracle的實時數據需要使?ogg和cannal采集。

第?階段：實時計算基礎(NoSQL+消息中?)

本階段是學習?數據的核?消息中間件。本階段在于培養企業級海量數據場景下NoSQL? 數據存儲以及實時數據的消息隊列相關的開發能?;

第三階段：?數據實時OLAP框架

本階段為?數據的核?實戰課程,通過實時OLAP為實時數倉指標構建打下基礎,主要分為ClickHouse和Doris企業應??泛的OLAP技術。

第四階段：實時計算基礎(NoSQL+消息中?)

本階段為企業級數據湖開發課程,以Hudi為主要開發?具,兼顧IceBerg和Datalake數據湖基礎內容,完成湖上建倉的任務。

第五階段：Flink技術棧

本階段學習當下全球熱?的亞秒級計算框架： Flink技術棧;Flink是?款分布式的內存迭代計算框架，其性能超出前代計算框架Spark;Flink計算框架是?前全球范圍內熱?的?數據體系下的計算框架(沒有之?)，是我們需要點學習的內容

第六階段：FlinkSQL從原理到精通

FlinkSQL以SQL作為主要開發語?,摒棄了Java開發的冗余,使?SQL完成關鍵指標的統計計算是這部分核?內容。

第七階段：實時項?1-物聯??業?數據實時項?

?聯?項?來源于其實數據和業務場景,采?Flink技術棧,結合Hbase,HDFS等熱??數據組件,完成物聯?或?企等數字化轉型。

第?階段：實時項?2-?融證券?業?數據實時項?

本階段為?數據體系中實時數據處理?向的項?實戰階段。項?采?流處理計算引擎Flink，實時處理100萬筆/s的交易數據基于企業主流的流處理技術框架：Flume、Kafka、Flink、Hbase等基于Hive和Kylin的批數據處理，可進?海?多維分析.搭建監察預警體系，包括：預警規則管理，實時預警，歷史預警，監察歷史數據分析等。

第九階段：實時項?3-智慧出?實時項?

本階段為?數據體系中出??業實時數據處理?向的項?實戰階段。項?采?流處理計算引擎Flink，實時處理出??業的實時數據，該項?基于企業主流的流處理技術框架：Flume、Kafka、Flink、Hbase等，可進?海??輛和?戶多維分析等。

第?階段：實時項?4-基于湖倉?體的在線視頻實時分析項?

本階段為?數據在線視頻實時數據處理?向的項?。項?采?流處理計算引擎Flink，實時處理千萬數據?視頻流數據，基于企業主流的流處理技術框架：Flume、Kafka、Flink、FlinkSQL等技術棧，可進?海?多維分析。最終實現搭建在線視頻實時分析指標體系等。

第??階段：Flink源碼剖析

Flink源碼對于?常Flink?次開發具有?常重要的價值和意義,這?帶著?家從Flink提交任務執?到Flink資源管理,分布式緩存等各??帶您深?了解Flink源碼設計哲學。

第??階段：Flink?次開發

Flink?次開發主要針對于多個企業針對不同業務場景進?Flink計算引擎的封裝或?次開發任務,皆在完成定制化企業任務需求,是每?位?數據開發?程師進階提升技能必備。

IT?業在不斷發展技術迭代?常頻繁。博學?課程也在不斷的根據?業動態實時更新課程內容。

flink作業資源怎么評估?

Flink 任務并行度合理行一般根據峰值流量進行壓測評估，并且根據集群負載情況留一定量的 buffer 資源

1.? 如果數據源已經存在，則可以直接消費進行測試

2.? 如果數據源不存在，需要自行造壓測數據進行測試

1.? source 并行度配置：以 kafka 為例，source 的并行度一般設置為 kafka 對應的 topic 的分區數

2.? transform(比如 flatmap、map、filter 等算子)并行度的配置：這些算子一般不會做太重的操作，并行度可以和 source 保持一致，使得算子之間可以做到 forward 傳輸數據，不經過網絡傳輸

3.? keyby 之后的處理算子：建議最大并行度為此算子并行度的整數倍，這樣可以使每個算子上的 keyGroup 是相同的，從而使得數據相對均勻 shuffle 到下游算子，如下圖為 shuffle 策略

4.? sink 并行度的配置：sink 是數據流向下游的地方，可以根據 sink 的數據量及下游的服務抗壓能力進行評估。如果 sink 是 kafka，可以設為 kafka 對應 topic 的分區數。注意 sink 并行度最好和 kafka partition 成倍數關系，否則可能會出現如到 kafka partition 數據不均勻的情況。但是大多數情況下 sink 算子并行度不需要特別設置，只需要和整個任務的并行度相同就行。

作者：慎獨_2530

鏈接：https://www.jianshu.com/p/f4d4e9d16d51

來源：簡書

著作權歸作者所有。商業轉載請聯系作者獲得授權，非商業轉載請注明出處。

責任編輯：

標簽：大數據之亞秒級實時計算技術學哪些內容

上一篇：野生羊肚菌一般生長在什么地方？羊肚菌為什么不能連根拔？
下一篇：【環球新要聞】 serialVersionUID如何生成？gpedit.msc沒有權限執行此操作怎么解決？

大數據之亞秒級實時計算技術學什么？flink作業資源怎么評估？-焦點熱訊

大數據之亞秒級實時計算技術學什么？flink作業資源怎么評估？-焦點熱訊