聯系我們 - 廣告服務 - 聯系電話:
您的當前位置: > 展會 > > 正文

大數據之亞秒級實時計算技術學什么?flink作業資源怎么評估?-焦點熱訊

來源:產業經濟網 時間:2023-06-12 15:19:05

大數據之亞秒級實時計算技術學什么?

新增亞秒級實時計算進階課程課程分為十二個階段學習:

第?階段:?數據數據采集

本階段屬于?數據的核?數據采集部分,主要分為離線數據采集使?Sqoop框架,實時數據采集使?Flume及DataX等組件,對于MySQL或Oracle的實時數據需要使?ogg和cannal采集。

第?階段:實時計算基礎(NoSQL+消息中?)

本階段是學習?數據的核?消息中間件。本階段在于培養企業級海量數據場景下NoSQL? 數據存儲以及實時數據的消息隊列相關的開發能?;

第三階段:?數據實時OLAP框架

本階段為?數據的核?實戰課程,通過實時OLAP為實時數倉指標構建打下基礎,主要分為ClickHouse和Doris企業應??泛的OLAP技術。

第四階段:實時計算基礎(NoSQL+消息中?)

本階段為企業級數據湖開發課程,以Hudi為主要開發?具,兼顧IceBerg和Datalake數據湖基礎內容,完成湖上建倉的任務。

第五階段:Flink技術棧

本階段學習當下全球熱?的亞秒級計算框架: Flink技術棧;Flink是?款分布式的內存迭代計算框架,其性能超出前代計算框架Spark;Flink計算框架是?前全球范圍內熱?的?數據體系下的計算框架(沒有之?),是我們需要點學習的內容

第六階段:FlinkSQL從原理到精通

FlinkSQL以SQL作為主要開發語?,摒棄了Java開發的冗余,使?SQL完成關鍵指標的統計計算是這部分核?內容。

第七階段:實時項?1-物聯??業?數據實時項?

?聯?項?來源于其實數據和業務場景,采?Flink技術棧,結合Hbase,HDFS等熱??數據組件,完成物聯?或?企等數字化轉型。

第?階段:實時項?2-?融證券?業?數據實時項?

本階段為?數據體系中實時數據處理?向的項?實戰階段。項?采?流處理計算引擎Flink,實時處理100萬筆/s的交易數據基于企業主流的流處理技術框架:Flume、Kafka、Flink、Hbase等基于Hive和Kylin的批數據處理,可進?海?多維分析.搭建監察預警體系,包括:預警規則管理,實時預警,歷史預警,監察歷史數據分析等。

第九階段:實時項?3-智慧出?實時項?

本階段為?數據體系中出??業實時數據處理?向的項?實戰階段。項?采?流處理計算引擎Flink,實時處理出??業的實時數據,該項?基于企業主流的流處理技術框架:Flume、Kafka、Flink、Hbase等,可進?海??輛和?戶多維分析等。

第?階段:實時項?4-基于湖倉?體的在線視頻實時分析項?

本階段為?數據在線視頻實時數據處理?向的項?。項?采?流處理計算引擎Flink,實時處理千萬數據?視頻流數據,基于企業主流的流處理技術框架:Flume、Kafka、Flink、FlinkSQL等技術棧,可進?海?多維分析。最終實現搭建在線視頻實時分析指標體系等。

第??階段:Flink源碼剖析

Flink源碼對于?常Flink?次開發具有?常重要的價值和意義,這?帶著?家從Flink提交任務執?到Flink資源管理,分布式緩存等各??帶您深?了解Flink源碼設計哲學。

第??階段:Flink?次開發

Flink?次開發主要針對于多個企業針對不同業務場景進?Flink計算引擎的封裝或?次開發任務,皆在完成定制化企業任務需求,是每?位?數據開發?程師進階提升技能必備。

IT?業在不斷發展技術迭代?常頻繁。博學?課程也在不斷的根據?業動態實時更新課程內容。

flink作業資源怎么評估?

Flink 任務并行度合理行一般根據峰值流量進行壓測評估,并且根據集群負載情況留一定量的 buffer 資源

1.? 如果數據源已經存在,則可以直接消費進行測試

2.? 如果數據源不存在,需要自行造壓測數據進行測試

1.? source 并行度配置:以 kafka 為例,source 的并行度一般設置為 kafka 對應的 topic 的分區數

2.? transform(比如 flatmap、map、filter 等算子)并行度的配置:這些算子一般不會做太重的操作,并行度可以和 source 保持一致,使得算子之間可以做到 forward 傳輸數據,不經過網絡傳輸

3.? keyby 之后的處理算子:建議最大并行度為此算子并行度的整數倍,這樣可以使每個算子上的 keyGroup 是相同的,從而使得數據相對均勻 shuffle 到下游算子,如下圖為 shuffle 策略

4.? sink 并行度的配置:sink 是數據流向下游的地方,可以根據 sink 的數據量及下游的服務抗壓能力進行評估。如果 sink 是 kafka,可以設為 kafka 對應 topic 的分區數。注意 sink 并行度最好和 kafka partition 成倍數關系,否則可能會出現如到 kafka partition 數據不均勻的情況。但是大多數情況下 sink 算子并行度不需要特別設置,只需要和整個任務的并行度相同就行。

作者:慎獨_2530

鏈接:https://www.jianshu.com/p/f4d4e9d16d51

來源:簡書

著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。

責任編輯:

標簽: 大數據之亞秒級實時計算技術學哪些內容

相關推薦:

精彩放送:

新聞聚焦

關于我們 | 聯系我們 | 投稿合作 | 法律聲明 | 廣告投放

版權所有©2017-2020   太陽信息網京ICP備2021034106號-55

所載文章、數據僅供參考,使用前務請仔細閱讀網站聲明。本站不作任何非法律允許范圍內服務!

聯系我們:55 16 53 8 @qq.com

Top 岛国精品在线