關于etl工程師工作內容,etl工程師這個問題很多朋友還不知道,今天小六來為大家解答以上的問題,現(xiàn)在讓我們一起來看看吧!
1、技術方面:需要學習使用數據源、目標端工具的基本使用(如 oracle MySQL hive等);需要學習etl工具的安裝配置常用錯誤解決(如 kettle DataStage infa sqoop datax等)理論方面:懂得數倉分層架構,維度建模等。
2、從ETL的字面來看,它主要包含階段,分別是數據抽取、數據轉換、數據加載。
3、1.數據抽取這個階段的主要目標是匯總多種數據源,為下一步的轉換做準備。
4、2.數據轉換這個階段是ETL的核心環(huán)節(jié),也是最復雜的環(huán)節(jié)。
5、它的主要目標是將抽取到的各種數據,進行數據的清洗、格式的轉換、缺失值填補、剔除重復等操作,最終得到一份格式統(tǒng)一、高度結構化、數據質量高、兼容性好的數據,為后續(xù)的分析決策提供可靠的數據支持。
6、3.數據加載這個階段的主要目標是把數據加載至目的地,比如數據倉庫中。
7、通常的做法是,將處理好的數據寫成特定格式(如parquet、csv等)的文件,然后再把文件掛載到指定的表分區(qū)上。
8、也有些表的數據量很小,不會采用分區(qū)表,而是直接生成最終的數據表。
9、了解了ETL這部分的工作主要做什么,接下來再來說作為ETL工程師需要具備哪些技能,這些也就是需要學習的重點——精通SQL語言,具備存儲過程開發(fā)能力,能熟練進行SQL查詢優(yōu)化;2、熟悉Hive數據倉庫設計,了解數據倉庫模型及思想、維度建模思想,了解數據倉庫;3、熟悉Hadoop、Spark、Flink、Kafka等相關技術;4、熟練Python、Java中至少一種語言;5、熟悉Mysql、Nosql等常見數據庫。
本文分享完畢,希望對大家有所幫助。
標簽:
免責聲明:本文由用戶上傳,與本網站立場無關。財經信息僅供讀者參考,并不構成投資建議。投資者據此操作,風險自擔。 如有侵權請聯(lián)系刪除!