[TIL] 데이터분석 데브코스 41일차 - 데이터 웨어하우스/데이터 레이크/빅데이터 처리 프레임워크/ETL(데이터 파이프라인)/ELT/Airflow/데이터 플랫폼 발전 단계

2024. 4. 19. 13:28· 데이터 분석 Data Analytics/프로그래머스 데이터분석 데브코스 2기

[TIL] 데이터분석 데브코스 43일차 - KPI/선행지표, 후행지표/이커머스 지표/마케팅 지표/SaaS 지표 (0)	2024.04.19
[TIL] 데이터분석 데브코스 42일차 - Snowflake/초기 환경 설정/데이터베이스, 스키마, 테이블 생성/AWS S3접근/COPY INTO/CTAS (0)	2024.04.19
[TIL] 데이터분석 데브코스 35일차 - Naive Bayes/Evaluation/PCA/ Feature Analysis/상관관계 분석 (0)	2024.04.19
[TIL] 데이터분석 데브코스 34일차 - 데이터 모델링/선형회귀/Ridge/Lasso/로지스틱회귀/SVM/Random Forest (0)	2024.04.19
[TIL] 데이터분석 데브코스 33일차 (2) - seaborn plot (0)	2024.04.19

[TIL] 데이터분석 데브코스 41일차 - 데이터 웨어하우스/데이터 레이크/빅데이터 처리 프레임워크/ETL(데이터 파이프라인)/ELT/Airflow/데이터 플랫폼 발전 단계

상단으로

[TIL] 데이터분석 데브코스 41일차 - 데이터 웨어하우스/데이터 레이크/빅데이터 처리 프레임워크/ETL(데이터 파이프라인)/ELT/Airflow/데이터 플랫폼 발전 단계

데이터 웨어하우스(Data Warehouse) 옵션

1. 고정비용 옵션

2. 가변비용 옵션

1) AWS Redshift

2) Snowflake

3) Google Cloud BigQuery

4) Apache Hive

5) Apache Presto

6) Apache Iceberg

7) Apache Spark

데이터 레이크 (Data Lake)

빅데이터 처리 프레임워크

대표적인 빅데이터 프로세싱 시스템

ETL (Extract, Transform, Load) = 데이터 파이프라인 = 데이터 웍플로우 = DAG

✓ 데이터 파이프라인 종류

1. Raw Data ETL Jobs

2. Summary/Report Jobs

3. Production Data Jobs

✓ 데이터 파이프라인 생성시 고려할 점

<Best Practices (모범 사례)>

ELT

다양한 데이터 소스의 예

Airflow

데이터 플랫폼의 발전 단계

1. (초기) 데이터 웨어하우스 + ETL

2. (발전) 데이터의 양 증가

3. (성숙) 데이터 활용 증대

실리콘밸리 기업들의 데이터 스택 트렌드

[실습] Google Colab으로 간단한 ETL 작성해보기

실습 환경

실습 ETL 개요

1단계. Redshift에 각자에게 할당된 schema밑에 테이블 생성

2단계. 데이터 소스 불러오기

3단계. Extract, Transform, Load 3개의 함수를 정의한 후 호출

'데이터 분석 Data Analytics > 프로그래머스 데이터분석 데브코스 2기' 카테고리의 다른 글

티스토리툴바

데이터 웨어하우스(Data Warehouse) 옵션

1. 고정비용 옵션

2. 가변비용 옵션

1) AWS Redshift

2) Snowflake

3) Google Cloud BigQuery

4) Apache Hive

5) Apache Presto

6) Apache Iceberg

7) Apache Spark

데이터 레이크 (Data Lake)

빅데이터 처리 프레임워크

대표적인 빅데이터 프로세싱 시스템

ETL (Extract, Transform, Load) = 데이터 파이프라인 = 데이터 웍플로우 = DAG

✓ 데이터 파이프라인 종류

1. Raw Data ETL Jobs

2. Summary/Report Jobs

3. Production Data Jobs

✓ 데이터 파이프라인 생성시 고려할 점

<Best Practices (모범 사례)>

ELT

다양한 데이터 소스의 예

Airflow

데이터 플랫폼의 발전 단계

1. (초기) 데이터 웨어하우스 + ETL

2. (발전) 데이터의 양 증가

3. (성숙) 데이터 활용 증대

실리콘밸리 기업들의 데이터 스택 트렌드

[실습] Google Colab으로 간단한 ETL 작성해보기

실습 환경

실습 ETL 개요

1단계. Redshift에 각자에게 할당된 schema밑에 테이블 생성

2단계. 데이터 소스 불러오기

3단계. Extract, Transform, Load 3개의 함수를 정의한 후 호출

'데이터 분석 Data Analytics > 프로그래머스 데이터분석 데브코스 2기' 카테고리의 다른 글

티스토리툴바

3단계. Extract, Transform, Load 3개의 함수를 정의한 후 호출