지난 과제 리뷰 과제 #2 해설 - 목표 : 사용자별로 세션 생성 시간 기준 처음 채널과 마지막 채널 알아내기 - 방법 1 : CTE를 빌딩블록으로 사용 WITH first AS( -- 모든 사용자별로 첫번째 채널 리턴 SELECT userid, ts, channel, ROW_NUMBER() OVER(PARTITION BY userid ORDER BY ts) seq FROM raw_data.user_session_channel usc JOIN raw_data.session_timestamp st ON usc.sessionid = st.sessionid ), last AS( -- 모든 사용자별로 마지막 채널 리턴 SELECT userid, ts, channel, ROW_NUMBER() OVER(PARTIT..
데이터 분석 Data Analytics/프로그래머스 데이터분석 데브코스 2기
JOIN : 두 개 이상의 테이블들을 공통 필드(컬럼)를 중심으로 합치는데 사용된다. 이는 Star Schema로 구성된 테이블들로, 분산된 정보를 통합하는데 사용된다. JOIN의 결과는 방식에 상관없이 양쪽의 필드를 모두 가진 새로운 테이블을 만들어낸다. 조인 방식에 따라 다음 두 가지가 달라진다 어떤 레코드들이 선택되는가? 어떤 필드들이 채워지는가? JOIN의 종류 1. INNER JOIN - 양쪽 테이블에서 서로 매치되는 레코드들만 리턴한다. - 양쪽 테이블의 필드가 모두 채워진 상태로 리턴된다. - JOIN 앞에 아무것도 없으면 디폴트로 INNER JOIN이라 생각하면 된다. SELECT * FROM raw_data.Vital v JOIN raw_data.Alert a ON v.VitalID = ..
GROUP BY : 테이블의 레코드를 특정 필드(컬럼)를 기준으로 그룹핑하여 해당 그룹별로 다양한 정보를 계산 그룹핑 절차 1) 그룹핑 할 필드를 결정 `GROUP BY`로 지정해준다. 2) 그룹별로 계산할 내용을 결정 AGGREGATE 함수(집계함수)를 사용한다. ex. `COUNT`, `SUM`, `AVG`, `MIN`, `MAX`, `LISTAGG` 등 SQL 실습(with Google Colab) [문제1] 월별 총 세션 수 SELECT LEFT(ts, 7) AS mon, COUNT(1) AS session_count FROM raw_data.session_timestamp GROUP BY 1 -- GROUP BY mon, GROUP BY LEFT(ts, 7) ORDER BY 1; [문제2] 가장..
학습목표 1. AWS 콘솔을 활용한 Redshift 론치 데모 2. DDL & DML 3. Google Colab으로 SQL 실습 환경 4. SELECT AWS 콘솔을 활용한 Redshift 론치 데모 1. AWS 계정 생성 https://aws.amazon.com/ko/free/?gclid=CjwKCAjw7-SvBhB6EiwAwYdCASzdLIAIO6YeD6Y9g7mLkPAM0xTu-o0K55I5WfWwXYsJozwZ1U3LSBoCFEwQAvD_BwE&trk=bdc27120-6d06-4bae-9be1-22d07b8ec0a7&sc_channel=ps&ef_id=CjwKCAjw7-SvBhB6EiwAwYdCASzdLIAIO6YeD6Y9g7mLkPAM0xTu-o0K55I5WfWwXYsJozwZ1U3LSBoCF..
📌 학습목표1. SQL의 중요성2. 관계형 데이터베이스 (RDB)3. SQL4. 데이터 웨어하우스5. 클라우드6. AWS7. Redshift SQL의 중요성데이터 관련 3개의 직군(데이터 엔지니어, 데이터 분석가, 데이터 과학자)에서 공통적으로 필요한 툴이다. 데이터 요약 : 큰 데이터를 프로세싱 해서 작은 데이터로 변환할 때 사용데이터 분석 : 주어진 문제를 답하기 위해서 데이터 분석을 할 때 사용 데이터 엔지니어에게 필요한 지식Python, Java, ScalaSQL데이터베이스ETL/ELT (Airflow, DBT)Spark, Hadoop 데이터 분석가에게 필요한 지식SQL비즈니스 도메인에 대한 지식통계 지식 (for A/B 테스트 분석) 데이터 과학자에게 필요한 지식머신러닝SQLPyt..
📌 학습주제 1. Indian Restaurant Dataset으로 실습하기 2. Global AI, ML, Data Science Salary Dataset 으로 실습하기 3. NBA Players Dataset으로 실습하기 NBA Players Dataset으로 실습하기 NBA에서 제공하는 API를 활용해서 정리한 데이터셋 (199~2021년 시즌까지의 데이터) 🔗 실습 링크 : https://www.kaggle.com/datasets/justinas/nba-players-data/data NBA Players Biometric, biographic and basic box score stats from 1996 to 2022 season www.kaggle.com 1단계. 데이터 살펴보기 컬럼명 의..
📌 학습주제 1. Indian Restaurant Dataset으로 실습하기 2. Global AI, ML, Data Science Salary Dataset 으로 실습하기 3. NBA players Dataset으로 실습하기 Global AI, ML, Data Science Salary Dataset으로 실습하기 🔗 실습 링크 : https://www.kaggle.com/datasets/dparas01/global-ai-ml-data-science-salary Global AI, ML, Data Science Salary 2023 Open salary data of Data Science related profile in the public domain www.kaggle.com 1단계. 데이터 살펴보..
📌 학습주제 1. Indian Restaurant Dataset으로 실습하기 2. Global AI, ML, Data Science Salary Dataset 으로 실습하기 3. NBA players Dataset으로 실습하기 Indian Restaurante Dataset으로 실습하기 실습 링크 : https://www.kaggle.com/datasets/abhijitdahatonde/27000-indian-restaurant-dataset 🍜 27,000 + Indian Restaurant Dataset 🏰 🍰 Indian Restaurants dataset www.kaggle.com 1단계. 데이터 살펴보기 indian_restaurants.csv : 인도내에 있는 식당 정보를 다각도로 제공하는 데..