📌 학습목표 1. 날짜와 시간 - timestamp/DatetimeIndex 2. 날짜 범위 생성 - date_range 3. 기간과 기간 인덱스 - Period/PeriodIndex 4. 간격과 간격 인덱스 - Timedelta/TimedeltaIndex 5. 날짜/시간 속성 접근자 - .dt 6. Timestamp와 DatetimeIndex의 메소드 및 속성 7. 데이터 셋에서 시계열 데이터 처리 - to_datetime 8. 날짜 포맷 9. 잘못된 날짜 포맷 10. 시계열 조회 - loc 11. 재색인 - reindex 12. 결측치 결정 13. 재샘플링 - resample
데이터 분석 Data Analytics
📌 학습목표 1. 행렬 전치 - transpose 2. 인덱스 레벨 제어 - stack/unstack/droplevel 3. 재구조화 - melt 4. 피벗/피벗테이블 - pivot/pivot_table 5. 그룹화 - groupby .transpose() 또는 .T() : 행과 열을 주대각선을 축으로 서로 반사대칭하여 얻게 되는 전치 행렬을 반환한다. (비파괴적 처리) `args` : 인자 (튜플이 올수도 있음) `copy` : 전치시킨 이후에 행렬을 복제할 것인지 여부 `False` : 복제 O ← 디폴트 `True` : 복제 X [예제] 원본이 아래와 같을 때 # 원본 students 행렬 전치를 수행하면 # 전치를 해보면.. students.transpose() ※ 전치를 2번 시행한것과 원본은 ..
📌 학습목표 1. 시리즈에 대한 문자열 함수 Series.str. 2. .str.upper(), .str.lower() 3. 문자열 슬라이싱 .str[시작 : 끝 : 스텝] 4. .str.contains() 5. .str.startswith(), .str.endswith() 6. .str.replace() 7. 인덱스에 대한 문자열 함수 .index.str. 8. 컬럼에 대한 문자열 함수 .columns.str. 🔗 실습 링크 : https://www.kaggle.com/datasets/abcsds/pokemon Pokemon with stats 721 Pokemon with stats and types www.kaggle.com Series.str. : Series에 대한 벡터화된 문자열 함수 문자열 ..
📌 학습목표 1. 함수 적용 .apply(func) 2. 🔗 실습링크 : https://www.kaggle.com/datasets/imakash3011/customer-personality-analysis Customer Personality Analysis Analysis of company's ideal customers www.kaggle.com 컬럼 살펴보기 (사람 정보) 속성 설명 범주 ID 고객의 고유 식별자 Year_Birth 고객의 출생 연도 Education 고객의 교육 수준 'Basic' : 고졸 'Graduation' : 학사졸업 '2nd Cycle' : 대학원 재학생 'Master' : 석사 'PhD' : 박사 Martial_Status 고객의 결혼 여부 Income 고객의 연간 가..
데이터 셋 준비(캐글 - 타이타닉 데이터셋 활용) 🔗 실습 링크 : https://www.kaggle.com/datasets/vinicius150987/titanic3 The Complete Titanic Dataset Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 데이터 불러오기 import pandas as pd # 원본 파일 형식에 맞춰서 read_excel로 데이터 불러오기 titanic_df = pd.read_excel('titanic3.xls') titanic_df ※ 간혹, `.xls`파일을 Jupyter Notebook에서 불러올 때 `ModuleNotFoundError : No module na..
DataFrame : 2차원 구조 (2개 이상의 Series로 구성됨) axis = 0 : index 방향 axis = 1 : column 방향 Dictionary → DataFrame member = { 'Attack' : [111, 222, 333], 'Defence' : [444, 555, 666], 'Luck' : [777, 888, 999] } member_df = pd.DataFrame(member) member_df key → column명 value → 각각의 row를 이룸 DataFrame - Columns : 인덱스 혹은 배열과 같은 것 데이터가 제공되면 그것으로 컬럼명이 설정된다. 제공되지 않으면 디폴트는 RangeIndex(0, 1, 2, ...n) 로 설정된다. ## 리스트로 동일..
시리즈 (Series) # pandas 모듈 불러오기 import pandas as pd 1. List → Series 변환 # 숫자로 된 리스트 생성 numbers = list(range(3, 14)) # 생성한 리스트를 시리즈로 변환 pd.Series(numbers) # 문자로 된 리스트 생성 letters = list('programmers') # 생성한 리스트를 시리즈로 변환, numbers리스트를 인덱스로 설정 pd.Series(letters, index=numbers) ↑ 이런식으로 인덱스를 설정해도 문제가 생기지 않는다. pandas에서 사용하는 인덱스는 꼭 숫자 타입이 아니어도 되기 때문이다. 이런 인덱스를 인덱스 레이블(index lable) 이라고 부른다. ※ 주의할 점 : value의..
※ 들어가기 전에... Pandas 1.5.3 에서 Pandas 2.0으로 넘어가는 과도기이다. 그래서 해당 강의는 두 개의 버전을 번갈아 사용할 예정! 학습목표 1. Google Colab에서 Pandas 따라하기 (레벨 0) 2. Series 3. DataFrame 기초 4. DataFrame 활용 5. DataFrame 심화 6. 문자열 제어 7. DataFrame 재구성(Reshape) 8. DataFrame 결합(Concat)과 병합(Merge) 9. 시계열(날짜, 시간) 제어 스킬은 배움에 있어서 모든 것이 아니다! 분야에 대한 통찰력은 자신의 관심과 경험으로 쌓이는 것! 대규모 데이터를 다룰 때에는 memory를 신경써줘야 한다. DataFrame : 2차원 구조 Series : 1차원 구조..