엑셀 기준) 데이터 종류
1. 숫자 데이터
숫자로 이루어진 데이터. 계산이 가능하다.
가장 많이 사용됨
숫자 0~9, +/-, 화폐기호, 소수점, 등
ex) 180, 56%, 4000$, -10
2. 문자 데이터
- 문자와 숫자가 혼합된 데이터도 문자 데이터로 분류된다. 계산이 불가능하다.
특정 함수 사용이 불가능하다.
문자열 함수를 사용 가능하다.
ex) 010-3323-2123, 사과
3. 날짜 데이터
년/월/일 등의 날짜를 표시하기 위한 데이터. 계산이 가능하다
숫자 1 = 하루 (1 = 24시간, 0.4 = 12시간)
날짜 데이터에서만 특정 함수를 사용할 수 있음
ex) 2023-10-02, 2023/10/02
4. 기타
- 논리데이터
- 시간 데이터
- 수식 데이터
- 승객명, 성별 = 문자데이터
- 나이, 순번 = 숫자데이터
- 날짜 = 날짜데이터
실습) 타이타닉 문제
승객의 생존 여부 예측
데이터 분석 입문할때 가장 많이 사용됨
순번 - 날짜 데이터
승객명, 성별 - 문자 데이터
나이, 탑승석 등급 - 숫자데이터
위의 데이터 범주를 활용해서 자신만의 지식을 바탕으로 승객의 생존 여부를 예측해보자.
10의 승객에 대한 정보 확인
사망 = 0, 생존 = 1
1,0,1,1,1,0,0,0,1,1
도메인 지식
: 전문화된 학문이나 해당 분야의 지식
데이터 분석가에게 있어 필요한 지식은?
1. 프로그래밍 지식
- 컴퓨터 과학 지식(CS)
- 프로그래밍 언어
- 데이터 베이스
- 각종 프레임 워크
- AWS, Firebase
2. 도메인 지식
- 비즈니스 이해/지식
- 전략적 사고/기획력
- 문제 해결 능력
- 전문화된 특정 분야 지식
3. 수학&통계학 지식
- 머신러닝
- 통계적 모델링
- 최적화
- 각종 수학적 지식(ex. 선형대수, 미적분)
1&2 -> 위험
2&3 -> 전통적 통계 분석
3&1 -> 머신러닝
타이타닉 실습에서) 도메인 지식
: 전문적인 or 시대적인 배경에 대한 지식을 습득한 후 실습 진행
1) 1912년 당시 'Lady First'라는 개념이 있었기 때문에 여성과 아이를 우선적으로 구출
-> 여성과 아이라면 웬만하면 생존했을 것이다/남자라면 대부분 사망했을 것이다
2) 승객에는 부자/일반인/가난한 이민자 등의 부류가 있고 객실은 1/2/3등급으로 분류
3) 가난한 이민자는 주로 3등급 객실 사용
4) 3등급 객실은 미로처럼 복잡하고 영어 사용이 불가능한 승객들이 다수 있었음
-> 3등급을 사용하는 가난한 이민자들은 대부분 사망했을 것이다/1등급을 사용하던 승객들은 대부분 생존했을 것이다
도메인 지식을 기반으로 여러가지 가설과 규칙을 세운 후 실습 진행. 단, 아ㅏㅍ에 있는 문제와 데이터셋이 달라졌기 때문에 새로운 정답을 제출해야 함.
'데이터 분석 Data Analytics > 프로그래머스 데이터분석 데브코스 2기' 카테고리의 다른 글
[TIL] 데이터분석 데브코스 9일차 - 캐글(Kaggle)로 데이터분석 연습하기 (0) | 2024.03.01 |
---|---|
[TIL] 데이터분석 데브코스 8일차 - 엑셀 데이터 종류(논리, 수식)/엑셀 함수(논리함수, 집계함수) (0) | 2024.02.29 |
[TIL] 데이터분석 데브코스 6일차 - 데이터/데이터 활용/데이터 기반의 의사소통/실습(공공 데이터 포털 활용하기) (0) | 2024.02.26 |
[TIL] 데이터분석 데브코스 5일차 - 데이터 이슈(데이터 민주화, Data Silo, 메타데이터, 데이터 거버넌스, 데이터 오너)/개인정보 (0) | 2024.02.26 |
[TIL] 데이터분석 데브코스 4일차 - 생성형 AI(Gen AI)/ChatGPT (0) | 2024.02.22 |