데이터 분석 기법의 이해
1. 데이터 처리
<데이터 활용>
- 클린징 영역인 ODS(Operational Data Store)에서 데이터의 전처리를 해서 DW(Data Warehouse)나 DM(Data Mart)과 결합하여 활용하는 것이 가장 이상적
- 신규 시스템이나 DW에 포함되지 못한 자료의 경우, Legacy(기존 운영시스템)이나 Staging Area(스테이징 영역), ODS에서 데이터를 가져와서 DW에서 가져온 내용과 결합하여 활용하기도 함
- 운영시스템에 직접 접근해서 데이터를 활용하는 것은 매우 위험함
<데이터 가공>
1. 데이터 마이닝 분류
2. 정형화된 패턴 처리
- 비정형 데이터 : DBMS에 저장 → 텍스트 마이닝 → DM과 통합
- 관계형 데이터(소셜 데이터) : DBMS에 저장 → 사회 신경망분석 -> 분석 결과 통계값이 DM과 통합
2. 데이터 시각화
- 빅데이터 분석, 탐색적 분석에서 시각화는 필수
- SNA 분석(사회연결망 분석)에서 자주 활용됨
3. 공간분석(Spatial Analysis)
: 공간적 차원과 관련된 속성들을 시각화하는 분석
- GIS를 통해서 공간 분석을 수행
- 지도 위에 관련 속성들을 생성하고 크기, 모양, 선 굵기 등으로 구분하여 인사이트 획득
※ GIS(Geometric Information System)
- 인간생활에 필요한 지리정보를 컴퓨터 데이터로 변환하여 효율적으로 활용하기 위한 정보시스템
- 지리적 위치를 갖고 있는 대상에 대한 위치자료와 (spatial data)와 속성자료(attribute data)를 통합·관리하여 지도, 도표 및 그림들과 같은 여러 형태의 정보를 제공
4. 탐색적 자료 분석(EDA)
: 다양한 차원과 값을 조합해가며 유의미한 사실 혹은 특이점을 도출하는 과정
<EDA의 4가지 주제>
1. 저항성의 강조
2. 잔차 계산
3. 자료변수의 재표현
4. 그래프를 통한 현시성
5. 통계분석
: 어떤 현상을 한눈에 알아보기 쉽도록 일정한 체계에 따라 숫자, 표, 그림의 형태로 나타내어 분석하는 과정
<통계분석 유형>
1. 기술통계 (Descriptive Statistics)
: 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리 및 요약하기 위해 하나의 숫자 또는 그래프의 형태로 표현하는 과정
2. 추측(추론) 통계 (Inferential Statistics)
: 표본의 표본통계량으로부터 모수에 대하여 통계적으로 추론하는 과정
6. 데이터마이닝 (Data Mining)
: 대용량 데이터로부터 정보를 요약하고, 미래 예측을 목표로 데이터의 관계, 패턴, 규칙 등을 탐색하고 모형화함으로써 이전에 알려지지 않은 유용한 지식을 추출하는 분석 방법
<데이터마이닝 방법론>
1. 데이터베이스에서의 지식탐색
: DW에서 DM을 생성하면서 각 데이터의 속성을 '사전분석'을 통해 지식을 얻는 방법
2. 기계학습 (머신러닝; Machine Learning)
: 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 알고리즘과 기술을 개발하는 방법
ex. 인공신경망(Neural Network), 의사결정나무(Decision Tree), 클러스터링(Clustering), 베이지안 분류(Bayesian Classification), 서포트벡터머신(SVM; Support Vector Machine) 등
3. 패턴인식 (Pattern Recognition)
: 원자료를 이용하여 '사전지식과 패턴에서 추출된 통계정보'를 기반으로 자료 또는 패턴을 분류하는 방법
ex. 장바구니 분석(Market Basket Analysis), 연관규칙 분석(Association Rules Analysis) 등
🔗 References
<국가공간정보포털> http://www.nsdi.go.kr/lxportal/?menuno=4066
<데이터에듀 'ADsP 데이터 분석 준전문가'> https://www.yes24.com/Product/Goods/116752070
'취업준비 > 자격증' 카테고리의 다른 글
[후기] ADsP(데이터 분석 준전문가) 자격증 비전공자 합격 후기&공부법 (0) | 2024.04.02 |
---|