데이터 분석 Data Analytics/프로그래머스 데이터분석 데브코스 2기

딥러닝: 사람의 신경망을 기반으로 학습과 추론을 진행하는 학문  인간과 딥러닝뉴런(Neuron) : 사람 신경 구조의 기본 단위 ► 뉴런이 모여 신경계가 이루어짐  시냅스(Synapse): 정보가 전달되는 연결통로로, 뉴런과 뉴런을 이어줌 수상돌기 : 앞선 뉴런의 신호를 수신 세포체 : 신호 연산 축색돌기 : 신호 이동 출색말단 : 후발 뉴런에게 신호 전달      퍼셉트론(Perceptron; ●) : 뉴런을 모방하기 위해 수학적으로 모델링한 딥러닝의 기본 단위 ► 퍼셉트론이 쌓아져 딥러닝 모델이 만들어짐※ 퍼셉트론을 어떤식으로 구성하느냐에 따라 받을 수 있는 입력 데이터와 풀 수 있는 문제가 달라진다. 가중치(Weight; →) : 두 퍼셉트론 사이의 연관관계도         이미지 데이터 처리문제이..
이상탐지 (Anomaly Detection): 데이터에서 비정상적인 패턴, 이상치, 또는 예외적인 사례를 탐지하는 과정데이터에서 일반적으로 볼 수 있는 특성에서 많이 벗어난 데이터를 식별하는 과정에서 사용 보안, 금융, 의료 등의 분야에서 중요한 역할  이상 탐지 방법전통적인 통계 기반 방법IQR (Interquartile Range) 1사분위수(Q1)와 3사분위수(Q3)간의 차이로 Q1-1.5*IQR 미만 혹은 Q3+1.5*IQR 초과 데이터를 이상치로 간주Z-Score 데이터 포인트가 평균으로부터 표준 편차의 몇 배만큼 떨어져 있는지를 나타내는 수치 이 수치가 3이상인 데이터를 이상치로 간주    머신러닝을 활용한 방법: 고차원&대량의 데이터의 패턴을 익히고 그 패턴에서 벗어난 데이터를 이상치로 취급..
K-means Clustering (K-평균 군집화): 전체 데이터를 K개의 덩어리(클러스터)로 나누는 비지도 학습법 K : 클러스터(덩어리)의 개수중심점(△) : 클러스터 안에 포함된 데이터들의 평균값   K-means Clustering을 푸는 알고리즘로이드(Lloyd) 알고리즘엘칸(Elkan) 알고리즘: 데이터 포인트와 클러스터 중심 거리를 계산하는 과정에 삼각 부등식을 사용 (|𝑎| + |𝑏| ≤ |𝑎| + |𝑏|)      로이드 알고리즘 프로세스1단계. 초기화K개의 클러스터 중심점을 데이터 내에서 임의로 선택한다.초기 위치는 최종 결과에 큰 영향을 미칠 수 있음k-means++ 초기화 방법 많이 사용📌 k-means++ 초기화 방법초기 중심점 위치를 서로 멀리 떨어지게 설정 ► 임의의..
비지도 학습: 정답 레이블이 지정되지 않음 데이터로부터 패턴을 찾아내는 학습 방법론 목표 : 주어진 데이터 내부에서 데이터의 구조, 패턴을 자동으로 탐색하는 것활용 분야 : 고객 세분화, 이상탐지, 대규모 데이터셋의 구조 파악 등장점 : 수동으로 데이터의 정답(=레이블)을 생성할 필요가 없어 비용과 시간이 절약데이터 내부의 구조를 탐색 → (사람이 알고있는 것 이외의) 다양한 통찰다양한 데이터 유형과 복잡한 구조에도 적용 가능 단점 : 결과 해석이 어려움명확한 정답이 X → 모델 성능 객관화 및 평가가 어려움노이즈에 매우 민감     비지도 학습에서 다루는 대표 문제1. 군집화(Clustering): 데이터를 비슷한 특성을 가진 하위 그룹(=클..
🔗 실습 링크 : https://www.kaggle.com/datasets/sjleshrac/airlines-customer-satisfaction Airlines Customer satisfactionCustomer satisfaction with various other factorswww.kaggle.com      SVM을 활용한 풀이1단계. 데이터 로드 및 전처리import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitseed = 1234np.random.seed(seed)# 데이터 로드data_path = '/content/Invistico_A..
Decision Tree (의사결정나무): 데이터를 잘 나누기 위한 결정 경계를 찾는 것을 목표로 함 DT 용어노드 데이터에 대한 특정 질문이나 조건 데이터를 분류하는 과정에서 사용 엣지 노드와 노드를 연결하는 선상위노드의 특정 질문에 대한 가능한 답변 루트 노드트리의 가장 상단에 위치한 노드분류(혹은 예측)를 시작하는 지점 분할 노드(결정 노드)데이터를 더 작은 하위 집합으로 나누는데 사용되는 중간 노드 리프 노드(터미널 노드)트리의 가장 말단에 위치한 노드분기와 자식노드를 갖지 않음      결정 기준(Decision Criteria): 데이터를 분할하는 기준을 결정하는데 사용되는 방법론트리의 깊이와 복잡성 관리 가능..
📌 학습목표[분류 문제에 해결에 활용되는 알고리즘]1. 선형 SVM2. 비선형 SVM[회귀 문제에 해결에 활용되는 알고리즘]3. SVR(Support Vector Regression)   Q. "잘 나눈다"의 정의는 무엇일까?정확히 나누었는가?일반화가 잘 되었는가?※ 일반화: 유사한 데이터가 들어왔을 때 이들 사이의 전반적인 데이터 특성을 잘 고려한 상태 '일반화 성능이 좋다'의 의미각 클래스를 잘 나누고 있을 뿐 아니라각 클래스의 데이터 샘플로부터 가장 멀리 위치해 있는 상태   1. 선형 SVM마진(margin) : 샘플로부터 분류 선까지의 거리서포트 벡터(support vector) : 마진을 구성하는 데이터(마진 양쪽의 각각의 포인트)  선형 SVM..
선형 회귀 분석 실습 데이터🔗 실습 링크 : https://www.kaggle.com/datasets/mragpavank/insurance1 Medical Cost Personal DatasetsMedical Cost Personal Datasetswww.kaggle.com 건강 및 인구 통계학적 정보와 개인의 의료비 정보를 모아둔 데이터 변수 : 나이 성별 체지방 지수 (BMI) 부양가족수 흡연유무 사는지역 : 미국 내 북동/남동/남서/북서 개인 의료비 (charges)   문제 정의: 주어진 [독립변수]건강 및 인구통계학적 정보를 바탕으로 개인의 [종속변수]연간 의료 보험료를 예측     1단계. 데이터 로드import..
상급닌자연습생
'데이터 분석 Data Analytics/프로그래머스 데이터분석 데브코스 2기' 카테고리의 글 목록 (4 Page)