전체 글

궁금해하고 공부하고 기록하고
이상탐지 (Anomaly Detection): 데이터에서 비정상적인 패턴, 이상치, 또는 예외적인 사례를 탐지하는 과정데이터에서 일반적으로 볼 수 있는 특성에서 많이 벗어난 데이터를 식별하는 과정에서 사용 보안, 금융, 의료 등의 분야에서 중요한 역할  이상 탐지 방법전통적인 통계 기반 방법IQR (Interquartile Range) 1사분위수(Q1)와 3사분위수(Q3)간의 차이로 Q1-1.5*IQR 미만 혹은 Q3+1.5*IQR 초과 데이터를 이상치로 간주Z-Score 데이터 포인트가 평균으로부터 표준 편차의 몇 배만큼 떨어져 있는지를 나타내는 수치 이 수치가 3이상인 데이터를 이상치로 간주    머신러닝을 활용한 방법: 고차원&대량의 데이터의 패턴을 익히고 그 패턴에서 벗어난 데이터를 이상치로 취급..
K-means Clustering (K-평균 군집화): 전체 데이터를 K개의 덩어리(클러스터)로 나누는 비지도 학습법 K : 클러스터(덩어리)의 개수중심점(△) : 클러스터 안에 포함된 데이터들의 평균값   K-means Clustering을 푸는 알고리즘로이드(Lloyd) 알고리즘엘칸(Elkan) 알고리즘: 데이터 포인트와 클러스터 중심 거리를 계산하는 과정에 삼각 부등식을 사용 (|𝑎| + |𝑏| ≤ |𝑎| + |𝑏|)      로이드 알고리즘 프로세스1단계. 초기화K개의 클러스터 중심점을 데이터 내에서 임의로 선택한다.초기 위치는 최종 결과에 큰 영향을 미칠 수 있음k-means++ 초기화 방법 많이 사용📌 k-means++ 초기화 방법초기 중심점 위치를 서로 멀리 떨어지게 설정 ► 임의의..
비지도 학습: 정답 레이블이 지정되지 않음 데이터로부터 패턴을 찾아내는 학습 방법론 목표 : 주어진 데이터 내부에서 데이터의 구조, 패턴을 자동으로 탐색하는 것활용 분야 : 고객 세분화, 이상탐지, 대규모 데이터셋의 구조 파악 등장점 : 수동으로 데이터의 정답(=레이블)을 생성할 필요가 없어 비용과 시간이 절약데이터 내부의 구조를 탐색 → (사람이 알고있는 것 이외의) 다양한 통찰다양한 데이터 유형과 복잡한 구조에도 적용 가능 단점 : 결과 해석이 어려움명확한 정답이 X → 모델 성능 객관화 및 평가가 어려움노이즈에 매우 민감     비지도 학습에서 다루는 대표 문제1. 군집화(Clustering): 데이터를 비슷한 특성을 가진 하위 그룹(=클..
🔗 실습 링크 : https://www.kaggle.com/datasets/sjleshrac/airlines-customer-satisfaction Airlines Customer satisfactionCustomer satisfaction with various other factorswww.kaggle.com      SVM을 활용한 풀이1단계. 데이터 로드 및 전처리import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitseed = 1234np.random.seed(seed)# 데이터 로드data_path = '/content/Invistico_A..
Decision Tree (의사결정나무): 데이터를 잘 나누기 위한 결정 경계를 찾는 것을 목표로 함 DT 용어노드 데이터에 대한 특정 질문이나 조건 데이터를 분류하는 과정에서 사용 엣지 노드와 노드를 연결하는 선상위노드의 특정 질문에 대한 가능한 답변 루트 노드트리의 가장 상단에 위치한 노드분류(혹은 예측)를 시작하는 지점 분할 노드(결정 노드)데이터를 더 작은 하위 집합으로 나누는데 사용되는 중간 노드 리프 노드(터미널 노드)트리의 가장 말단에 위치한 노드분기와 자식노드를 갖지 않음      결정 기준(Decision Criteria): 데이터를 분할하는 기준을 결정하는데 사용되는 방법론트리의 깊이와 복잡성 관리 가능..
📌 학습목표[분류 문제에 해결에 활용되는 알고리즘]1. 선형 SVM2. 비선형 SVM[회귀 문제에 해결에 활용되는 알고리즘]3. SVR(Support Vector Regression)   Q. "잘 나눈다"의 정의는 무엇일까?정확히 나누었는가?일반화가 잘 되었는가?※ 일반화: 유사한 데이터가 들어왔을 때 이들 사이의 전반적인 데이터 특성을 잘 고려한 상태 '일반화 성능이 좋다'의 의미각 클래스를 잘 나누고 있을 뿐 아니라각 클래스의 데이터 샘플로부터 가장 멀리 위치해 있는 상태   1. 선형 SVM마진(margin) : 샘플로부터 분류 선까지의 거리서포트 벡터(support vector) : 마진을 구성하는 데이터(마진 양쪽의 각각의 포인트)  선형 SVM..
선형 회귀 분석 실습 데이터🔗 실습 링크 : https://www.kaggle.com/datasets/mragpavank/insurance1 Medical Cost Personal DatasetsMedical Cost Personal Datasetswww.kaggle.com 건강 및 인구 통계학적 정보와 개인의 의료비 정보를 모아둔 데이터 변수 : 나이 성별 체지방 지수 (BMI) 부양가족수 흡연유무 사는지역 : 미국 내 북동/남동/남서/북서 개인 의료비 (charges)   문제 정의: 주어진 [독립변수]건강 및 인구통계학적 정보를 바탕으로 개인의 [종속변수]연간 의료 보험료를 예측     1단계. 데이터 로드import..
선형 관계: 독립 변수가 파라미터 값 만큼 일정한 비율로 결과 종속 변수에 영향을 미치는 관계 마트에서 과자(단가 1500원)와 우유(1200원)를 사는 것을 가정해보자.[조건] 물건 가격 할인과 서로 다른 물건 끼리의 가격 영향은 없음전체 비용은 구매하는 과자와 우유 수에 영향을 받음독립 변수 : num_과자, num_우유파라미터 : 1500원(price_과자), 1200원(price_우유)종속 변수 : TotalCost   선형 결합: 파라미터들이 어떠한 실수(혹은 벡터)와 가중합(곱하기&더하기)으로 표현된 것𝑥1 ... 𝑥n : 독립 변수 혹은 특징(feature) ► 입력하는 데이터𝑤1 ...𝑤n : 파라미터 ► 찾아 내야 하는 값  ..
상급닌자연습생
상급닌자수련원