데이터 분석 Data Analytics/프로그래머스 데이터분석 데브코스 2기

언어 (Language): 특정 개념을 표현하기 위한 약속의 집합  컴퓨터가 언어를 이해하는 방식사람이 특정 단어를 컴퓨터에 입력하고 싶어함컴퓨터는 특정 단어를 숫자(벡터)의 형태로 받아들임 → 단어를 숫자의 형태로 변환벡터 값을 바탕으로  컴퓨터는 특정 단어를 인식함      임베딩 (Embedding): 텍스트 데이터를 벡터로 변환하는 기술  임베딩 프로세스데이터 준비 : 원문 데이터 or 다른 소스로부터 데이터 수집전처리 : 불용어, 오타 등의 데이터 제거임베딩 : 목적에 맞는 알고리즘 적용시각화 : 필요시 임베딩 결과를 그려보고 이를 확인 임베딩의 종류단어 임베딩 : 단어 → 벡터문장 임베딩 : 문장 → 벡터  벡터 공간: 벡터가 존재하는 공간임베딩의 결과 = 벡터 → 임베딩의 결과를 벡터 공간에..
텍스트 데이터 (Text Data): 문자, 단어, 문장으로 구성된 데이터 단어는 주변의 단어들과 연관성이 있음텍스트 처리가 어려운 이유 : 비구조적(=비정형) 데이터다양성 : 같은 의미라도 여러 표현이 있을 수 있음 (ex. 맛있다, 맛이 좋다 등)다의성 : 같은 표현이 다른 의미로 사용될 수 있음 (ex. 잘한다)문맥 정보 포함언어별로 고유한 특징 존재 (문법, 어휘, 발음 등)     마이닝 (Mining; 채굴): 광물에서 귀중한 금속 or 광석을 채굴하는 작업 ► 대량의 데이터(광물)에서 유용한 정보, 패턴(자원)을 찾기 위해 추출(채굴)하고, 이로부터 통찰력을 얻고 의사결정을 진행      자연어 처리 (Natural Language Processing; NLP): 컴퓨터가 인간의 언어를 이해..
머신러닝 모델 개발 과정 1. 문제 정의모델 개발 당위성을 가설로 제시📌 가설- 어떤 문제를 해결하려고 하는가?- 왜 문제 해결에 머신러닝이 필요한가?- 문제 해결의 성공 여부를 결정하는 지표는 무엇인가?- 지표는 어떻게 계산되며, 성공/실패를 나누는 기준은 무엇인가?► 가설을 통해 풀고자 하는 문제의 임팩트와 중요도를 가늠할 수 있음  2. 데이터 수집 및 분석(훈련용 데이터) 3. 모델 훈련 및 테스트(평가 데이터) 4. 모델 배포처음에는 1명 정도의 소수의 사람들에게만 배포괜찮으면 점진적으로 인원수를 늘리는 방향으로 진행 5. 모델 성능 A/B 테스트온라인 서비스에서 새 기능의 임팩트를 객관적으로 측정할 수 있는 방법사용자들을 2개의 그룹으로 나누고 시간을 두고 관련 지표를 비교control : ..
Regression (회귀 모델): 연속적인 숫자 값을 예측하기 위해 사용되는 알고리즘     Regression 모델 종류1. Linear Regressionx와 y의 선형 관계로 모델링직관적훈련 데이터에 최적화되기 쉬움 → 정규화로 과적합 방지Lasso Regression, Ridge Regression: 과적합을 경감하기 위한 방법  2. Polynomial Regression비선형 관계로 모델링 (Linear Regression의 또 다른 버전)  3. Decision Tree 과적합에 빠질 위험이 크다Classification에서도 사용 가능최상단 노드가 가장 중요함직관적Grid Search를 통해 트리 구성 가능Scikit-Learn에 두 종류의 DT : `DecisionTreeRegresso..
Classification: 데이터를 다양한 클래스로 분류하는 것    Classification 모델 종류 (문제)1. 이진 분류 (Binary Classification): 2개 클래스로 분류예) 스팸 vs 일반 이메일 2. 다중 클래스 분류 (Multiclass Classification): 3개 이상 클래스로 분류(하나의 데이터가 하나의 클래스에 속함)예) 손글씨 숫자 인식 (0-9) 3. 다중 레이블 분류 (Multilabel Classification): 하나의 데이터가 여러 클래스에 할당될 수 있음예) 뉴스 기사가 하나가 경제, 사회 등의 여러 카테고리에 속할 수 있음    Classification 알고리즘 종류 (해결 방법)1. Logistic Regression이진 분류 문제에 자주 사..
EDA(Exploratory Data Analysis) EDA를 하는 이유효과적인 데이터 분석과 모델링을 위한 기초 마련데이터 품질 확인(현업에서 깨끗한 데이터란 존재할 수 없음)중복 레코드 체그최근 데이터 존재 여부(=최신성) 체크Primary key Uniqueness 체크값이 비어있는 컬럼 존재 여부 체크데이터 특성(패턴) 확인   EDA 기법1. 기술 통계 분석숫자 변수와 카테고리 변수 파악숫자 변수의 경우 값 범위 파악카테고리 변수의 경우에는 카테고리 수 파악카테고리의 경우 머신러닝 모델을 만들때 인코딩 방법 결정 2. 결측치 탐지 및 처리비어있는 값이 있는 필드를 가진 레코드들을 찾기 널 값이 있는 레코드 무시 가능널 값이 있는 레코드 채우는 방법 :  숫자 : 평균값, 최소값, 최대값, 가장..
Kaggle이란?: 호주에서 시작한 국제적인 머신러닝 대회를 제공하는 서비스  Kaggle Code(Kaggle Kernel): 데이터 사이언스 관련 모듈이 모두 설치되어있는 Jupyter Python Notebook무료4 CPU, 16 GB 메모리, 1GB 디스크여기서 만든 노트북을 다른 사람들과 공유 가능 + 다른 사람들이 만든 노트북을 보고 공부하기에 최적화 Kaggle Ranking개인이 캐글에서 어떤 활동을 하느냐에 따라서 받게되는 레벨Novices : 캐글 커뮤니티 참여하면 기본적으로 부여ContributorsExpertsMastersGrandmasters 레벨이 각각 적용되는 분야가 크게 4개로 나뉘어진다.Competitions : 대회에서 어떤 성과를 거두었느냐에 따라Datasets : 캐..
검증(Validation): 모델의 학습이 잘 진행되었는지(=일반화 능력이 좋은지)를 판단하는 평가 과정 ► 학습의 종료 시점을 판가름할 수 있음 📌 일반화 능력 : 내가 학습한 데이터가 아닌 새로운 다른 데이터로도 모델이 잘 작동하는 능력     교차 검증 (Cross Validation; CV): 다음의 문제를 회피(혹은 감수)하면서도 검증의 원래 의미를 살리는 평가 방법으로,전체 데이터를 여러 개의 하위 데이터로 나누고 이 하위 데이터 세트들의 조합은 서로 다른 방법으로 훈련&검증에 사용해서 모델의 일반화 능력을 충분히 측정한다.► 각 조합의 결과 개수 = 하위 데이터 셋들의 조합 수※ 머신러닝 모델 학습 과정에서 발생할 수 있는 문제- 너무 쉬운 데이터로의 편향- 전체적인 데이터 양의 부족 장점..
상급닌자연습생
'데이터 분석 Data Analytics/프로그래머스 데이터분석 데브코스 2기' 카테고리의 글 목록 (3 Page)