감정 분석(Sentiment Analysis): 텍스트에서 작성자의 감정 상태나 태도를 파악하고 분류하는 과정으로, 텍스트 마이닝과 자연어 처리 분야에 속한다. 감정의 기본 범주긍정적 (Positive) 부정적 (Negative) 중립적 (Neutral) 감정 분석의 적용 분야소셜 미디어 감성 모니터링소셜 미디어 플랫폼 내 게시글 분석해 대중의 감정과 태도 파악 특정 사건, 제품, 브랜드, 정치적 이슈 등에 대한 대중의 반응을 모니터링 마케팅의 효과를 분석 고객 서비스 분석 및 소비자 인사이트고객 서비스 대화, 콜 센터 통화 내용, 이메일 등 분석으로 고객의 만족 파악 고객의 불만을 해결하기 위한 인사이트 제공 새로운 제품과 서비스 개발 시 시장의 요구와 기대를 분석 헬스 케어 및 의료환자의 감..
전체 글
궁금해하고 공부하고 기록하고언어 (Language): 특정 개념을 표현하기 위한 약속의 집합 컴퓨터가 언어를 이해하는 방식사람이 특정 단어를 컴퓨터에 입력하고 싶어함컴퓨터는 특정 단어를 숫자(벡터)의 형태로 받아들임 → 단어를 숫자의 형태로 변환벡터 값을 바탕으로 컴퓨터는 특정 단어를 인식함 임베딩 (Embedding): 텍스트 데이터를 벡터로 변환하는 기술 임베딩 프로세스데이터 준비 : 원문 데이터 or 다른 소스로부터 데이터 수집전처리 : 불용어, 오타 등의 데이터 제거임베딩 : 목적에 맞는 알고리즘 적용시각화 : 필요시 임베딩 결과를 그려보고 이를 확인 임베딩의 종류단어 임베딩 : 단어 → 벡터문장 임베딩 : 문장 → 벡터 벡터 공간: 벡터가 존재하는 공간임베딩의 결과 = 벡터 → 임베딩의 결과를 벡터 공간에..
텍스트 데이터 (Text Data): 문자, 단어, 문장으로 구성된 데이터 단어는 주변의 단어들과 연관성이 있음텍스트 처리가 어려운 이유 : 비구조적(=비정형) 데이터다양성 : 같은 의미라도 여러 표현이 있을 수 있음 (ex. 맛있다, 맛이 좋다 등)다의성 : 같은 표현이 다른 의미로 사용될 수 있음 (ex. 잘한다)문맥 정보 포함언어별로 고유한 특징 존재 (문법, 어휘, 발음 등) 마이닝 (Mining; 채굴): 광물에서 귀중한 금속 or 광석을 채굴하는 작업 ► 대량의 데이터(광물)에서 유용한 정보, 패턴(자원)을 찾기 위해 추출(채굴)하고, 이로부터 통찰력을 얻고 의사결정을 진행 자연어 처리 (Natural Language Processing; NLP): 컴퓨터가 인간의 언어를 이해..
머신러닝 모델 개발 과정 1. 문제 정의모델 개발 당위성을 가설로 제시📌 가설- 어떤 문제를 해결하려고 하는가?- 왜 문제 해결에 머신러닝이 필요한가?- 문제 해결의 성공 여부를 결정하는 지표는 무엇인가?- 지표는 어떻게 계산되며, 성공/실패를 나누는 기준은 무엇인가?► 가설을 통해 풀고자 하는 문제의 임팩트와 중요도를 가늠할 수 있음 2. 데이터 수집 및 분석(훈련용 데이터) 3. 모델 훈련 및 테스트(평가 데이터) 4. 모델 배포처음에는 1명 정도의 소수의 사람들에게만 배포괜찮으면 점진적으로 인원수를 늘리는 방향으로 진행 5. 모델 성능 A/B 테스트온라인 서비스에서 새 기능의 임팩트를 객관적으로 측정할 수 있는 방법사용자들을 2개의 그룹으로 나누고 시간을 두고 관련 지표를 비교control : ..
Regression (회귀 모델): 연속적인 숫자 값을 예측하기 위해 사용되는 알고리즘 Regression 모델 종류1. Linear Regressionx와 y의 선형 관계로 모델링직관적훈련 데이터에 최적화되기 쉬움 → 정규화로 과적합 방지Lasso Regression, Ridge Regression: 과적합을 경감하기 위한 방법 2. Polynomial Regression비선형 관계로 모델링 (Linear Regression의 또 다른 버전) 3. Decision Tree 과적합에 빠질 위험이 크다Classification에서도 사용 가능최상단 노드가 가장 중요함직관적Grid Search를 통해 트리 구성 가능Scikit-Learn에 두 종류의 DT : `DecisionTreeRegresso..
🤔 문제다음은 고객의 정보를 담은 `MEMBER_PROFILE`테이블과 식당의 리뷰 정보를 담은 REST_REVIEW 테이블입니다. `MEMBER_PROFILE` 테이블은 다음과 같으며 `MEMBER_ID`, `MEMBER_NAME`, `TLNO`, `GENDER`, `DATE_OF_BIRTH`는 회원 ID, 회원 이름, 회원 연락처, 성별, 생년월일을 의미합니다.`REST_REVIEW` 테이블은 다음과 같으며 `REVIEW_ID`, `REST_ID`, `MEMBER_ID`, `REVIEW_SCORE`, `REVIEW_TEXT`, `REVIEW_DATE`는 각각 리뷰 ID, 식당 ID, 회원 ID, 점수, 리뷰 텍스트, 리뷰 작성일을 의미합니다. `MEMBER_PROFILE`와 `REST_REVIEW`..
🤔 문제대장균들은 일정 주기로 분화하며, 분화를 시작한 개체를 부모 개체, 분화가 되어 나온 개체를 자식 개체라고 합니다.다음은 실험실에서 배양한 대장균들의 정보를 담은 `ECOLI_DATA` 테이블입니다.`ECOLI_DATA` 테이블의 구조는 다음과 같으며, `ID`, `PARENT_ID`, `SIZE_OF_COLONY`, `DIFFERENTIATION_DATE`, `GENOTYPE` 은 각각 대장균 개체의 ID, 부모 개체의 ID, 개체의 크기, 분화되어 나온 날짜, 개체의 형질을 나타냅니다. 최초의 대장균 개체의 `PARENT_ID` 는 NULL 값입니다.각 세대별 자식이 없는 개체의 수(`COUNT`)와 세대(`GENERATION`)를 출력하는 SQL문을 작성해주세요. 이때 결과는 세대에 대해..
Classification: 데이터를 다양한 클래스로 분류하는 것 Classification 모델 종류 (문제)1. 이진 분류 (Binary Classification): 2개 클래스로 분류예) 스팸 vs 일반 이메일 2. 다중 클래스 분류 (Multiclass Classification): 3개 이상 클래스로 분류(하나의 데이터가 하나의 클래스에 속함)예) 손글씨 숫자 인식 (0-9) 3. 다중 레이블 분류 (Multilabel Classification): 하나의 데이터가 여러 클래스에 할당될 수 있음예) 뉴스 기사가 하나가 경제, 사회 등의 여러 카테고리에 속할 수 있음 Classification 알고리즘 종류 (해결 방법)1. Logistic Regression이진 분류 문제에 자주 사..