분류 전체보기

실습 데이터(상황) Production DB에 저장되는 정보들을 DW로 적재했다고 가정데이터베이스 : dev스키마 : raw_data테이블 :raw_data.user_event : 사용자/날짜/아이템별로 impression이 있는 경우 그 정보를 기록하고, impression으로부터 클릭, 구매, 구매시 금액을 기록(※ 실제 환경에서는 이러한 aggregate 정보를 로그 파일 등의 소스로부터 만들어내는 과정이 필요함)Primary Key : 사용자, 날짜, 아이템raw_data.user_variant : 사용자가 소속한 AB 테스트 variant를 기록한 파일raw_data.user_metadata : 사용자에 관한 메타정보(성별, 나이 등)가 기록된 파일 테이블 (1) user_eventCREATE ..
AB 테스트 시스템 구성1. 런타임 시스템사용자가 들어오면 A로 들어갈지 B로 들어갈지 결정하는 것Bucket을 결정하는 로직은 데이터 분석가가 정함AB 테스트 사용자 Bucket 정보를 ETL로 적재  2. 분석 시스템이를 분석하기 편한 하나의 테이블로 JOINTableu와 같은 시각화 툴을 통해 분석      AB 테스트 시스템 구현 방법1. 직접 구현2. SaaS 활용OptimizelyVWOFront End 관련 테스트    AB 테스트 프로세스1. AB 테스트로 증명할 가설 제안 및 승인2. AB 테스트 실행 및 QA3. Rollout4. Iterations주간 AB 테스트 리뷰 미팅대시보드 활용(Tableu, Looker, Power BI, Python Notebook 등)애자일하게 진행 (전체..
데이터 조직의 미션: 신뢰할 수 있는 데이터를 바탕으로 부가 가치를 생성하는 것   1. Decision Science: 고품질 데이터를 기반으로 의사 결정권자에게 입력을 제공하는 것데이터 분석가가 하는 일ex. 데이터 기반 지표 정의, 대시 보드와 리포트 생성 등Data Driven Decisions : 과거의 데이터를 기반으로한 결정으로, 혁신 보다는 최적화(지금 하는 일을 더 잘하는 것) 방향으로 진행됨Data Informed Decisions : 데이터를 고려한(참고) 결정으로, 최종 결정은 의사결정권자의 직관으로만 진행됨※ AB 테스트는 이미 있는 데이터로 분석할 때 기존의 것과 비교하기 위해 사용된다.  2. Product Science: 고품질 데이터를 기반으로 사용자 서비스 경험 개선 혹은..
추천 시스템: 사용자의 선호도 및 과거 행동을 기반으로 사용자가 관심을 가질 만한 정보(상품, 서비스 등)를 필터링해서 제공하는 기법  기대 효과정보 과부하 문제 해결수많은 옵션 중 가장 관련도 높은 항목을 선택맞춤형 경험 제공사용자 기호 반영사용자의 충성도 및 만족도 증가비즈니스 가치 생성구매 유도사용자 참여도 증가데이터 확보※ 사용자가 유입되었다가 이탈될 확률이 적을수록 해당 서비스의 가치는 높게 평가된다.   추천 시스템 알고리즘📌 필터링(Filtering) = 수많은 데이터 중 나에게 맞는 것을 찾아준다. 1. 콘텐츠 기반 필터링 (Content-based Filtering)사용자가 관심을 보였던 아이템의 특성을 분석해서 이와 유사한 특성을 갖는 다른 아이템 추천ex. 내가 많이 본 배우를 기반..
🤔 문제`ANIMAL_INS` 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. `ANIMAL_INS` 테이블 구조는 다음과 같으며, `ANIMAL_ID`, `ANIMAL_TYPE`, `DATETIME`, `INTAKE_CONDITION`, `NAME`, `SEX_UPON_INTAKE`는 각각 동물의 아이디, 생물 종, 보호 시작일, 보호 시작 시 상태, 이름, 성별 및 중성화 여부를 나타냅니다.`ANIMAL_OUTS` 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. `ANIMAL_OUTS` 테이블 구조는 다음과 같으며, `ANIMAL_ID`, `ANIMAL_TYPE`, `DATETIME`, `NAME`, `SEX_UPON_OUTCOME`는 각각 동물의 아이디, 생물..
데이터 마이닝 (Data Mining): 대용량의 다양한 유형의 데이터 내에 존재하는 관계, 패턴, 규칙을 탐색하고, 이로부터 유용한 지식을 추출하는 과정  데이터 마이닝의 중요성의사결정 강화효율성 증대고객 이해시장 동향 예측       데이터 마이닝 프로세스1단계. 데이터 수집 및 통합: 목표하는 문제를 풀기 위한 다양한 데이터를 수집하는 과정 데이터 통합같은 종류의 데이터라면 일관된 형식으로 만드는 과정 필요ex. 크롤링 과정으로 생성된 DOM 구조 제거ex. 이미지 데이터 크기 조절 데이터 품질 관리데이터 검증 및 정화 (오류, 중복 수정/제거)완결성 검사 (누락 데이터 서치/핸들링/제거/대체)모니터링 (지속적으로 품질 모니터링, 업데이트로 버전관리)  2단계. 데이터 전처리: 모델 및 분석 방법에..
자연어 처리 (Natural Language Processing)목표컴퓨터가 사람의 언어를 이해하고 해석하는 것글을 활용해서 문제를 해결하고 향상된 사용자 경험을 제공  자연어 처리 문제텍스트 이해 (Text Understanding) 
 질의응답 (QA, Question Answering)문장 이해 (Reading Comprehension)정보 검색 (Information Retrieval) 텍스트 생성 (Text Generation문장 생성 (Text Generation) 
요약 (Text Summarization) 
번역 (Neural Machine Translation) 텍스트 분류 및 태깅 (Text Classification & Tagging)
문장 분류 (Text Classification)..
토픽 모델링(Topic Modeling) = 토픽 + 모델링: 대규모 텍스트 데이터 내 다양한 주제를 자동으로 식별/분류하는 과정토픽(Topic) : 문서 집합 안에서 논의되는 주제나 개념모델링(Modeling) : 통계적인 방법으로 데이터의 패턴을 추출하는 과정 토픽 모델링의 주제일반적으로 단어의 집합으로 표현 텍스트 내의 특정 패턴이나 빈도를 기반으로 선택 데이터 소스에 따라 주제의 범위가 결정 : 뉴스 기사, 소셜 미디어, 학술 논문 등하나의 문서에 다수의 주제를 포함 데이터의 트렌드와 특정 이벤트를 반영하는 경향 선택된 주제는 다른 텍스트 분석에 긍정적인 도움이 되는 방향으로 사용특정 주제와 비슷한 텍스트만 추림분석 결과를 해석하는 과정에서 토픽과 관련된 부분만을 취함       LDA (Late..
상급닌자연습생
'분류 전체보기' 카테고리의 글 목록 (6 Page)