데이터 분석 Data Analytics/프로그래머스 데이터분석 데브코스 2기

Word Embedding(워드 임베딩): 문장을 단어의 리스트로 바꾸고(토큰화), 각 토큰을 숫자(벡터 or 행렬)로 변환하는 과정   대표적 사전 훈련된 워드 임베딩 모델Word2VecGloVeFastTextOpenAI Embedding   방법1. Bag of Words: One-hot Encoding을 사용하여 단어별로 인덱스를 지정하거나, (문장의 경우) 문장 내 단어들의 인덱스와 빈도수를 저장하는 방법크기는 크지만 밀도는 낮은(sparse한) 벡터가 됨영어의 경우 2만개 단어가 사용됨문맥이 존재하지 않기 때문에 단어들의 관계 및 순서가 전혀 표현되지 못함일반적으로 3개의 특수 단어가 존재1) SOS : Start of Sentence2) EOS : End of Sentence3) UNKNOWN..
Open Source License(오픈소스 라이센스): 소스 코드가 공개되어 있어 누구나 자유롭게 수정/사용/배포 가능한 소프트웨어개발자들이 협업을 통해 기술의 혁신 및 개선을 추구할 수 있음깃허브를 통해 오픈소스 개발과 공유가 한 단계 발전대표적 오픈소스 소프트웨어 :Linux 운영체제관계형 데이터베이스 : PostgreSQL, MariaDB 등웹서버 서비스 : Apache 등프로그래밍 언어 : Python 등빅데이터 처리 프레임워크 : Hadoop, Spark 등   대표 오픈소스 라이센스1. MIT 라이센스사용자에게 소프트웨어를 (거의) 제한 없이 사용/복사/수정/배포할 수있는 권한 부여원작자의 저작권 표시, 허가 표시를 모든 복사본 혹은 중요한 부분에 포함시켜야 함 2. Apache 2.0 라이..
Foundation 모델: 인공지능의 다양한 분야에 혁신을 가져온 대규모 사전 학습(Pre-Trained) 모델 광범위한 데이터 세트에 대해 학습됨Fine-tuning으로 사용자에 맞게 커스터마이징 가능프로그래밍에서 라이브러리를 사용하는 것과 사용법이 유사함  Fine-Tuning: 내가 원하는 유스케이스에 맞게 커스터마이징할 수 있는 과정    분야별 대표 Foundation 모델1. NLPTransformerGPTBERT 2. CV(Computer Vision)ResNet, VGG, Inception과 같은 CNN 기반 모델ViT(Vision Transformers)와 같은 Transformer 기반 모델 3. Multi-modalGPT-4 4. Audio/SpeechWaveNetBERT for Au..
AGI vs. AI vs. ML vs. DL AGI(Artificial General Intelligence) : 스스로 학습할 수 있는 것   인공지능 (Artificial Intelligence; AI): 인간이 하는 일을 자동화할 수 있는 시스템   머신러닝 (Machine Learning; ML): AI의 일부로서 데이터로부터 학습하는 시스템   딥러닝 (Deep Learning; DL): 인공신경망을 사용해서 사람의 뇌가 동작하는 것을 흉내낸 시스템. 기존 머신러닝 알고리즘이 처리하지 못하는 복잡한 패턴을 처리할 수 있음 딥러닝 모델 유형1. Discriminative분류/예측레이블이 존재하는 데이터에 적용지도학습피처들과 레이블 간 관계를 학습2. Generative훈련 데이터에서 패턴/특성을 ..
Tableau Public이 본인 PC에 설치되어 있다는 가정하에 실습한 내용이다. Tableau Public무료 버전의 시각화 툴로컬 파일만 지원  CSV 파일 업로드Tableau Public을 열어보자.왼쪽 메뉴바에서 [텍스트 파일]을 클릭해보자. CSV 파일은 여기서 업로드 해야 한다.  다운받은 csv 파일을 선택해서 [열기] 버튼을 클릭한다.         Traffic Trend Chart 만들기 구하고자 하는 것 : B 버킷에 들어간 사용자의 수가 전체의 50%인지 통계적으로 95%의 신뢰도로 알아보기(`f_test` = 0.5인지 아닌지 판단)     1단계. 차트 생성을 위해 sheet 만들기Tableau에서 sheet는 개별 차트에 해당됨sheet가 모여 dashboard가 구성됨 Ta..
다양한 시각화 툴Excel, Google SpreadsheetLooker (google)Tableau (Salesforce)Power BI (Microsoft)Apache Superset (Open source)Mode Analytics, ReDashGoogle Studio, AWS QuicksightPython  ※ 셀프 서비스 대시보드를 만드는 것이 중요함안그러면 매번 사람의 노동이 필요해짐60~70%의 질문을 셀프 서비스 대시보드로 만들면 좋음 (Looker가 더 적합)     지표 (Metrics): 팀 혹은 개인별로 중요한 성과 목표를 정량적으로 정의한 것   좋은 지표의 특성 : 3A1. Accesible: 지표를 보는 것이 쉬워야 함 ← 시각화 툴이 도움이 됨 2. Actionable: 지표..
DBT 설치하기 (로컬 개발 버전 : dbt Core)  터미널을 열자DBT를 설치해보겠다.`pip3 install dbt-redshift`(에러가 발생한다면 `sudo pip3 install dbt-redshift`로 입력해보자.)※ dbt-core 모듈을 설치해줌과 동시에 환경에 맞는 dbt connector(Redshift, BigQuery, Snowflake 등)도 설치해준다.본인 컴퓨터에 맞는 시스템 암호를 입력해준다.   설치가 완료되었다면 dbt의 버전을 확인해보자. `dbt --version`최신 버전임을 확인했다.   이제 ELT 작업을 할 프로젝트를 만들어보자.`dbt init 프로젝트명`※ 여기서 하나의 프로젝트는 하나의 ELT 작업을 뜻한다. 필자는 실습에서 Redshift를 사용할..
Database Normalization (데이터베이스 정규화): 데이터베이스 정합성을 쉽게 유지하고 레코드의 수정/적재/삭제를 용이하게 하는 과정→ 데이터베이스를 보다 조직적이고 일관되게 설계 가능 용어Primary KeyComposite KeyForeign Key : 어떤 테이블에서 다른 테이블의 pk를 사용하려 할 때 참조하는 키 제 1 정규화 (1NF; First Normal Form)Atomicity : 하나의 셀에는 하나의 값만 있어야 함 Primary Key가 있어야 함중복된 키 or 레코드가 없어야 함 제 2 정규화 (2NF; Second Normal Form)1NF를 만족하면서Primary Key를 중심으로 의존 결과를 알 수 있어야 함부분적인 의존도가 없어야함모든 부가 속성들은 Prim..
상급닌자연습생
'데이터 분석 Data Analytics/프로그래머스 데이터분석 데브코스 2기' 카테고리의 글 목록