전체 글

궁금해하고 공부하고 기록하고
지금까지..데이터를 다루는 일을 하고싶다고 마음 먹은 후,프로그래머스에서 주관하는 데이터분석 데브코스 2기에 참여할지 말지 고민하느라 밤잠까지 설치던 때가 엊그제 같은데벌써 4개월이 지나고 이제  마지막 최종 프로젝트만을 남겨두고 있다. (사실상 현재 진행중이긴 하다.) 데브코스 내에서 짧은 월간 프로젝트를 3번이나 진행했었지만, 프로젝트 기간이 너무 짧기도 했고 과연 이걸 포트폴리오에 녹여낼 수 있을까 하는 걱정이 많이 되었다.그래서 최종 프로젝트는 포트폴리오에 넣어 당당히 내보일 수 있을 만한 퀄리티와 규모로 진행하고 싶었다.마침 그러한 팀을 모집한다고 해서 최종 프로젝트 시작 기간을 한달이나 앞둔 시점에 해당 팀에 참여하게 되었다.  첫 번째 주제 : 음악 추천 시스템호기롭게 시작한 우리 팀의 첫 ..
🤔 문제다음은 환자 정보를 담은 `PATIENT` 테이블과 의사 정보를 담은 `DOCTOR` 테이블, 그리고 진료 예약목록을 담은 `APPOINTMENT`에 대한 테이블입니다. `PATIENT` 테이블은 다음과 같으며 `PT_NO`, `PT_NAME`, `GEND_CD`, `AGE`, `TLNO`는 각각 환자번호, 환자이름, 성별코드, 나이, 전화번호를 의미합니다.`DOCTOR` 테이블은 다음과 같으며 `DR_NAME`, `DR_ID`, `LCNS_NO`, `HIRE_YMD`, `MCDP_CD`, `TLNO`는 각각 의사이름, 의사ID, 면허번호, 고용일자, 진료과코드, 전화번호를 나타냅니다.`APPOINTMENT` 테이블은 다음과 같으며 `APNT_YMD`, `APNT_NO`, `PT_NO`, `MC..
🤔 문제다음은 어느 자동차 대여 회사의 자동차 대여 기록 정보를 담은 `CAR_RENTAL_COMPANY_RENTAL_HISTORY` 테이블입니다. `CAR_RENTAL_COMPANY_RENTAL_HISTORY` 테이블은 아래와 같은 구조로 되어있으며, `HISTORY_ID`, `CAR_ID`, `START_DATE`, `END_DATE` 는 각각 자동차 대여 기록 ID, 자동차 ID, 대여 시작일, 대여 종료일을 나타냅니다.`CAR_RENTAL_COMPANY_RENTAL_HISTORY` 테이블에서 대여 시작일을 기준으로 2022년 8월부터 2022년 10월까지 총 대여 횟수가 5회 이상인 자동차들에 대해서 해당 기간 동안의 월별 자동차 ID 별 총 대여 횟수(컬럼명: `RECORDS`) 리스트를 출력..
🤔 문제다음은 어느 자동차 대여 회사에서 대여 중인 자동차들의 정보를 담은 `CAR_RENTAL_COMPANY_CAR` 테이블과 자동차 대여 기록 정보를 담은 `CAR_RENTAL_COMPANY_RENTAL_HISTORY` 테이블과 자동차 종류 별 대여 기간 종류 별 할인 정책 정보를 담은 `CAR_RENTAL_COMPANY_DISCOUNT_PLAN` 테이블 입니다.`CAR_RENTAL_COMPANY_CAR` 테이블은 아래와 같은 구조로 되어있으며, `CAR_ID`, `CAR_TYPE`, `DAILY_FEE`, `OPTIONS` 는 각각 자동차 ID, 자동차 종류, 일일 대여 요금(원), 자동차 옵션 리스트를 나타냅니다. 자동차 종류는 '세단', 'SUV', '승합차', '트럭', '리무진' 이 있습니..
🤔 문제`HR_DEPARTMENT` 테이블은 회사의 부서 정보를 담은 테이블입니다. `HR_DEPARTMENT` 테이블의 구조는 다음과 같으며 `DEPT_ID`, `DEPT_NAME_KR`, `DEPT_NAME_EN`, `LOCATION`은 각각 부서 ID, 국문 부서명, 영문 부서명, 부서 위치를 의미합니다. `HR_EMPLOYEES` 테이블은 회사의 사원 정보를 담은 테이블입니다. `HR_EMPLOYEES` 테이블의 구조는 다음과 같으며 `EMP_NO`, `EMP_NAME`, `DEPT_ID`, `POSITION`, `EMAIL`, `COMP_TEL`, `HIRE_DATE`, `SAL`은 각각 사번, 성명, 부서 ID, 직책, 이메일, 전화번호, 입사일, 연봉을 의미합니다. `HR_GRADE` 테이..
Word Embedding(워드 임베딩): 문장을 단어의 리스트로 바꾸고(토큰화), 각 토큰을 숫자(벡터 or 행렬)로 변환하는 과정   대표적 사전 훈련된 워드 임베딩 모델Word2VecGloVeFastTextOpenAI Embedding   방법1. Bag of Words: One-hot Encoding을 사용하여 단어별로 인덱스를 지정하거나, (문장의 경우) 문장 내 단어들의 인덱스와 빈도수를 저장하는 방법크기는 크지만 밀도는 낮은(sparse한) 벡터가 됨영어의 경우 2만개 단어가 사용됨문맥이 존재하지 않기 때문에 단어들의 관계 및 순서가 전혀 표현되지 못함일반적으로 3개의 특수 단어가 존재1) SOS : Start of Sentence2) EOS : End of Sentence3) UNKNOWN..
🤔 문제`SKILLCODES` 테이블은 개발자들이 사용하는 프로그래밍 언어에 대한 정보를 담은 테이블입니다. `SKILLCODES` 테이블의 구조는 다음과 같으며, `NAME`, `CATEGORY`, `CODE`는 각각 스킬의 이름, 스킬의 범주, 스킬의 코드를 의미합니다. 스킬의 코드는 2진수로 표현했을 때 각 bit로 구분될 수 있도록 2의 제곱수로 구성되어 있습니다.`DEVELOPERS` 테이블은 개발자들의 프로그래밍 스킬 정보를 담은 테이블입니다. `DEVELOPERS` 테이블의 구조는 다음과 같으며, `ID`, `FIRST_NAME`, `LAST_NAME`, `EMAIL`, `SKILL_CODE`는 각각 개발자의 ID, 이름, 성, 이메일, 스킬 코드를 의미합니다. `SKILL_CODE` 컬럼..
Open Source License(오픈소스 라이센스): 소스 코드가 공개되어 있어 누구나 자유롭게 수정/사용/배포 가능한 소프트웨어개발자들이 협업을 통해 기술의 혁신 및 개선을 추구할 수 있음깃허브를 통해 오픈소스 개발과 공유가 한 단계 발전대표적 오픈소스 소프트웨어 :Linux 운영체제관계형 데이터베이스 : PostgreSQL, MariaDB 등웹서버 서비스 : Apache 등프로그래밍 언어 : Python 등빅데이터 처리 프레임워크 : Hadoop, Spark 등   대표 오픈소스 라이센스1. MIT 라이센스사용자에게 소프트웨어를 (거의) 제한 없이 사용/복사/수정/배포할 수있는 권한 부여원작자의 저작권 표시, 허가 표시를 모든 복사본 혹은 중요한 부분에 포함시켜야 함 2. Apache 2.0 라이..
상급닌자연습생
상급닌자수련원