데이터 이슈와 해결책
데이터 민주화 (Data Democratization) : 데이터를 필요로하는 사람이 접근 가능해지는 것
데이터 민주화가 잘못되면 정보과잉이 발생할 수 있다.
데이터 거버넌스 : 데이터의 활용이 늘어나면서 데이터를 잘못활용했을 경우 Garbage In Garbage Out으로 오히려 해가 될 수 있기 때문에 데이터 수집, 분석, 저장까지 전반적인 프로세스가 정해져야 함
데이터 엔지니어의 경우 누군가의 요청으로 데이터를 수집/정제/적재하는데, 이 때 요청한 누군가가 데이터의 오너가 된다.
테크니컬 오너
비즈니스 오너 : 위의 요청한 누군가 (개인보다는 팀으로 기록되어야 함)
오너십도 메타데이터로 볼수 있다.
데이터에 대한 데이터가 있다면 그것을 활용해서 데이터를 검색/관리 가능해진다.
데이터 팀이 커지게 되면 데이터를 각자 만들어내는데 공유를 안하거나 중복해서 데이터를 만들어내는 등의 문제가 발생한다. => Data Silo
개인정보에 태깅해서 필요시에만 사용하는 것이 옳다.
따라서,
1. 명확한 지표 정의와
2. 어떤 데이터를 활용하는지
명확하게 하는 것이 중요하다.
대시보드와 테이블의 수가 너무 많아질 경우
-> 데이터 카탈로그
우리 회사 내 어떤 테이블이 어디서 생기고 어떻게 활용될 수 있는지 검색엔진을 만드는 것
메타 데이터가 부족한 경우
특정 데이터셋에 대한 오너와 생성된 경로를 알 수 없는 경우
->
Data Silo
비슷한 일을 여러 팀에서 중복되게 하다보면 그만큼 이슈가 증폭되는 현상
-> 데이터 독점이 발생하고 정체가 생긴다
-> 메타 데이터의 관리와 공유가 필요하다.
-> Data Mesh : 팀별로 데이터 시스템을 유지하는 것을 허용하되, 거기서 생기는 데이터들이 일목요연하게 모든 팀들에게 보여져야 한다. 이러한 과정이 필요함. 다른팀들에게 공유할 때 체크하고
하나의 중앙 팀이 다 관리하는 것이 벅차니까, 분산해서 관리하되 데이터 인프라 팀이 중심이 되어 관리를 해주고 데이터를 갖고 분석하고 모델링하는 등의 활용은 각 조직이 알아서 하는 방식.
단, 각자의 시스템을 갖고는 있지만 거기서 발생하는 데이터들이나 이슈는 서로 공유되어야 한다.
개인정보(PII; Personally Identifable Information)란?
: 개인을 식별할 수있는 정보
1) 이름, 이메일, 연락처, 주소 등
2) 준식별자 - 각각만 놓고 보면 알수없지만 이를 조합하면 개인을 특정할 수있는 경우 ex. 나이, 직장
준식별자는 각각만 있으면 문제가 없지만 조합되면 문제가 발생할 수 있다.
개인정보 보호란?
- 개인정보를 활용하기 위해서는 이에 대한 동의가 반드시 필요하다.
- 동의를 받을 때 약관에 없는 형태로 개인정보를 활용해서는 안된다.
- 동의 바깥으로 저장/활용해서는 안된다.
GDPI
CCPA
CCRA(CCPA개정)
ePHI : 내가 어떤 EHR 시스템에 소속되는 겨웅, 개인정보 보관 시스메을 사용하느냐에 따라서
데이터 해외 이전은 추가 고지가 필요하다.
모든 개인정보는 저장/전송할 때 꼭 암호화가 되어야 한다.
해커에 의한 외부 위협보다도 기업 내부 사람들의 실수에 의한 Data Leak가 더 많다.
보호가 필요한 중요 정보가 무엇인지 기업 내에서 명확하게 정의되어야 한다.
개인정보 사용에 대한 로그를 audit할 수 있어야 한다
GDPR
유럽 연합의 개인정보 보호 법령(2018.05.25 실행)
권고가 아닌, 유럽 연합 내 모든 회원국에 일괄적으로 적용된다.
유럽 연합 내 사람이 사용하는 서비스라면 전부 적용된다고 보면 된다.
패널티
레벨 1. (더 낮은 레벨. 적은 패널티)
레벨 2. (더 높은 레벨. 높은 패널티)
미성년자가 서비스를 이용하는경우, 대리인이 지정되어야 하며 대리인의 동의를 받아야 한다.
민감 정보의 처리는 원칙적으로 금지된다.
개인이 권리에 대한 요청을 하면 30일 이내 응답을 해야한다.
- 삭제권
- 프로파일링 거부권 :개인의 정보를 기반으로 추천/개인화 등의 자동화된 처리 거부
- 처리제한권:
- 정보이동권: 기업이 개인에 대해서 알고있는 정보를 모두 알려주고 다른 회사에서 사용할 수있도록 전송하도록 요구
CCPA
GDPR과 흡사한 캘리포니아 거주민 국한 개인정보 보호 법령
개인에게만 국한 한것이 아닌 가구 까지 확대
HIPAA
= Health Insurance Portability and Accountability Act
개인의 의료정보 보호를 목표로 하는 개인정보 보호 법령 (1996)
개인의 의료정보가 무엇인지에 대해 18가지 정의
EHR 의료 정보 기록 시스템에 해당 정보들이 저장되어있다.
개인을 특정하기 위한 다양한 정보 + 개인의 병력/진단,입원,처방 기록 등이 보관된다.
1주일 총 정리
1. 데이터 문해력/데이터 가치를 만들어내기 위해 필요한 데이터 팀/데이터 직군들
2. 데이터 가치를 만들어내는 활동 (1) - 결정과학(데이터를 기반한 의사 결정)/데이터 분석가
3. 데이터 가치를 만들어내는 활동 (2) - 제품과학(데이터를 기반한 제품 개선)/데이터 과학자/지도학습 및 비지도학습/머신러닝
4. 인공신경망->딥러닝/Gen AI/ChatGPT/Gen AI를 이용한 생산성 증대
5. 데이터 활용시 고려할 점/개인정보/개인정보 보호법
'데이터 분석 Data Analytics > 프로그래머스 데이터분석 데브코스 2기' 카테고리의 다른 글
[TIL] 데이터분석 데브코스 7일차 - 데이터 종류/타이타닉 승객 생존여부 예측/ (1) | 2024.02.27 |
---|---|
[TIL] 데이터분석 데브코스 6일차 - 데이터/데이터 활용/데이터 기반의 의사소통/실습(공공 데이터 포털 활용하기) (0) | 2024.02.26 |
[TIL] 데이터분석 데브코스 4일차 - 생성형 AI(Gen AI)/ChatGPT (0) | 2024.02.22 |
[TIL] 데이터분석 데브코스 3일차 - 데이터 기반 제품 개선(제품 과학)/머신러닝/머신러닝 모델 개발 개요/MLOps (0) | 2024.02.22 |
[TIL] 데이터분석 데브코스 2일차 - 데이터 기반 의사결정(결정과학)/조직의 구조/KPI/시각화 대시보드/Tableau 실습 (1) | 2024.02.20 |