인공신경망이란?
사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 머신러닝 모델
구조
1. 퍼셉트론(perceptron)
인간의 신경망에 있는 뉴런의 모델을 모방하여 입력층, 출력층으로 구성한 인공신경망 모델
[퍼셉트론 구성 요소]
- 입력값 : 훈련데이터
- 가중치 : 실제값과 예측값의 활성화함수 리턴값이 다를 경우 가중치 업데이트
- 순 입력함수
- 예측값(출력값) : -1 또는 1
2. 다층 퍼셉트론
입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해 학습이 가능한 퍼셉트론
- 퍼셉트론의 XOR 선형 분리 문제점을 보완
- 활성화 함수로 시그모이드 함수 사용
- 역전파 알고리즘을 통해 다층으로 만들어진 퍼셉트론의 학습이 가능함
- 문제점 :
- 과대적합
- 기울기 소실 : 시그모이드 함수는 편미분을 진행할수록 0으로 근사하여 기울기가 소실됨 ▶ ReLU 함수 대체
3. 활성화 함수(Activiation Function)
순 입력함수로부터 전달받은 값을 출력값으로 변환해주는 함수
- 계단 함수
- 부호 함수
- 시그모이드 함수
- 선형함수
- tanh 함수
- ReLU 함수 (Rectified Linear Unit)
- 소프트맥스 함수 (Softmax)
인공신경망 학습
올바른 예측을 위해 가중치 w들을 잘 조정하는 과정
인공신경망 학습 과정
- 미니배치 학습 : 훈련 데이터 중 일부를 무작위로 추출하여 묶음
- 기울기 산출 : 미니배치의 손실 함숫값을 줄이기 위해 각 가중치 매개변수의 기울기를 구함
- 매개변수 갱신 : 가중치 매개변수를 기울기 방향으로 조금씩 갱신 (경사하강법 적용)
- 최적값을 찾을 때 까지 1~3 과정 반복
순전파(Forward Propagation)
입력층에서 출력층까지 정보가 전달되는 과정
👉 입력 → 출력 → 오차 계산
손실함수 (Loss Function)
실젯값과 예측값의 차이(오차)를 비교하는 지표로 값이 낮을수록 학습이 잘된 것
👉 인공신경망 학습에서는 손실함수 값을 최대한 작게 하는 최적의 매개변수(가중치, 편향)를 탐색함 (←하이퍼파라미터 튜닝)
[손실함수 종류]
| 손실함수 | 설명 |
| 평균 제곱 에러(MSE; Mean Squared Error) | 출력결과와 데이터 차이 제곱의 평균 |
| 교차 엔트로피 오차(CEE; Cross Entropy Error) | - 실제 정답의 확률만 고려한 손실함수 - 정답은 1 나머지는 0인 one-hot encoding label |
역전파 (Back propagation)
역방향으로 가중치 업데이트를 통해 오차를 최소화시키도록 학습시키는 알고리즘
👉 연쇄법칙(Chain Rule)을 이용해서 출력층부터 입력층 방향으로 미분을 전달하면서 계산한다
👉오차 → 출력층 → 은닉층 → 입력층 방향으로 미분을 전파
가중치 업데이트는 경사하강법으로 진행한다.
경사 하강법 (Gradient Descent Method)
기울기(경사)를 낮은 쪽으로 계속 이동시켜서 극값에 이를 때 까지 반복하며 최적의 매개변수를 찾는 기법
η[eta] 학습률(Learning Rate)
: 한 번 학습할 때 학습해야 하는 양 = 한 번 업데이트할 때 얼마나 크게 이동할지(스텝 크기)
👉 사람이 직접 설정하는 초매개변수(Hyper parameter)
- η가 크면 → 빨리 움직이지만, 너무 크면 최적점을 지나쳐서 발산할 수 있음
- η가 작으면 → 안정적이지만, 너무 작으면 학습 속도가 너무 느려짐
** 초매개변수(Hyper parameter)
: 모델 외적인 요소로, 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해줘야 하는 값
한계점
- 전체 데이터를 모두 사용해서 기울기를 계산하기 때문에 많은 시간이 소요됨
- 랜덤하게 선택된 가중치의 위치가 전역 최솟값(Global Minimum)이 아닌 지역 최솟값(Local Minimum)에 수렴할 수 있음
왜 역전파를 해야 할까?
- 신경망은 층이 깊어서 오차가 각 가중치에 어떤 영향을 미쳤는지 직접 계산하기 어려움.
- 역전파는 효율적인 방법으로 미분(기울기)을 계산해서, 모든 가중치를 한 번에 업데이트할 수 있게 해줌.
- 이 과정을 반복하면서 Loss가 줄어들고, 신경망이 점점 더 “정답에 가까운 예측”을 하게 됨.
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
| [빅데이터분석기사 필기] 3-2. (1) 연관성 분석 (Association Analysis, 장바구니 분석, 서열 분석)_비지도학습 (0) | 2025.09.05 |
|---|---|
| [빅데이터분석기사 필기] 3-2. (1) 서포트 벡터 머신(SVM; Support Vector Machine)_지도학습/분류 (0) | 2025.09.05 |
| [빅데이터분석기사 필기] 3-2. (1) 의사결정 나무 (Deicision Tree)_지도학습/분류&예측 (0) | 2025.09.05 |
| [빅데이터분석기사 필기] 3-2. (1) 회귀분석 (Regression Analysis)_지도학습/예측 (0) | 2025.09.05 |
| [빅데이터분석기사 필기] 3-2. (1) 분석기법 개요 (0) | 2025.09.04 |