Gradient Descent(경사하강법)이란?

728x90

안녕하세요 AI일잘러 오니입니다 🤖

오늘은 Gradient Descent에 대한 글을 작성해보았습니다 🖋

그럼 Gradient Descent에 대해 알아보는 시간을 가져보겠습니다 👌🏻

Gradient descent is like a ball rolling down a hill.
The steeper the hill, the faster the ball will roll. Likewise,
the steeper the gradient, the faster the convergence.
- Andrew Ng

✔ 들어가며
머신 러닝에 관심이 있다면 "Gradient descent"이라는 용어를 들어보셨을 것입니다. 경사 하강은 머신 러닝과 딥 러닝에서 비용 함수 또는 손실 함수를 최소화하기 위해 널리 사용되는 최적화 알고리즘입니다. 이번 글에서는 경사 하강과 그 작동 방식, 그리고 그 변형된 종류에 대해 살펴보겠습니다.

✔ Gradient Descent란 무엇인가요?
경사 하강은 함수의 매개변수 값을 반복적으로 조정하여 주어진 함수를 최소화하는 것을 목표로 하는 최적화 알고리즘입니다. 이 알고리즘의 목적은 함수의 최소값을 제공하는 매개변수 값을 찾는 것입니다. 이 함수는 머신 러닝의 맥락에서 비용 함수 또는 손실 함수일 수 있습니다.

✔ The Gradient
미적분학에서 기울기는 함수의 가장 가파른 증가 방향을 가리키는 벡터입니다. 함수 f(x,y)의 기울기는 성분(∂f/∂x, ∂f/∂y)을 가진 벡터입니다. 머신러닝에서는 기울기를 사용하여 비용 함수가 가장 빠르게 감소하는 방향을 찾습니다.

✔ Gradient Descent Algorithm
경사 하강 알고리즘은 함수의 매개변수 값을 음의 경사 방향으로 반복적으로 조정하는 방식으로 작동합니다. 이 알고리즘은 매개변수 값에 대한 초기 추측으로 시작한 다음 해당 지점에서 비용 함수의 기울기를 계산합니다. 그런 다음 매개변수의 현재 값에서 기울기의 일부를 빼서 매개변수 값을 업데이트합니다. 이 비율을 학습률이라고 하며, 학습률은 음의 기울기 방향으로 스텝 크기를 결정합니다. 알고리즘은 비용 함수가 최소로 수렴할 때까지 이 과정을 반복합니다.

✔ Learning Rate
학습률은 경사 하강 알고리즘에서 중요한 하이퍼파라미터입니다. 학습 속도가 작으면 수렴이 느려지고, 학습 속도가 크면 최소값을 초과하여 최소값을 놓칠 수 있습니다. 따라서 알고리즘이 적절한 반복 횟수에서 최소값에 수렴할 수 있도록 적절한 학습 속도를 선택하는 것이 중요합니다.

✔ 그라디언트 하강의 변형
경사 하강 알고리즘에는 매개 변수 값을 업데이트하는 방식이 다른 여러 가지 변형이 있습니다.

1️⃣ Stochastic Gradient Descent(SGD)
확률적 경사 하강(SGD)은 경사 하강의 변형으로, 에포크가 끝날 때까지 기다리지 않고 각 훈련 예제를 처리한 후 파라미터 값을 업데이트합니다. SGD는 배치 경사 하강보다 빠르지만 훈련 예제 순서의 무작위성으로 인해 노이즈가 발생할 수 있습니다.

2️⃣ Mini-Batch Gradient Descent
미니 배치 경사 하강은 배치 경사 하강과 확률적 경사 하강의 절충안입니다. 소량의 훈련 예제를 처리한 후 파라미터 값을 업데이트합니다. 배치의 크기는 속도와 안정성의 균형을 맞추기 위해 조정할 수 있는 하이퍼파라미터입니다.

3️⃣ Momentum-based Gradient Descent
모멘텀 기반 경사 하강은 업데이트 규칙에 모멘텀 항을 추가하는 변형입니다. 운동량 항은 과거 반복의 기울기를 누적하고 그 일부를 현재 기울기에 추가합니다. 이렇게 하면 업데이트를 부드럽게 하고 수렴을 가속화하는 데 도움이 됩니다.

4️⃣ Adam Optimization
아담 최적화는 각 파라미터에 대한 적응형 학습률을 사용하는 Gradient Descent의 인기 있는 변형입니다. 모멘텀 기반 경사 하강과 RMSprop의 아이디어를 결합하여 각 파라미터에 대한 학습률을 계산합니다.

✔ 결론
경사 하강은 머신러닝과 딥러닝에서 비용 함수 또는 손실 함수를 최소화하기 위해 널리 사용되는 최적화 알고리즘입니다. 이 알고리즘은 함수의 매개변수 값을 음의 기울기 방향으로 반복적으로 조정하는 방식으로 작동합니다. 학습 속도는 신중하게 선택해야 하는 중요한 하이퍼파라미터입니다. 경사 하강에는 확률적 경사 하강, 미니 배치 경사 하강, 운동량 기반 경사 하강, 아담 최적화 등 여러 가지 변형이 있습니다. 각 변형에는 장단점이 있으므로 당면한 문제의 요구 사항에 따라 선택해야 합니다.

❓ FAQ
1️⃣ 경사 하강의 목적은 무엇인가요?
경사 하강은 주어진 함수의 최소값을 찾는 것을 목표로 하는 최적화 알고리즘입니다. 머신 러닝의 맥락에서 비용 함수 또는 손실 함수를 최소화하는 데 사용됩니다.

2️⃣ Batch Gradient Descent and Stochastic Gradient Descent의 차이점은 무엇인가요?
일괄 경사 하강은 전체 훈련 데이터 세트를 처리한 후 매개변수 값을 업데이트하는 반면, 확률적 경사 하강은 각 훈련 예제를 처리한 후 매개변수 값을 업데이트합니다.

3️⃣ 경사 하강에서 학습률이란?
학습률은 음의 경사 방향으로의 스텝 크기를 결정하는 하이퍼파라미터입니다. 학습률이 작으면 수렴이 느려지고 학습률이 크면 최소값을 초과할 수 있습니다.

저작자표시

'🤖 AI일잘러 오니의 AI' 카테고리의 다른 글

Canny edge detection이란? (0)	2023.03.28
머신비전(Machine Vision)이란? (0)	2023.03.25
이미지넷(ImageNet) 이란? (0)	2023.03.23
딥 러닝(Deep Learning) 이란 (0)	2023.03.21
로지스틱 회귀(Logistic Regression) (0)	2023.03.18

Smart Platform

Gradient Descent(경사하강법)이란?

'🤖 AI일잘러 오니의 AI' 카테고리의 다른 글

댓글

티스토리툴바

Gradient Descent(경사하강법)이란?

'🤖 AI일잘러 오니의 AI' 카테고리의 다른 글

관련글

댓글

티스토리툴바