μλ νμΈμ AIμΌμλ¬ μ€λμ λλ€ π€
μ€λμ Gradient Descentμ λν κΈμ μμ±ν΄λ³΄μμ΅λλ€ π
κ·ΈλΌ Gradient Descentμ λν΄ μμ보λ μκ°μ κ°μ Έλ³΄κ² μ΅λλ€ ππ»
Gradient descent is like a ball rolling down a hill.
The steeper the hill, the faster the ball will roll. Likewise,
the steeper the gradient, the faster the convergence.
- Andrew Ng

β λ€μ΄κ°λ©°
λ¨Έμ λ¬λμ κ΄μ¬μ΄ μλ€λ©΄ "Gradient descent"μ΄λΌλ μ©μ΄λ₯Ό λ€μ΄λ³΄μ
¨μ κ²μ
λλ€. κ²½μ¬ νκ°μ λ¨Έμ λ¬λκ³Ό λ₯ λ¬λμμ λΉμ© ν¨μ λλ μμ€ ν¨μλ₯Ό μ΅μννκΈ° μν΄ λ리 μ¬μ©λλ μ΅μ ν μκ³ λ¦¬μ¦μ
λλ€. μ΄λ² κΈμμλ κ²½μ¬ νκ°κ³Ό κ·Έ μλ λ°©μ, κ·Έλ¦¬κ³ κ·Έ λ³νλ μ’
λ₯μ λν΄ μ΄ν΄λ³΄κ² μ΅λλ€.
β Gradient Descentλ 무μμΈκ°μ?
κ²½μ¬ νκ°μ ν¨μμ λ§€κ°λ³μ κ°μ λ°λ³΅μ μΌλ‘ μ‘°μ νμ¬ μ£Όμ΄μ§ ν¨μλ₯Ό μ΅μννλ κ²μ λͺ©νλ‘ νλ μ΅μ ν μκ³ λ¦¬μ¦μ
λλ€. μ΄ μκ³ λ¦¬μ¦μ λͺ©μ μ ν¨μμ μ΅μκ°μ μ 곡νλ λ§€κ°λ³μ κ°μ μ°Ύλ κ²μ
λλ€. μ΄ ν¨μλ λ¨Έμ λ¬λμ λ§₯λ½μμ λΉμ© ν¨μ λλ μμ€ ν¨μμΌ μ μμ΅λλ€.
β The Gradient
λ―Έμ λΆνμμ κΈ°μΈκΈ°λ ν¨μμ κ°μ₯ κ°νλ₯Έ μ¦κ° λ°©ν₯μ κ°λ¦¬ν€λ 벑ν°μ
λλ€. ν¨μ f(x,y)μ κΈ°μΈκΈ°λ μ±λΆ(βf/βx, βf/βy)μ κ°μ§ 벑ν°μ
λλ€. λ¨Έμ λ¬λμμλ κΈ°μΈκΈ°λ₯Ό μ¬μ©νμ¬ λΉμ© ν¨μκ° κ°μ₯ λΉ λ₯΄κ² κ°μνλ λ°©ν₯μ μ°Ύμ΅λλ€.
β Gradient Descent Algorithm
κ²½μ¬ νκ° μκ³ λ¦¬μ¦μ ν¨μμ λ§€κ°λ³μ κ°μ μμ κ²½μ¬ λ°©ν₯μΌλ‘ λ°λ³΅μ μΌλ‘ μ‘°μ νλ λ°©μμΌλ‘ μλν©λλ€. μ΄ μκ³ λ¦¬μ¦μ λ§€κ°λ³μ κ°μ λν μ΄κΈ° μΆμΈ‘μΌλ‘ μμν λ€μ ν΄λΉ μ§μ μμ λΉμ© ν¨μμ κΈ°μΈκΈ°λ₯Ό κ³μ°ν©λλ€. κ·Έλ° λ€μ λ§€κ°λ³μμ νμ¬ κ°μμ κΈ°μΈκΈ°μ μΌλΆλ₯Ό λΉΌμ λ§€κ°λ³μ κ°μ μ
λ°μ΄νΈν©λλ€. μ΄ λΉμ¨μ νμ΅λ₯ μ΄λΌκ³ νλ©°, νμ΅λ₯ μ μμ κΈ°μΈκΈ° λ°©ν₯μΌλ‘ μ€ν
ν¬κΈ°λ₯Ό κ²°μ ν©λλ€. μκ³ λ¦¬μ¦μ λΉμ© ν¨μκ° μ΅μλ‘ μλ ΄ν λκΉμ§ μ΄ κ³Όμ μ λ°λ³΅ν©λλ€.
β Learning Rate
νμ΅λ₯ μ κ²½μ¬ νκ° μκ³ λ¦¬μ¦μμ μ€μν νμ΄νΌνλΌλ―Έν°μ
λλ€. νμ΅ μλκ° μμΌλ©΄ μλ ΄μ΄ λλ €μ§κ³ , νμ΅ μλκ° ν¬λ©΄ μ΅μκ°μ μ΄κ³Όνμ¬ μ΅μκ°μ λμΉ μ μμ΅λλ€. λ°λΌμ μκ³ λ¦¬μ¦μ΄ μ μ ν λ°λ³΅ νμμμ μ΅μκ°μ μλ ΄ν μ μλλ‘ μ μ ν νμ΅ μλλ₯Ό μ ννλ κ²μ΄ μ€μν©λλ€.
β κ·ΈλΌλμΈνΈ νκ°μ λ³ν
κ²½μ¬ νκ° μκ³ λ¦¬μ¦μλ λ§€κ° λ³μ κ°μ μ
λ°μ΄νΈνλ λ°©μμ΄ λ€λ₯Έ μ¬λ¬ κ°μ§ λ³νμ΄ μμ΅λλ€.
1οΈβ£ Stochastic Gradient Descent(SGD)
νλ₯ μ κ²½μ¬ νκ°(SGD)μ κ²½μ¬ νκ°μ λ³νμΌλ‘, μν¬ν¬κ° λλ λκΉμ§ κΈ°λ€λ¦¬μ§ μκ³ κ° νλ ¨ μμ λ₯Ό μ²λ¦¬ν ν νλΌλ―Έν° κ°μ μ
λ°μ΄νΈν©λλ€. SGDλ λ°°μΉ κ²½μ¬ νκ°λ³΄λ€ λΉ λ₯΄μ§λ§ νλ ¨ μμ μμμ 무μμμ±μΌλ‘ μΈν΄ λ
Έμ΄μ¦κ° λ°μν μ μμ΅λλ€.
2οΈβ£ Mini-Batch Gradient Descent
λ―Έλ λ°°μΉ κ²½μ¬ νκ°μ λ°°μΉ κ²½μ¬ νκ°κ³Ό νλ₯ μ κ²½μ¬ νκ°μ μ μΆ©μμ
λλ€. μλμ νλ ¨ μμ λ₯Ό μ²λ¦¬ν ν νλΌλ―Έν° κ°μ μ
λ°μ΄νΈν©λλ€. λ°°μΉμ ν¬κΈ°λ μλμ μμ μ±μ κ· νμ λ§μΆκΈ° μν΄ μ‘°μ ν μ μλ νμ΄νΌνλΌλ―Έν°μ
λλ€.
3οΈβ£ Momentum-based Gradient Descent
λͺ¨λ©ν
κΈ°λ° κ²½μ¬ νκ°μ μ
λ°μ΄νΈ κ·μΉμ λͺ¨λ©ν
νμ μΆκ°νλ λ³νμ
λλ€. μ΄λλ νμ κ³Όκ±° λ°λ³΅μ κΈ°μΈκΈ°λ₯Ό λμ νκ³ κ·Έ μΌλΆλ₯Ό νμ¬ κΈ°μΈκΈ°μ μΆκ°ν©λλ€. μ΄λ κ² νλ©΄ μ
λ°μ΄νΈλ₯Ό λΆλλ½κ² νκ³ μλ ΄μ κ°μννλ λ° λμμ΄ λ©λλ€.
4οΈβ£ Adam Optimization
μλ΄ μ΅μ νλ κ° νλΌλ―Έν°μ λν μ μν νμ΅λ₯ μ μ¬μ©νλ Gradient Descentμ μΈκΈ° μλ λ³νμ
λλ€. λͺ¨λ©ν
κΈ°λ° κ²½μ¬ νκ°κ³Ό RMSpropμ μμ΄λμ΄λ₯Ό κ²°ν©νμ¬ κ° νλΌλ―Έν°μ λν νμ΅λ₯ μ κ³μ°ν©λλ€.
β κ²°λ‘
κ²½μ¬ νκ°μ λ¨Έμ λ¬λκ³Ό λ₯λ¬λμμ λΉμ© ν¨μ λλ μμ€ ν¨μλ₯Ό μ΅μννκΈ° μν΄ λ리 μ¬μ©λλ μ΅μ ν μκ³ λ¦¬μ¦μ
λλ€. μ΄ μκ³ λ¦¬μ¦μ ν¨μμ λ§€κ°λ³μ κ°μ μμ κΈ°μΈκΈ° λ°©ν₯μΌλ‘ λ°λ³΅μ μΌλ‘ μ‘°μ νλ λ°©μμΌλ‘ μλν©λλ€. νμ΅ μλλ μ μ€νκ² μ νν΄μΌ νλ μ€μν νμ΄νΌνλΌλ―Έν°μ
λλ€. κ²½μ¬ νκ°μλ νλ₯ μ κ²½μ¬ νκ°, λ―Έλ λ°°μΉ κ²½μ¬ νκ°, μ΄λλ κΈ°λ° κ²½μ¬ νκ°, μλ΄ μ΅μ ν λ± μ¬λ¬ κ°μ§ λ³νμ΄ μμ΅λλ€. κ° λ³νμλ μ₯λ¨μ μ΄ μμΌλ―λ‘ λΉλ©΄ν λ¬Έμ μ μꡬ μ¬νμ λ°λΌ μ νν΄μΌ ν©λλ€.
β FAQ
1οΈβ£ κ²½μ¬ νκ°μ λͺ©μ μ 무μμΈκ°μ?
κ²½μ¬ νκ°μ μ£Όμ΄μ§ ν¨μμ μ΅μκ°μ μ°Ύλ κ²μ λͺ©νλ‘ νλ μ΅μ ν μκ³ λ¦¬μ¦μ
λλ€. λ¨Έμ λ¬λμ λ§₯λ½μμ λΉμ© ν¨μ λλ μμ€ ν¨μλ₯Ό μ΅μννλ λ° μ¬μ©λ©λλ€.
2οΈβ£ Batch Gradient Descent and Stochastic Gradient Descentμ μ°¨μ΄μ μ 무μμΈκ°μ?
μΌκ΄ κ²½μ¬ νκ°μ μ 체 νλ ¨ λ°μ΄ν° μΈνΈλ₯Ό μ²λ¦¬ν ν λ§€κ°λ³μ κ°μ μ
λ°μ΄νΈνλ λ°λ©΄, νλ₯ μ κ²½μ¬ νκ°μ κ° νλ ¨ μμ λ₯Ό μ²λ¦¬ν ν λ§€κ°λ³μ κ°μ μ
λ°μ΄νΈν©λλ€.
3οΈβ£ κ²½μ¬ νκ°μμ νμ΅λ₯ μ΄λ?
νμ΅λ₯ μ μμ κ²½μ¬ λ°©ν₯μΌλ‘μ μ€ν
ν¬κΈ°λ₯Ό κ²°μ νλ νμ΄νΌνλΌλ―Έν°μ
λλ€. νμ΅λ₯ μ΄ μμΌλ©΄ μλ ΄μ΄ λλ €μ§κ³ νμ΅λ₯ μ΄ ν¬λ©΄ μ΅μκ°μ μ΄κ³Όν μ μμ΅λλ€.
'π€ AIμΌμλ¬ μ€λμ AI' μΉ΄ν κ³ λ¦¬μ λ€λ₯Έ κΈ
Canny edge detectionμ΄λ? (0) | 2023.03.28 |
---|---|
λ¨Έμ λΉμ (Machine Vision)μ΄λ? (0) | 2023.03.25 |
μ΄λ―Έμ§λ·(ImageNet) μ΄λ? (0) | 2023.03.23 |
λ₯ λ¬λ(Deep Learning) μ΄λ (0) | 2023.03.21 |
λ‘μ§μ€ν± νκ·(Logistic Regression) (0) | 2023.03.18 |
λκΈ