19-03 When would we use proximal Newton?

Proximal newton method는 언제 사용해야 좋은가?

Proximal newton method의 유용성을 이해하기 위해 다음 문제에 대해 proximal newton method와 proximal gradient descent를 비교해 보자.

Problem : \(\min_x g(x) + h(x)\)

Proximal gradient descent vs. proximal newton

Proximal gradient descent Proximal Newton
\(\frac{1}{2} \parallel b - x \parallel_2^2 + h(x)\) 최소화 \(b^T x + x^T A x + h(x)\) 최소화
Prox operator가 대부분 closed form으로 정의됨 Prox operator가 대부분 closed form으로 정의되지 않음
반복이 저렴 반복이 아주 비쌈 (newton method보다 비쌈)
Gradient descent 수렴 속도
\(O(1/\epsilon)\)
Newton’s method 수렴 속도
\(O(\log \log 1/\epsilon)\)

두 방법은 비슷해 보이지만 실제 매우 다른 일을 한다.

따라서, proximal newton method는 아주 적은 반복을 기대할 수 있는 scaled prox operator(quadratic + \(h\))에 대한 빠른 inner optimizer를 가질 때 사용할 수 있다. \(h\)가 separable function일 때 inner optimizer로 가장 많이 사용되는 방법이 coordinate descent이다.