Gunicorn 워커 수가 많아지면 thundering herd로 인해 일부 워커만 요청을 받는다

요약

Gunicorn은 워커들이 하나의 listening socket을 공유하는데, 워커가 많아지면 락 경쟁/컨텍스트 스위칭 비용으로 일부 워커만 요청을 처리하고 나머지는 idle 상태가 된다.
Clubhouse는 96 vCPU + 144 워커 환경에서 CPU 25%에서 latency가 폭증했고, 144개 워커 중 29개만 요청을 받고 있었다.
해결: 워커 N개를 가진 Gunicorn 1개 대신 워커 1개를 가진 Gunicorn N개를 HAProxy 뒤에서 로드밸런싱.

Clubhouse가 트래픽 스케일업 중 마주친 현상:

"다수의 프로세스가 같은 소켓에서 다음 요청을 받기 위해 대기"

1) uWSGI --thunder-lock 커널 레벨로 부하를 균등 분산. 초기 latency 2배 개선. 하지만 25% CPU 이상 트래픽 스파이크에서 socket lockup이 예측 불가하게 발생 → 요청 거절.

2) uWSGI 인스턴스 10개 + NGINX NGINX에 per-socket concurrency limit / dead socket avoidance 같은 기능이 없어 실패.

[HAProxy frontend (queue)]
        ↓
[Gunicorn-1 (worker=1)]
[Gunicorn-2 (worker=1)]
...
[Gunicorn-144 (worker=1)]

Gunicorn 인스턴스 144개, 각각 워커 1개
HAProxy가 144개 백엔드로 로드밸런싱
핵심 4가지:
1. 144개 백엔드에 균등 분산
2. per-backend concurrency = 1 (소켓당 동시 요청 1개)
3. HAProxy 프론트엔드에서 중앙 큐잉
4. 소켓/앱서버별 모니터링 가능
supervisord로 Gunicorn 인스턴스들 관리

	Before	After
CPU 활용 한계	30-35%	80%
Latency	baseline	2x 개선