우아한기술블로그(https://techblog.woowahan.com/17911/)에 동일하게 작성된 글입니다.
안녕하세요 오랜만에 인프라 네트워크와 관련된 경험을 공유하고자 글을 쓰게 되었습니다.
우아한형제들은 퀵커머스 사업에 집중하면서 배민비마트 서비스는 비약적으로 사업 규모가 커졌습니다. 이는 곧 네트워크 가용성이 비즈니스 성과에 직접적으로 영향을 미칠 수 있다고 볼 수 있습니다. 이 글은 비마트 비즈니스 연속성을 높이기 위해 네트워크 인프라에 어떤 노력을 기울였고, 최근 1년의 운영 성과는 어땠는지 공유드리려 합니다.
글 순서는 서비스 특징/분석, 운영 인프라 분석, 설계, 테스트, 배포, 성과 순서로 설명하겠습니다.
서비스 특징
먼저 비마트 서비스 특징에 대해 말씀드리겠습니다.
비마트는 퀵커머스 사업의 일종으로 주문 후 1시간 내에 구매한 물품이 고객에게 전달되어야 한다는 서비스 미션을 갖고 있습니다.
빠른 배달을 위해 거점 센터로 불리는 PPC [1] Picking and Packing Center가 서울 또는 대도시의 행정구/자치구마다 1-3개씩 나누어 있습니다. 이는 인프라 관리자 입장에서는 운영하기 좋은 환경이 아닌데요. 일반적으로 큰 규모(0,000평 이상)의 거점 센터가 있는 경우에는 인프라 설비(비용)를 많이 투자해 안정적인 네트워크 서비스를 운영할 수 있습니다. 하지만 여러 개의 형태로 센터가 분산되어 작게 운영되는 경우는 분산 투자를 해야 합니다. 그렇다고 각 센터의 중요도가 떨어진다 볼 수도 없습니다.
정리해 보면 비마트 인프라는 한정된 자원(비용)에서 센터의 인프라 가용성은 높게 유지해야 하는 미션이 있습니다.
네트워크 가용성을 높게 유지하는 것은 모든 인프라 관리자에게 필수 목표지만, 왜 비마트에서 특히 더 강조되는지 궁금하실 수 있을 것 같습니다. 비마트는 고객 앞까지 물품이 배달되기 위해 주문을 포함해 위와 같이 총 7단계의 과정을 거치고 있습니다. 접수부터 배달 완료까지 60분 안에 처리되어야 하며, 이 중 센터 처리단계(접수부터 픽업 대기까지)에서는 10분 이상의 네트워크 단절이라도 발생한다면 서비스 목표(60분 이내 배달 완료)를 달성하지 못할 수도 있습니다.
운영 인프라 분석
서비스 특징과 분석에 대해 확인해 보았으니 다음으로 네트워크 고가용성을 유지하기 위해서는 어떤 부분을 개선하면 좋을지 보겠습니다.
비마트 PPC의 네트워크 인프라는 크게 네트워크 장비와 통신 사업자 회선으로 나눌 수 있습니다. 모두 이중화되어 있지는 않아 제일 쉽게 가용성을 높이는 방법은 장비, 회선을 이중화하는 것입니다. 다만 한정된 자원(비용) 안에서 둘 다 투자할 수는 없었습니다. 그래서 회선, 장비 두 가지 중 연중 장애 빈도와 파급력을 확인하고 무엇에 좀 더 집중해야 할지 우선순위를 매겨보기로 했습니다.
위 자료와 같이 연중 장애 발생 빈도가 높고, 파급력이 큰 것은 통신 사업자 회선이었습니다.
그 이유를 살펴보자면 제한된 자원(비용) 안에서 인터넷 회선에 투자가 어려웠습니다. 또한 회선 비용에 따라 SLA(Service-Level Agreement, 서비스 수준 계약)도 비례하다 보니 서비스 품질과 유지 보수(장애 신고) 대응 또한 좋지 않았습니다. 드물게 발생하는 지역/전국 단위의 회선 사업자 장애도 매우 큰 위험 요소였습니다. 따라서 우리는 동일 회선 사업자로 이중화하지 않고, 다른 회선 사업자를 추가해 이원화하는 방안이 필요했습니다.
이원화 사례로 2021년 KT아현지사 화재 사건을 떠 올릴 수 있었는데요. 이 문제로 며칠 동안 서울 서부지역의 인터넷 장애가 발생했지만 LTE 라우터를 사용한 스타벅스는 정상 영업을 할 수 있었습니다. 또한 입주 건물마다 특정 통신 사업자에 종속되어 다른 통신사는 사용하지 못하는 경우도 있기에 LTE 라우터가 비마트 환경에 적합하다고 판단하였습니다.
‘LTE 라우터’는 일반적으로 개인이 사용하는 ‘에그(와이파이 도시락과 같은 서비스)’와는 다른 법인사업자 제공 상품인데요. 에그 서비스가 LTE라우터 서비스보다 사용이 쉽고 이용요금이 저렴해, 다음과 같은 궁금증이 생길 수도 있을 것 같습니다. “에그가 LTE 라우터보다 비용이나 사용자경험상 더 유리한데 그냥 에그를 사용하면 안 되나?”
여기서 겉으로는 잘 보이지 않는 숨은 비용을 생각해 보아야 합니다. 바로 운영 비용입니다. 첫 번째가 사용자 교육 비용으로 만약 에그를 백업으로 사용한다면 내부망 연결과정부터 배터리 충전까지 모든 행동조치 요령을 운영자(사용자)들이 숙지할 수 있도록 도와주어야 합니다. 일관되게 학습되지 않았다면 최종적으로 그 피해는 서비스 미션을 달성하지 못하는 문제로 돌아올 것입니다. 두 번째는 네트워크 관리 비용입니다. 추가되는 통신회선만큼 관리자 운영비용(시간)도 증가하게 됩니다.
그럼 지금까지 도출된 요구사항을 나열해 보겠습니다.
- 백업 회선 운영비용(금액)이 메인 회선에 비해 적어야 합니다.
- 메인 회선 장애 시에는 자동으로 절체되어 장애시간을 줄여야 합니다.
- 센터 회선은 서로 다른 사업자로 이원화해야 합니다.
- 회선 문제가 생겨도 사용자는 체감하지 못하도록 네트워크 환경을 제공해 주어야 합니다.
- 백업 회선 운영 리소스를 최소화해야 합니다.
LTE 라우터 상품 중에 어떤 요금제가 좋은 지도 고민이 필요한 영역입니다. 먼저 센터에서 필수로 필요한 업무가 무엇인지 파악해야 합니다. 무선 라우터는 유선 인터넷에 비해 빠를 수 없습니다. B사에서는 5G 상품도 있었으나 유선 인터넷의 품질, 속도 및 안정성 면에서 무선 라우터 서비스는 아직 비교할 수 없는 수준이라고 생각합니다.
다행히 비마트 백업망(LTE라우터)에서는 주문 처리만 잘 되면 되므로, 많은 트래픽과 대역폭이 요구되지 않았습니다. 다만 LTE 라우터에서는 일반적으로 핸드폰과 같이 트래픽 사용량에 따른 과금체계이다 보니, 백업 회선에서 발생하는 모니터링 트래픽이 문제였습니다. ICMP(Ping 체크)와 같은 모니터링 트래픽은 유선 인터넷 환경에서는 확인이 필요 없는 수준이지만, LTE 라우터에서는 굉장히 많은 양의 트래픽으로 집계되는 것을 알 수 있었습니다. 이 문제는 통신 사업자의 위탁서비스 사용 시 자체 모니터링이 필요하지 않아 해결할 수 있었습니다.
최종적으로 A사가 우리에게 적합하다 판단했고, 요금 또한 결합요금제를 제공하여 유선 회선 비용 대비 8% 추가 비용만으로 백업 회선을 구축할 수 있었습니다.
인프라 설계
이제 모든 사전조사는 마쳤습니다. 간략한 네트워크 구성을 보며 설계안에 대해 말씀드리겠습니다.
IDC와 연결된 IPSEC 터널 4개는 Routing AD(Administrative Distance) 설정으로 신속한 라우팅 전환과 더불어 평상시 WAN2에 발생하는 트래픽을 최소화하도록 설계하였습니다. WAN1에는 Link-monitor(대기 시간, 지터 및 패킷 손실 기반 링크 품질 측정 모니터링 방법)를 설정하여 특정 목적지에 몇 차례 도달하지 못하는 경우 라우팅이 비활성화 되어 차순위(2번째 IPSEC 터널) 경로가 활성화되도록 설계하였습니다. 이 설계 과정에서 IPSEC DPD(Dead Peer Detection) 값과 Link-monitor Fail-back 기준에 대해 많은 논의와 테스트를 관계 부서와 하였고 우리 환경에서 수용 가능한 범위의 최적 값을 찾아 적용할 수 있었습니다.
테스트 및 배포
테스트는 크게 2단계로 나누어 진행하였습니다.
첫 번째로 제일 주문이 많은 센터를 선정했고, 주문 처리 트래픽을 LTE 라우터로 분기 처리하여 며칠 동안 특이사항이 없는지 확인하였습니다. 생각지 못한 보조서비스(DNS, DHCP, NTP, RADIUS, 외부참조 소스 등)들이 발견되었고 이를 조치하는 좋은 기회가 되었습니다. 두 번째 테스트는 실제처럼 유선 인터넷을 완전히 분리하여 운영해 보았습니다. 다행히 큰 특이사항 없이 마무리되었습니다.
배포는 사업자 위탁서비스로 보다 편리하게 진행되었습니다. 위탁 업체에서 전국 곳곳에 있는 센터에 직접 방문하여 LTE 신호 세기 확인과 장비 설치까지 진행해, 관리자는 일정과 개통 확인 정도의 업무만 진행하였습니다. 이렇게 모든 비마트에 백업망 구축이 완료되었습니다.
성과 공유
마지막 결론입니다.
LTE 라우터를 이용해 비마트 서비스를 운영한지 만 1년이 되었습니다. 네트워크 회선 문제로 인한 주문 유실은 지금까지 없었으며 다음과 같은 장애 극복 사례도 있었습니다.
- 2023년 12월 29일 금요일 15시 지방의 한 비마트 센터에서 메인 회선 장애 발생
- 당일 장애 처리가 되지 못함
- 다음 해인 2024년 1월 2일 장애 처리 완료
- 3일 연휴 기간 동안 접수된 모든 주문은 1건의 유실도 없이 정상 처리
여기까지 우아한형제들에서 최소의 비용으로 최대의 운영 가용성을 확보한 경험에 대해 공유해 보았습니다.
비슷한 사례로 고민하시는 분들께 도움이 되는 사례가 되었으면 좋겠습니다. 감사합니다.
[1] PPC(Picking&Packing Center): 도심 곳곳에 위치하고 있는 PPC(피패킹센터)에서는 물류기지에서 상품을 입고 받아 보관하다가 주문이 들어오면 즉시 정확하게 피킹 및 패킹(포장)하여 라이더가 배달을 할 수 있도록 준비합니다.
'프로젝트' 카테고리의 다른 글
우아한형제들 네트워크 인증시스템 교체기 (0) | 2024.10.15 |
---|