카카오, 판교 IDC 화재로 인한 서비스 장애, 이해를 위한 관련 용어 정리

이번에 SK C&C 의 판교 IDC 센터 화재로 인해서, 카카오 관련 서비스들이 다 멈춰버렸다.. (관련뉴스)

우리나라는 카카오 공화국이라고 해도 과언이 아닌데.. 카카오톡, 카카오페이, 카카오T, 업비트 등등 카카오 서비스 뿐만아니라 인증 서비스를 쓰는 곳 까지 그야말로 멈춰 버렸다.

서버에 대한 기초지식만 갖고 있는 입장이지만… 카카오 같이 거대 회사가 그리고 수많은 연계 서비스를 운영하는 회사가 idc 한곳이 불타서 모든 서비스가 멈추고, 복구 플랜이 공지가 안나오고 있는게 이해가 안되서, 관련 기술이나 경험이 많은 분들이 있는 클리앙 (https://www.clien.net/) 에 질문도 올려보고, 다른분들이 하는 이야기를 보고 있는데..

무슨말인지 하나도 모를 용어들이 난무한다.

그래서 사태를 이해할겸 많이 나오는 영어들중에서 눈여겨볼 만한 용어들을 좀 정리해보려 한다.
출처는 위키피디아 이다.

고가용성 : (High Availability, HA) (출처)

  • 서버와 네트워크, 프로그램 등의 정보 시스템이 상당히 오랜 기간 동안 지속적으로 정상 운영이 가능한 성질을 말한다. 고(高)가용성이란 “가용성이 높다” 는 뜻으로서, “절대 고장 나지 않음” 을 의미한다.

SPOF : 단일 장애점 ( single point of failure ) (출처)

  • 시스템 구성 요소 중에서, 동작하지 않으면 전체 시스템이 중단되는 요소를 말한다.
    예를 들어 이더넷 케이블과 전원, 이더넷 허브(HUB), 접속 단말들의 NIC(Network Interface Card) 등으로 이루어진 간단한 이더넷(Ethernet) 네트워크 시스템에 있어서 네트워크 허브(HUB) 장치의 전원은 SPOF이다.

Failover : 장애 극복 기능 (출처)

  • 컴퓨터 서버, 시스템, 네트워크 등에서 이상이 생겼을 때 예비 시스템으로 자동전환되는 기능이다. 시스템 대체 작동또는 장애 조치 라고도 한다. 반면 사람이 수동으로 전환을 실시하는 것을 스위치 오버라고 한다.

DRP : 재난 복구 계획 ( disaster recovery plan ) (출처)

  • 자연재해나 인위적인 재해가 일어나면 특정 단체에 중요한 기술 인프라를 복구하거나 지속할 목적으로 준비하는 데 대한 과정, 정책, 절차를 가리킨다.
    시설의 하드웨어나 소프트웨어상의 재해나 재난 발생에 대비하여, 실제 상황이 발생했을 때 취해야 할 행동 계획을 미리 준비하는 것이다. 재해 복구는 업무 연속성 계획(BCP)의 하부 분야이기도 하다.

BCP : 업무 연속성 계획 ( business continuity planning ) (출처)

  • 기업이 재해로 타격을 입은 뒤 업무 운명을 어떻게 복구 재개하는지에 대한 계획을 말한다. 재해 복구(DR)를 포함하는 더 넓은 개념이다.
    기업의 핵심 비즈니스 프로세스를 식별하고 핵심 업무를 처리하기 위한 대응 행동계획을 결정한다.

즉, 확실한 건 아니지만, 위 용어들을 바탕으로 클리앙에서 오가는 이야기를 조합해보면..
( 여기서부터는 100% 팩트는 아니고 해당 커뮤니티에서 사람들이 한 이야기 + 내가 이해한 내용이니 참조만 하시길.. )

IDC 에 불이나고 이로 인해서 피해가 확산되는 것을 막기위해서 건물의 전원을 내린 시점에서 HA 와 SPOF 는 의미가 없어진다고 한다. ( HA, SPOF 는 이번 사건과는 별 상관이 없단다. )

그러면 그때부터는 BCP 를 기반으로 갖추어둔 DR 혹은 DRP 에 따라서, 페일오버가 진행이 되야하는데.. 이번 카카오 사태는 이 DR 이 제대로 가동이 되지 않은 것으로 보인다고 이해하고 있다. ( 확실한건 모름, 어렵게 생각하지말고 DR이 가동이 안된게 가장 크다고 함, 그리고 서버쪽은 전문적 영역이기때문에 BCP 와 관련있기보다는 전문성을 갖춘 DR 이 중요하다고 하는듯? )

재난 복구 플랜자체가 제대로 갖추어지지 않거나 혹은 기타 이유로 페일오버, 장애 극복 기능이 백업 플랜에 따라서 서비스들이 구동되지 않은듯??

요약하면 DR 조직이 일을 제대로 못했다고 보면 된다고 하는듯 ( 어떠한 이유든.. )

좀 전에 카카오 공지가 올라왔는데, 공지내용도 보면 얼추 위의 유추가 맞는듯.. 복구 플랜이 제대로 안되고 있는듯.. 그리고 대충 이해해도 누가봐도 소 잃고 외양간 고치는 글 같아서.. 쩝..

https://www.daum.net/notice

어쨌던간에.. 카카오는 이제 사실상 우리나라 거의 모든 서비스에 연계되어있는 반쯤은 국가적인 서비스가 되어있는 공생 관계의 서비스이니만큼, 이번 문제를 잘 해결하고 좀 제대로된 플랜 혹은 대책을 갖추었으면 한다.

물론, 이글 쓰고나서 계속 공부를 하다보니.. 이게 상당히 복잡하고 어려운 문제네.. 기술을 갖추고 있고 백업 플랜이 있어도, 그 백업 데이터랑 실제 데이터가 100% 무결성이 보장될수가 없을 정도로 이것저것 서비스들이 다 카카오로 연결 되어있어서.. 화재가 발생한 시점부터, 어떻게 대응을 해야할지 자체를.. 판단하기 너무 어려웠을꺼라고 하네..

공부하고 상황을 이해해보니.. 생각만해도 너무 어려운 문제로 보임..
나중에 결과 발표가 어떻게 나올려나..

Leave a Comment