티스토리 뷰

전직장에서 외부 서비스를 위해 IDC 운영 관리를 약 7년 정도 해본 경험이 있다.

서비스를 운영하다보면 IDC라고 말하는 데이터센터에서 작업을 해야할 일이 종종 있다. 대표적인 일인 서버 증설이나 IDC 이전, 서버 점검, 서비스 이전 등등 종류도 많은 일들을 경험할 기회가 많다.

이런 작업은 포털서비스의 경우는 더욱 자주 있는 일이다. 서버의 정기점검 및 증설은 서비스 자체의 안정적인 운영을 위해 필수적이며, 한시라도 이런 기회를 놓치면 큰 낭패를 보는 경우가 있기에 피할 수 없는 서비스 운영의 한 과정이다.

서비스 중이라면 사전 공지가 제일 우선이다. 서비스의 중단은 고객에게 알려야하는 중요한 사안이므로 미리 일찍 알리고 자주 알려주는 일이 무엇보다 중요하다. 메일로 통보를 하거나 웹서비스의 경우 웹 페이지를 통해 공지를 한다.

보통 IDC작업의 경우 사용자의 접속율이 가장 낮은 시간대에 진행하게 되며 일반적으로 자정(12시)에 시작하는 경우가 많다. 그리고 다음날 아침이 되기전 까지인 6시 이전에 끝내는 경우가 대부분이다.

6시간 정도의 작업 시간을 요하는 경우는 중대한 작업일 경우가 많다. 서비스를 하는 IDC의 물리적인 이동인 경우는 짐을 싸서 새로운 IDC에 짐을 푸는 과정까지 포함하면 6시간 이상이 걸리는 경우도 있기 때문에 12시간 정도 걸리는 경우도 발생한다. 물론 요즘은 미리 완충기간을 두어 조금씩 서버 이전을 하는 경우도 많다. 즉 하루가 아닌 며칠을 나누어 이전을 하는 경우가 더 일반적이다.

IDC 작업을 하면 가장 긴장을 하는 사람은 역시 서버 관리자이다. 작업을 하기 전에 미리 준비를 하고 신규 장비 도입의 경우 미리 테스트를 하고 서비스 일부를 싣는 등 여러가지 작업을 미리해야 하고 당일 작업을 진행하는 당사자로서 막중한 임무를 도맡아야 한다.

실제 작업이 시작되면 미리 짜놓은 작업 시나리오대로 움직이기 시작한다. 이때는 서버관리자만 작업하는 것이 아니라, 회사에서 작업을 도와줄 동료, 해당 IDC 담당자, 솔루션을 사용하는 경우 솔루션 회사 지원 담당 엔지니어, 서버 엔지니어, DB 엔지니어 등 여러명의 인원이 일사불란한 작업이 이루어져야만 업무를 무사하게 마칠 수 있다.

작업은 여러 경우가 있다. 단순 하드웨어 교체나 증설의 경우는 쉬운 경우이고, 서비스 중인 서버의 교체나 서비스 프로그램의 업그레이드, DB 작업 등은 중요하고 어려운 작업인 경우가 많다. 특히나 서비스 중인 IDC의 변경이나 동일한 IDC라 하더라도 층을 옮기거나 위치를 옮기는 경우는 큰 작업이다.

서버라는 것은 장기간 전원을 내리지 않으면 특히 주의해야 한다. 전원이 꺼지지 않은 상태가 오래된 서버들은 전원을 내리는 일은 매우 위험하다. 특히 하드디스크들은 전원이 들어오면 스핀들 모터가 멈추지 않고 돌고 있기에 전원을 내리면 포인터가 평소와는 다른 위치인 파킹 지역으로 움직이기 때문에 다시 전원을 켤 경우 원래의 자리로 돌아가는 상태에서 에러가 잘 난다. 그 외에도 많은 이유로 인하여 오랫동안 서버전원을 내리지 않은 서버를 다시 작동시킬 때는 긴장해야 한다. 그래서 정기적으로 서버를 점검하기 위해서라도 전원은 정기적으로 내리고 점검해줄 필요가 있다.

배선작업과 서버 배치 작업 등의 작업을 하노라면, 에러가 나는 케이블을 찾는 문제와 IP 설정 작업 등 많은 문제에 봉착하게 된다. 서버가 정상 작동하면 이번에는 서비스 애플리케이션을 올리는 작업을 해야 하는데, 이때 애플리케이션이 안올라 가거나 DB가 연동이 안되는 경우가 발생하기도 한다. 이때 외부에서 작업 지원을 나온 협력사 엔지니어의 도움을 받는다.

작업에 열중하다 보면 원래 약속된 시간을 넘기기 일수다. 몇번씩 해보는 작업이지만 늘 시간에 쫓기는건 똑같다. 원래 시나리오대로 되는 경우는 거의 없다. 꼭 중간에 몇번의 착오가 발생한다. 할애된 시간은 지나가고 서비스 운영팀에서의 독촉과 회사로 고객들의 항의 전화가 오기 시작하면 더더욱 조급해 진다. 특히 서비스가 본격 시작되는 아침시간이 되기 전엔 빨리 작업을 마치고 서비스를 정상화 시켜야 한다.

이런 저런 어려운 작업을 마치고 서비스가 정상화되는 모습을 보노라면 이미 건물밖 도로에는 출근차량들이 꽉 메우고 있다. 이때 아침식사를 제공하는 식당으로 이동해서 아침식사를 한다. 밤사이 있었던 긴장과 두려움을 떨치는 순간이다. 긴장도 풀리고 눈도 풀리고 잠이 오는 시간이다. 식사를 끝내고나서 남은 부품과 장비를 차량에 싣고 회사로 돌아간다. 그리고 서비스 정상화를 다시 한번 확인하고 몇시간 대기 시간을 가진다. 서비스는 몇시간이 지나봐야 정상화가 확인된다. 반나절 정도 운영에서 문제가 없으면 정상화로 인정이되므로 점심을 먹고서야 비로소 퇴근이다.

대략 이런 과정을 거친다. 물론 더 많은 다양한 사태가 벌어지는 것이 데이터 센터 작업이다. 언제 제대로 시간을 내서 데이터 센터 작업에 대한 포스팅을 해야겠다.

데이터 센터 작업은 일반인들은 잘 모르는 어려운 작업이다. 본전 못 뽑는 일이 데이터 센터 작업이다. 성공하면 정상적인 서비스이고, 만일 조금이라도 실패하면 서비스 사업 자체에 큰 영향을 미치는 작업이다. 지금 이시간에도 우리에게 서비스를 제공하기 위해서 밤과 낮을 바꾸어 작업을 하는 분들이 있을 것이다. 서비스 개편은 보통 중요한 일자를 기준으로 하는 경우가 많아서 연초나 연말, 계절이 바뀌는 시기나 휴가철 등 일반인들이 휴가나 휴식을 취하는 시기가 적기이다.

작은 일이지만 오늘 회사의 통신실 작업이 있는 날이다. 원래 예정된 시간보다 늦게 시작해서 아직까지 마무리 되지 않았다는 이야기를 전해 들었다. 데이터 센터의 작업에 비교하기는 좀 그렇지만 그 긴장감과 노력은 비슷하다고 볼 수 있다.

이런 작업을 위해 노력하는 사람이 있기에 아무런 불편없이 새로운 서비스를 맛 볼 수 있는 것이다.

이 분야의 모든 분들에게 행운의 여신이 항상 따르길 바란다.

Thank You!


마이크로소프트 Hero 블로그
반응형
댓글