SRE란?

SRE란?

SRE(Site Reliability Engineering, 사이트 신뢰성 엔지니어링)은 IT 운영에 대한 소프트웨어 엔지니어링 접근 방식이다. SRE은 소프트웨어를 툴로 활용하여 시스템을 관리하고, 문제를 해결하고, 운영 태스크를 자동화한다.

SRE는 확장 가능하고 신뢰성이 높은 소프트웨어 시스템을 생성할 때 유용한 방법이다. 코드를 통해 대규모로 시스템을 관리할 수 있으므로 수천 대에서 수십만 대에 이르는 머신을 관리하는 시스템 관리자에게 더 큰 확장성지속가능성을 제공한다.

Google 엔지니어링 팀의 Gen Treynor Sloss가 창안한 개념이다.

SRE를 사용함으로써 있는 장점

새 기능을 적시에 출시하고, 사용자가 이 기능을 안정적으로 사용하도록 할 수 있다.

SRE 엔지니어의 역할

부가적인 운영 경험이 있는 소프트웨어 개발자, 소프트웨어 개발 기술을 갖춘 시스템 관리자 또는 IT 운영자와 같은 경력이 요구되는 독특한 역할이다.

SRE팀은 코드의 배포, 설정, 모니터링 방식뿐만 아니라 프로덕션 환경에서 서비스 가용성, 대기 시간, 변경 관리, 비상 대응 및 용량 관리를 담당한다.

새로 출시할 기능과, 서비스 수준 계약(SLA)를 사용하여 서비스 수준 지표(SLI) 및 서비스 수준 목표(SLO)를 통해 시스템의 신뢰성 요구 사항을 정의해야 할 시점을 결정할 수 있다.

SRE에서는 100% 신뢰성을 기대하지 않으며 장애에 대비해 계획을 마련한다.

DevOps와 차이점

DevOps는 신속한 고품질 서비스 제공을 통해 비즈니스 가치와 대응력을 향상시키기 위한 기업 문화, 자동화, 플랫폼 설계에 대한 접근 방식이다.

SRE는 DevOps의 구현으로 간주될 수 있다.

SRE DevOps
주요 관심 확장성, 운영 지표, 자동화 개발 배포 과정 통합
담당자 운영에 관심있는 개발팀 개발에 관심있는 운영팀
측정 지표 서비스 수준 목표(SLO)의 최대/최소치 주로 시스템 Telemetry
적용 기업 클라우드-네이티브 환경에서 IT 서비스 기업 온-프레미스에서 클라우드로 전향하는 기업
최종 수정 : 2025-08-24