Multi-Cluster Internal Developer Platform

여러 클러스터를
한 화면에서 운영합니다.

Fairbanks 는 빌드·배포·다크 론칭·관리형 DB·관측성·거버넌스·AI 결합까지 IDP(사내 개발자 플랫폼)에 필요한 모든 흐름을 하나의 콘솔로 묶은 멀티 클러스터 운영 도구입니다.

Fairbanks 표지 — 멀티 클러스터 IDP
8
시스템 컴포넌트
18
매트릭스 뷰
19
MCP 도구 카테고리
N
멀티 클러스터 동시 운영
Overview

여러 K8s 클러스터를, 마치 한 클러스터처럼.

각 클러스터에는 가벼운 Fairbanks Operator 가 들어가고, 콘솔은 Action 큐 한 곳으로 모든 변경을 흘려보냅니다. Backend 가 원격 K8s 를 직접 두드리지 않는 Pull 모델이라, 네트워크가 끊겨도 일시 중단으로 안전하게 회복합니다.

Action Queue · Pull 모델

Backend 는 의도를 Action 으로 적재, Operator 가 클러스터 안에서 가져가 실행합니다. 재실행해도 안전한 멱등 적용.

연결성 티어

5초 heartbeat 로 fresh / stale (10초) / disconnected (60초) 3단 상태. 끊겨도 마지막 캐시는 즉시 조회 가능.

역할 분리 4페르소나

운영자·개발자·플랫폼 엔지니어·감사자. 권한 매트릭스로 어떤 페르소나가 어디까지 볼지 명확하게.

Architecture

8개 컴포넌트, 3가지 설계 원칙

Backend · State Collector · Metric Collector · Frontend · Operator · Node Agent · MCP Server · CLI. 각 컴포넌트는 단일 책임을 갖고, 큐와 캐시를 통해 느슨하게 결합됩니다.

  • 모든 변경은 Action 큐 단일 경로 — 감사·복구가 한 곳에서.
  • K8s 상태는 주기 수집 + DB 캐시 — 끊겨도 마지막 화면이 살아 있음.
  • 장기 작업은 Operator 가 직접 책임 — Backend 는 큐만, 빌드 40분도 안전.
시스템 컴포넌트 8개
시스템 컴포넌트 — Backend·Collector·Operator·MCP·CLI
Build & Deploy

Git · Kaniko · Zot · Deploy — 한 화면, 한 흐름.

저장소·브랜치·이미지 이름만 등록하면 빌드부터 멀티 클러스터 배포까지 단계 입력만으로 끝납니다. 각 빌드의 CPU·메모리 그래프와 커밋 이력이 자동으로 누적됩니다.

빌드 한 번이면 끝

저장소·브랜치·Containerfile 만 등록하고 "빌드 실행". Kaniko Job 이 컨테이너 안에서 안전하게 이미지를 만들고 Zot 으로 push 합니다.

  • 최대 30분 타임아웃, cancel-watcher 사이드카 로 Pod 보존하며 우아하게 종료
  • 빌드 Job 3일 보존 — 실패해도 로그·Pod 그대로 디버깅
  • 빌드별 자원 메트릭·커밋 이력 자동 누적
빌드 구성 목록
실제 화면 빌드 구성 목록
빌드 로그 (Kaniko Job)
실제 화면 빌드 로그 (Kaniko Job)
빌드 이력 · 자원 메트릭
실제 화면 빌드 이력 · 자원 메트릭

같은 앱을 여러 클러스터에 동시에

이미지 하나, 여러 클러스터. applyResource (POST→409→PATCH) 패턴으로 재실행해도 같은 결과. K8s에서 누가 직접 지워도 다음 배포 시 자동 복구됩니다.

  • 클러스터별 replica·상태·배포 시각 한 화면에서
  • 무중단 25% surge 롤링 업데이트 (maxUnavailable 0)
  • 이전 이미지로 원클릭 롤백
클러스터별 배포 현황
실제 화면 클러스터별 배포 현황
Dark Launching

나만 새 버전을 본다 — 쿠키 한 줄로.

운영자에게는 새 버전, 사용자에게는 기존 버전. 한 클러스터에서 충분히 검증한 뒤 승인 한 번이면 모든 클러스터가 무중단으로 새 버전으로 넘어갑니다.

쿠키 라우팅 + live/dark 한 쌍

최초 배포 시점부터 {app} / {app}-dark Deployment 한 쌍이 함께 만들어집니다. dark 는 평소 replicas=0, 다크 론칭 시작 시에만 깨어납니다.

  • HTTPRoute 에 두 규칙 상시 보유 — 쿠키 매칭 → dark Service
  • 승인 시 모든 live 클러스터가 같은 이미지로 롤링 업데이트
  • 취소도 한 번 — dark scale 0 으로 즉시 정리
다크 론칭 실제 동작
실제 화면 다크 론칭 — 쿠키로 분기
Managed PostgreSQL

운영 DB, 클릭 몇 번.

CloudNativePG 기반 관리형 PostgreSQL. 리소스 프리셋·스토리지·익스텐션을 화면에서 고르면 클러스터 안에 고가용 인스턴스가 만들어지고, 비밀번호는 K8s Secret 으로만 흐릅니다.

DB 생성 ① 리소스·스토리지
실제 화면 DB 생성 — 리소스 / 스토리지
DB 생성 ② DB·익스텐션
실제 화면 DB 생성 — DB / 익스텐션

앱 ↔ DB 자동 연동

앱 환경변수에서 DB 를 고르면 CNPG Secret 이 cross-namespace 로 안전하게 흐릅니다. 평문 저장 없음.

라이브 Pod 메트릭

Node Agent 가 1초 간격으로 kubelet 을 긁어 Pod 의 CPU·메모리 시계열을 5분 윈도우로 그려 줍니다.

비밀번호 단방향 reconcile

Secret 만 바꾸면 CNPG 가 DB 사용자 비밀번호를 갱신. UI 한 번이면 강한 랜덤으로 안전 변경.

Observability

돌고 있는 Pod 가 어디서 왔는지, 거꾸로 따라갑니다.

파드 → 배포 → 릴리즈 → 빌드 → 커밋. Fairbanks 의 리소스 계보는 K8s 안에서 발견된 Pod 에서 시작해 Git 커밋까지 한 그래프로 거슬러 올라갑니다.

리소스 계보 (Resource Lineage)

Pod template 어노테이션으로 AppDeployment 와 연결됩니다. 어떤 커밋이 지금 트래픽을 받고 있는지가 한눈에.

  • application · batch · deployment · managed-postgres 4 가지 시작점
  • 배치 Job 도 시간순 3슬롯으로 묶어 표시
  • 매트릭스 펼침 / Lineage 다이얼로그 둘 다 지원
리소스 계보 그래프
실제 화면 리소스 계보 — Pod → Git 역추적

매트릭스 18뷰

Deployment·StatefulSet·DaemonSet·Service·Pod·PVC·ConfigMap·Secret·Job·CronJob·HPA·RBAC·Ingress·Route·NetworkPolicy·CRD·Node·Events.

  • 모든 행은 펼침 — 컨테이너·볼륨·매칭 Service / Pod 한 화면에
  • 점3개 메뉴에서 YAML 보기·편집·삭제·재시작
  • Pod 로그·이벤트는 on-demand Action 으로 즉시 조회
파드 목록 (실시간 메트릭)
실제 화면 파드 목록 — CPU·메모리·재시작
Governance

모든 변경은 HMAC 체인 감사 로그로.

클러스터 등록·앱 배포·DB 생성·삭제 등 모든 변경 Action 은 위·변조 방지 HMAC 체인에 기록됩니다. 컴플라이언스 대응이 기본 내장입니다.

요청 → 완료/실패까지 한 흐름

Action 시작 시 xxx.created, 완료/실패 시 .completed / .failed 가 자동 기록됩니다.

  • HMAC 체인 — 한 줄만 손대도 전체 검증 실패
  • org-scoped + project-scoped 동시 — 보안 / 권한팀 운영 분리
  • 역할 4단계: org-viewer / org-member / org-manager / org-owner
감사 로그
실제 화면 감사 로그 — HMAC 체인

애드온 — 카탈로그에서 클릭 설치

cert-manager · CNPG · Gateway 제공자 등 인프라 구성 요소를 카탈로그에서 골라 설치. helm / manifest / remote-manifest 3 방식 모두 지원.

  • helm 은 Operator 네임스페이스에서 K8s Job 으로 안전하게 렌더
  • 이미 깔린 애드온도 자동 감지해 카탈로그에 편입
  • values 는 Secret 으로만 흐름 — 평문 노출 없음
애드온 카탈로그
실제 화면 애드온 카탈로그
AI Integration

자연어로 묻고, AI 가 직접 조회·정리합니다.

Fairbanks MCP 서버가 19개 카테고리·수십 개 도구를 LLM 에게 노출합니다. "DEFAULT 프로젝트 빌드 목록 보여줘"·"Pod X 의 최근 로그" 처럼 자연어로 묻고 AI 가 실제 API 를 호출해 답을 만들어 줍니다.

MCP 서버 — AI · IDP 결합점

현재 on-demand 진단(로그·YAML·메트릭·액션로그 조회)은 즉시 사용 가능. 이벤트 자동 푸시형 AIOps 는 로드맵입니다.

  • 19 개 카테고리 — 빌드·배포·DB·네트워킹·감사·매트릭스
  • 모든 호출은 같은 감사 로그·권한 체계 통과
  • 운영자 권한 그대로 AI 가 위임 실행
AI 어시스턴트 실제 대화
실제 화면 AI 어시스턴트 — 자연어로 조회·정리
Roadmap

Solum — 베어메탈에서 K8s 까지.

로드맵 Fairbanks 가 클러스터 위에서의 운영을 책임진다면, Solum 은 그 아래 베어메탈 노드 발견·부트스트랩·Talos OS 와 K8s 무중단 롤링 업그레이드 까지 책임집니다.

Solum 노드 인벤토리
로드맵 노드 인벤토리
Solum 클러스터 생성/편입
로드맵 클러스터 생성 / 편입
Solum Talos OS 업그레이드
로드맵 Talos OS 업그레이드