상태는 Running, 그런데 데이터는 없다
평범한 토요일 오전, 갑자기 옆 팀 스노우 플레이크 담당자 분이 연락을 받게 됩니다."어제자 새벽부터 스노우 플레이크에 저번 주 추가한 북미 쪽 데이터가 들어오지 않아요"지난주 신규 서비스가 런칭되면서 평균 8만 명의 유저가 초당 약 3MB/s 수준의 데이터를 쏟아내고 있었고, 이와 관련된 모든 로그는 Kafka 클러스터로 유입되는 구조였습니다. 로그의 파이프라인은 MySQL 기반의 로그 DB에 적재된 후, Debezium CDC를 통해 Kafka로 전송되고, 이후 Snowflake로 전달되는 구조로 그리 어렵지 않은 구조의 파이프라인이였습니다.다시 문제로 돌아가 보면, 핵심은 결국 CDC 커넥터가 정상적으로 데이터를 가져오지 못했다는 점입니다. 토픽별 메시지 생산량을 확인해보니, 문제가 발생했던 새벽 ..
2025.05.25