# 데이터 중복 제거 도구
# 1. 소개
데이터 중복 제거 도구는 주로 TA 시스템에서 중복 이벤트 데이터를 중복 제거하는 데 사용되며, 시간 기간 및 이벤트 유형에 따라 이벤트 데이터를 중복 제거하는 것을 지원합니다.
중복 제거는 클러스터 컴퓨팅 자원을 소모하므로, 비정상적인 데이터에 대해서만 중복 제거를 수행하고, 빈번한 중복 제거는 피하는 것이 좋습니다. 이 도구는 신중하게 사용하십시오.
# 2. 사용 방법
데이터 중복 제거 도구는 프라이빗 서비스 유저만 사용할 수 있습니다. root
가 프라이빗 클러스터의 서버에 로그인하여 su - ta
를 실행합니다. 그런 다음 ta-tool dupevent_del
을 실행하여 데이터 중복 제거 도구 인터페이스에 들어갑니다.
# 2.1 처리할 항목의 appid 입력
프로젝트의 appid는 TA 백그라운드의 프로젝트 관리 페이지에서 조회할 수 있습니다.
# 2.2 프로젝트 이름 확인
입력한 후 중복 제거할 프로젝트의 이름이 표시됩니다. 'y'를 입력하여 확인하고, 'n'을 입력하여 작업을 취소합니다.
# 2.3 중복 제거할 이벤트 이름 입력
다음으로, 삭제할 이벤트의 이벤트 이름을 입력해야 합니다. 여기서 입력하는 이벤트 이름은 데이터 전송 시의 키 값이며, 표시 이름이 아닙니다. 이벤트 이름은 메타데이터 관리 페이지에서 조회할 수 있으며, 여러 이벤트를 중복 제거할 경우 ","로 구분하여 입력합니다. 입력 후 중복 제거할 이벤트 이름이 표시됩니다.
아무 문자도 입력하지 않고, Enter 키를 누르면 모든 이벤트 데이터가 중복 제거됩니다.
# 2.4 중복 제거 논리에서 무시할 열 이름 입력
다음으로, 중복 제거 논리에서 무시할 열 이름을 입력해야 합니다. TA에서 정의한 필드는 기본적으로 중복 판단 논리에 참여하지 않습니다. 예를 들어, "#server_time" 및 "#kafka_offset" 필드는 중복 판단 논리에 참여하지 않습니다. 무시할 경우 여러 필드는 ","로 구분합니다. 입력 후 무시할 필드 이름이 표시됩니다.
# 2.5 이벤트 데이터 중복 제거를 위한 시간 범위 입력
다음으로, 데이터를 중복 제거할 시간 기간을 입력해야 합니다. 선택 가능한 시간 단위는 "일"입니다. 날짜는 yyyy-MM-dd
형식으로 입력하십시오. 이 필드는 필수입니다.
# 2.6 최종 확인
마지막으로, 데이터 중복 제거 전에, 중복 제거할 항목의 이름, 중복 제거할 이벤트의 이름, 중복 제거할 시간 기간을 포함한 최종 확인을 합니다. 'y'를 입력하여 데이터 중복 제거를 시작합니다. 오류가 있는 경우, 'n'을 입력하여 도구를 종료하고 다시 입력할 수 있습니다.
# 2.7 실행 과정 완료
확인이 완료되면 데이터 중복 제거가 시작되며, 중복 제거 과정의 스크린샷이 아래 그림에 표시됩니다:
# 3. 주의사항
- 데이터 중복 제거 도구를 사용하기 전에 데이터 중복의 원인을 확인하여 중복 데이터가 동시에 입력되는 것을 방지하고, 중복 제거 효과를 보장할 수 있도록 하십시오.
- 중복 제거는 클러스터 컴퓨팅 자원을 소모하므로, 빈번한 사용은 권장되지 않습니다.
- 아래 스크린샷과 같은 상황이 발생하면 클러스터가 데이터를 병합 중인 것이며, 자동 실행을 기다릴 수 있습니다. 오랜 시간 동안 멈춰 있을 경우, 운영 관리(O&M) 담당자에게 연락하여 문제를 해결하십시오.