본문 바로가기
정보처리기사 필기/데이터베이스 구축

3-5. 데이터 전환

by 훈꽁 2021. 8. 7.
2020 기출 ' ' 
2021 기출 ' ' 
수제비 데일리 ' ' 

데이터 전환 기술

(1) 초기 데이터 구축

초기 데이터 구축 전략

초기데이터 구축 / 데이터 복구 방안 마련 / DB 구출 지침 제시

 

초기 데이터 구축 절차

구축 전략수립 → 대상파악 → 범위 확정 → 고려사항 도출

 

(2) ETL(Extracion, Transformation, Loading)

 

  • ETL은 원천 시스템에서 데이터를 추출(Extraction)하여 변환(Transfor-mation) 작업을 거쳐 목적 시스템으로 적재(Load)하는 프로세스이다.
  • 조직 내/외부의 여러 소스들로부터 분석을 위한 저장소로 데이터를 이동시키는 일련의 프로세스이다.

 

ETL 프로세스

 

  • 때때로 시간 절약을 위한 3가지 ETL 단계를 동시에 수행한다.
  • 일반적으로 발생하는 데이터 변환에는 필터링, 정렬, 집계, 중복 제거, 유효성, 검증 등의 작업이 포함된다.
  • ETL의 변환 작업은 특수한 엔진에서 진행되며, 종종 변환 중인 데이터가 준비 테이블에서 임시로 보유되었다가 대상에 로드된다.

 

ETL 프로세스 추출 방법

JDBC 기술 이용 / ODBC 기술 이용 / Flat File 생성

 

(3) 파일 처리 기술

파일 처리 기술의 유형

순차 파일(Sequential File) / 색인 순차 파일(Index Sequential File) / 직접 파일(Direct File)

 

색인 순차 파일(Indexed Sequential File)

  • 레코드의 삽입, 삭제, 갱신이 모두 용이하다.
  • 순차처리와 랜덤처리가 모두 가능하다.
  • 레코드들을 키 값 순으로 정렬시켜 기록한다.

 


데이터 전환 수행

(1) 데이터 전환 수행 계획

  • 데이터 전환을 위한 상세 설계, 전환 및 검증 프로그램 개발과 통합 전환을 수행할 수 있도록 계획한다.
  • 전환 단계에서는 업무 간 병렬 처리, 전환 시나리오에 따른 일관적 통제 및 관리, 주기적으로 데이터 전환 테스트를 반복하는 등 통합된 체계적 접근이 필요하다.

 

데이터 전환 절차

 

  • 현행(AS-IS) 시스템에서 목표(TO-BE) 시스템으로 전환을 위한 단계를 구분한다.
  • 각 단계별 작업 내용과 사용되는 도구를 별도로 기록한다.
  • 원천 데이터베이스의 데이터는 백업하여 스테이징(Staging) 데이터베이스로 복구한 후 정비 및 변환 작업을 수행한다.
  • 데이터 전환이 완료된 후 검증 단계에서는 스테이징 데이터베이스가 아닌 원천 데이터베이스와 비교하여 데이터 오류를 확인해야 한다.

 

데이터 전환 수행 단계

  1. 요구사항 분석 단계(전환 계획 및 요건정의)
  2. 설계 단계(전환 단계)
  3. 구현 단계(전환 개발)
  4. 테스트 단계(전환 테스트 및 검증)
  5. 데이터 전환 단계

 

(2) 체크리스트(Checklist)

전환 프로그램의 에러, 시간제약, 비즈니스 로직 변경, 긴급 상황 및 위험요인 대응을 위한 측정 가능한 목록이다.

 

체크리스트 작성

  • 수행 작업의 상세항목
  • 작업내역
  • 예적 시작/종료 시작
  • 작업자

 

(3) 데이터 검증

시점 목적 방법
추출 검증 원천데이터 정합성 확인 전환대상 데이터(테이블 건수, 금액) 등에 대한 검증 보고서 작성
전송 검증 전송 데이터 유실 확인 원천(AS-IS) 검증 자료와 비교
전환 검증 Staging DB 구성 후 데이터 검증 원천 데이터 검증보고서와 Staging DB 간 항목별 검증
적재 검증 전환데이터 정합성 검증 목적(TO-BE) 데이터 검증 수행
통합 검증 매핑 정의서 오류 검증 오류 데이터 분석 통해 전환 규칙 오류를 수정 및 반영

 

 


데이터 정제

(1) 데이터 정제

데이터 정제 요청서 작성 항목

정제 아이디(ID) / 정제 제목 / 관련 테이블 / 예상 처리건수

 

데이터 정제 보고서 작성 원칙

정제 아이디(ID) / 정제 건수 / 전환 결과 / 미처리 사유 / 대응 방안

 

(2) 데이터 품질 분석

원천 데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있다.

 

원천 데이터 품질 분석

 

  • 필수 항목의 데이터가 모두 존재하는가?
  • 데이터의 유형이 정확하게 관리되고 있는가?
  • 날짜의 경우 날짜로서 유효한 형태를 가지고 있는가?
  • 금액의 경우 유효한 값의 범위인가?
  • 모든 일자의 시점이 업무 규칙에 위배되지 않고 정확하게 설정되어 있는가?
  • 업무 규칙에 위배되는 잘못된 정보가 존재하는가?
  • 잔액의 총합이 회계 정보와 동일한가?
  • 보고서 값과 실제 데이터 값이 일치하는가?

 

목적 데이터 품질 분석

  • 특정 기준으로 분류된 데이터가 일치하는가?
  • 보고서 항목 또는 통계 수치는 정확한가?
  • 샘플링 한 목적데이터의 대상 항목이 모두 일치하는가?
  • 특수한 관계가 있는 고객의 추출 데이터는 정확한가?

 

(3) 오류 데이터 측정

 

  • 데이터 품질 기준에 따라 정상 데이터와 오류 데이터를 분리한다.
  • 정량적 측정을 통해 나온 결과를 토대로 오류 관리 목록에 기재한다.

 

오류 원인 파악 / 정제 여부 결정

구분 지표 설명
심각도 상(High) 데이터 이행을 진행할 수 없게 만드는 오류
중(Middle) 데이터 이행 전반에 영향을 미치는 오류
하(Low) 데이터 이행의 영향을 미치지 않는 오류
상황에 맞지 않는 용도 및 배치 오류
상태 열린(Open) 오류가 보고되었지만 아직 분석되지 않은 상태
할당된(Assigned) 수정을 위해 오류를 개발자에게 할당한 상태
수정된(Fixed) 개발자가 오류를 수정한 상태
종료된(Closed) 재 테스트 시 오류가 발견되지 않은 상태
수정된 오류 미 충족 시 오류 상태 'Open' 변경
연기된(Deferred) 낮은 우선순위로 오류 수정을 연기한 상태
분류된(Classified) 프로젝트 내 오류가 아니라고 판단된 상태

 

 

 

'정보처리기사 필기 > 데이터베이스 구축' 카테고리의 다른 글

3-4. 물리 데이터베이스 설계  (0) 2021.08.06
3-3. 논리 데이터베이스 설계  (0) 2021.08.04
3-2. SQL 활용  (0) 2021.08.04
3-1. SQL 응용  (0) 2021.08.01

댓글