2020 기출 ' '
2021 기출 ' '
수제비 데일리 ' '
데이터 전환 기술
(1) 초기 데이터 구축
초기 데이터 구축 전략
초기데이터 구축 / 데이터 복구 방안 마련 / DB 구출 지침 제시
초기 데이터 구축 절차
구축 전략수립 → 대상파악 → 범위 확정 → 고려사항 도출
(2) ETL(Extracion, Transformation, Loading)
- ETL은 원천 시스템에서 데이터를 추출(Extraction)하여 변환(Transfor-mation) 작업을 거쳐 목적 시스템으로 적재(Load)하는 프로세스이다.
- 조직 내/외부의 여러 소스들로부터 분석을 위한 저장소로 데이터를 이동시키는 일련의 프로세스이다.
ETL 프로세스
- 때때로 시간 절약을 위한 3가지 ETL 단계를 동시에 수행한다.
- 일반적으로 발생하는 데이터 변환에는 필터링, 정렬, 집계, 중복 제거, 유효성, 검증 등의 작업이 포함된다.
- ETL의 변환 작업은 특수한 엔진에서 진행되며, 종종 변환 중인 데이터가 준비 테이블에서 임시로 보유되었다가 대상에 로드된다.
ETL 프로세스 추출 방법
JDBC 기술 이용 / ODBC 기술 이용 / Flat File 생성
(3) 파일 처리 기술
파일 처리 기술의 유형
순차 파일(Sequential File) / 색인 순차 파일(Index Sequential File) / 직접 파일(Direct File)
색인 순차 파일(Indexed Sequential File)
- 레코드의 삽입, 삭제, 갱신이 모두 용이하다.
- 순차처리와 랜덤처리가 모두 가능하다.
- 레코드들을 키 값 순으로 정렬시켜 기록한다.
데이터 전환 수행
(1) 데이터 전환 수행 계획
- 데이터 전환을 위한 상세 설계, 전환 및 검증 프로그램 개발과 통합 전환을 수행할 수 있도록 계획한다.
- 전환 단계에서는 업무 간 병렬 처리, 전환 시나리오에 따른 일관적 통제 및 관리, 주기적으로 데이터 전환 테스트를 반복하는 등 통합된 체계적 접근이 필요하다.
데이터 전환 절차
- 현행(AS-IS) 시스템에서 목표(TO-BE) 시스템으로 전환을 위한 단계를 구분한다.
- 각 단계별 작업 내용과 사용되는 도구를 별도로 기록한다.
- 원천 데이터베이스의 데이터는 백업하여 스테이징(Staging) 데이터베이스로 복구한 후 정비 및 변환 작업을 수행한다.
- 데이터 전환이 완료된 후 검증 단계에서는 스테이징 데이터베이스가 아닌 원천 데이터베이스와 비교하여 데이터 오류를 확인해야 한다.
데이터 전환 수행 단계
- 요구사항 분석 단계(전환 계획 및 요건정의)
- 설계 단계(전환 단계)
- 구현 단계(전환 개발)
- 테스트 단계(전환 테스트 및 검증)
- 데이터 전환 단계
(2) 체크리스트(Checklist)
전환 프로그램의 에러, 시간제약, 비즈니스 로직 변경, 긴급 상황 및 위험요인 대응을 위한 측정 가능한 목록이다.
체크리스트 작성
- 수행 작업의 상세항목
- 작업내역
- 예적 시작/종료 시작
- 작업자
(3) 데이터 검증
시점 | 목적 | 방법 |
추출 검증 | 원천데이터 정합성 확인 | 전환대상 데이터(테이블 건수, 금액) 등에 대한 검증 보고서 작성 |
전송 검증 | 전송 데이터 유실 확인 | 원천(AS-IS) 검증 자료와 비교 |
전환 검증 | Staging DB 구성 후 데이터 검증 | 원천 데이터 검증보고서와 Staging DB 간 항목별 검증 |
적재 검증 | 전환데이터 정합성 검증 | 목적(TO-BE) 데이터 검증 수행 |
통합 검증 | 매핑 정의서 오류 검증 | 오류 데이터 분석 통해 전환 규칙 오류를 수정 및 반영 |
데이터 정제
(1) 데이터 정제
데이터 정제 요청서 작성 항목
정제 아이디(ID) / 정제 제목 / 관련 테이블 / 예상 처리건수
데이터 정제 보고서 작성 원칙
정제 아이디(ID) / 정제 건수 / 전환 결과 / 미처리 사유 / 대응 방안
(2) 데이터 품질 분석
원천 데이터의 품질을 검증함으로써 전환의 정확성을 보장할 수 있다.
원천 데이터 품질 분석
- 필수 항목의 데이터가 모두 존재하는가?
- 데이터의 유형이 정확하게 관리되고 있는가?
- 날짜의 경우 날짜로서 유효한 형태를 가지고 있는가?
- 금액의 경우 유효한 값의 범위인가?
- 모든 일자의 시점이 업무 규칙에 위배되지 않고 정확하게 설정되어 있는가?
- 업무 규칙에 위배되는 잘못된 정보가 존재하는가?
- 잔액의 총합이 회계 정보와 동일한가?
- 보고서 값과 실제 데이터 값이 일치하는가?
목적 데이터 품질 분석
- 특정 기준으로 분류된 데이터가 일치하는가?
- 보고서 항목 또는 통계 수치는 정확한가?
- 샘플링 한 목적데이터의 대상 항목이 모두 일치하는가?
- 특수한 관계가 있는 고객의 추출 데이터는 정확한가?
(3) 오류 데이터 측정
- 데이터 품질 기준에 따라 정상 데이터와 오류 데이터를 분리한다.
- 정량적 측정을 통해 나온 결과를 토대로 오류 관리 목록에 기재한다.
오류 원인 파악 / 정제 여부 결정
구분 | 지표 | 설명 |
심각도 | 상(High) | 데이터 이행을 진행할 수 없게 만드는 오류 |
중(Middle) | 데이터 이행 전반에 영향을 미치는 오류 | |
하(Low) | 데이터 이행의 영향을 미치지 않는 오류 상황에 맞지 않는 용도 및 배치 오류 |
|
상태 | 열린(Open) | 오류가 보고되었지만 아직 분석되지 않은 상태 |
할당된(Assigned) | 수정을 위해 오류를 개발자에게 할당한 상태 | |
수정된(Fixed) | 개발자가 오류를 수정한 상태 | |
종료된(Closed) | 재 테스트 시 오류가 발견되지 않은 상태 수정된 오류 미 충족 시 오류 상태 'Open' 변경 |
|
연기된(Deferred) | 낮은 우선순위로 오류 수정을 연기한 상태 | |
분류된(Classified) | 프로젝트 내 오류가 아니라고 판단된 상태 |
'정보처리기사 필기 > 데이터베이스 구축' 카테고리의 다른 글
3-4. 물리 데이터베이스 설계 (0) | 2021.08.06 |
---|---|
3-3. 논리 데이터베이스 설계 (0) | 2021.08.04 |
3-2. SQL 활용 (0) | 2021.08.04 |
3-1. SQL 응용 (0) | 2021.08.01 |
댓글