데이터 표준화
라이언의 꿀팁백과
데이터 표준화란 시스템 별로 데이터 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 전사적으로 적용하는 것을 말한다.
데이터 표준화의 구성요소는 아래와 같다.
- 표준화 관리대상
- 단어/용어 표준 - 표준 용어
- 도메인 표준 - 표준 도메인
- 코드 표준 - 식별코드
- 표준화 이행요소
- 표준화 원칙 - 정책정립
- 표준화 조직 - 거버넌스
- 표준화 절차 - 표준지침서
표준 사전의 종류로는 단어사전, 도메인사전, 용어사전이 있다.
- 단어사전 : 업무사 사용하는 일정한 의미를 갖고 있는 최소 단위의 단어를 정의한 사전
- 도메인사전 : 시스템 전반적으로 사용되고 있는 데이터 가운데 유사한 유형의 데이터를 그룹화하여 그룹에 속하는 데이터의 유형과 길이를 정의한 사전
- 용어사전 : 시스템에 사용되는 엔티티와 속성을 대상으로 단어사전에 정의된 단어 조합
데이터 표준화 대상은 정형데이터와 비정형데이터로 나뉘며 빅데이터 플랫폼 표준화를 위해 아래와 같은 식별체계(Object IDentifier, OID)를 활용한다.
{ 2 16 410 n m l k j i }
2 : Joint-iso-itu-t
16 : member-body
410 : kor
n : 기관구분
m : 개별생산자
l : 주제 대분류
k : 데이터 등록 일련번호
j : 개정번호
i : 여유분
{ 2 16 410 n } : 데이터를 생산하고 등록하는 국가, 공공기관, 개인을 식별하기 위해 사용
{ 2 16 410 n m } : 데이터를 생상한고 등록하는 개별생산자를 식별하기 위해 사용
{ 2 16 410 } 하위 6번째 아크인 { 2 16 410 n m l } 은 데이터 주제의 대분류를 식별하기 위해 사용