행위

데이터 표준화

라이언의 꿀팁백과

데이터 표준화란 시스템 별로 데이터 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 전사적으로 적용하는 것을 말한다.


데이터 표준화의 구성요소는 아래와 같다.

  • 표준화 관리대상
    • 단어/용어 표준 - 표준 용어
    • 도메인 표준 - 표준 도메인
    • 코드 표준 - 식별코드
  • 표준화 이행요소
    • 표준화 원칙 - 정책정립
    • 표준화 조직 - 거버넌스
    • 표준화 절차 - 표준지침서


표준 사전의 종류로는 단어사전, 도메인사전, 용어사전이 있다.

  • 단어사전 : 업무사 사용하는 일정한 의미를 갖고 있는 최소 단위의 단어를 정의한 사전
  • 도메인사전 : 시스템 전반적으로 사용되고 있는 데이터 가운데 유사한 유형의 데이터를 그룹화하여 그룹에 속하는 데이터의 유형과 길이를 정의한 사전
  • 용어사전 : 시스템에 사용되는 엔티티와 속성을 대상으로 단어사전에 정의된 단어 조합


데이터 표준화 대상은 정형데이터비정형데이터로 나뉘며 빅데이터 플랫폼 표준화를 위해 아래와 같은 식별체계(Object IDentifier, OID)를 활용한다. OID는 표준 식별체계 필요성에 부합하는 식별자로, 국제기구 ISO/IEC. ITU-T에서 공동으로 개발되었으며, 지속성 있는 이름이 필요한, 전 세계적으로 모호하지 않은 이름을 가진 객체, 개념 또는 사물 등 모든 유형에 이름을 부여하기 위해 개발된 식별 메커니즘이다. 각 노드 값은 하위 노드의 값을 가지며 각 계층을 "아크"라고 한다. 상위부터 하위까지 아크가 결합하여 OID가 구성된다.

{ 2 16 410 n m l k j i }

2 : Joint-iso-itu-t

16 : member-body

410 : kor

n : 기관구분

m : 개별생산자

l : 주제 대분류

k : 데이터 등록 일련번호

j : 개정번호

i : 여유분

최상위 영역은 0, 1, 2의 3개 값으로 정의되어 있는데 0은 ITU-T, 1은 ISO, 2는 ISO/ITU-T 공동으로 관리되고 있다.


{ 2 16 410 n } : 데이터를 생산하고 등록하는 국가, 공공기관, 개인을 식별하기 위해 사용

{ 2 16 410 n m } : 데이터를 생상한고 등록하는 개별생산자를 식별하기 위해 사용

{ 2 16 410 } 하위 6번째 아크인 { 2 16 410 n m l } 은 데이터 주제의 대분류를 식별하기 위해 사용


기관구분(n)에 민간기업은 2, 개인은 3을 할당한다.


m에 해당하는 식별번호 부여체계는 행정표준코드를 준용하며 https://code.go.kr/ 에서 확인이 가능하며 여러 기관에서 공개한 데이터는 https://www.bigdata-map.kr/ 에서 확인이 가능하다.