코호트 수집자료의 품질 검증 및 정제를 위하여 유전체역학과의 조직 및 운영 프로세스를 고려
하여 데이터 품질관리를 위한 체계를 재수립하였다. 품질관리체계는 품질관리를 위한 표준 업무
절차를 재정립하고 품질평가를 위한 지표를 정의하며, 품질검증 관련 일련의 세부 업무절차 관리
와 실행 자동화를 위한 소프트웨어 툴을 개발하였다. 소프트웨어 툴은 데이터품질관리를 위한 솔
루션으로, 이는 주관 연구기관이 보유하고 있는 솔루션의 기본기능에 유전체역학과의 데이터 품
질진단 관련 프로세스 중 변수유형 분류, 변수 기본분포표 리포팅, 변수 유형별 단변수 이상치 진
단 및 리스트 리포팅, 논리규칙 리스트 리포팅 기능 등을 추가로 구현하였다. 개발된 품질관리시
스템을 이용함으로써 기존의 품질검증 방식에 비해 보다 단축된 시간으로 표준화된 분석결과 도
출이 가능해졌으며, 또한 분석결과와 실행로그가 시스템을 통해 조회될 수 있고 DB에 저장되므
로 이력관리가 가능해졌다.
기 수집 코호트 자료에 대한 품질검증 및 정제를 위하여 text형태로 되어 있는 자료를 오라클
DB에 로딩한 후 유전체역학과의 기 보유 데이터 품질검증 및 정제 절차를 준수하여 데이터 품질
진단을 수행하였으며 개발된 품질관리시스템을 활용하여 프로파일링 이상치, 논리규칙 위배 리스
트들을 엑셀자료로 손쉽게 출력할 수 있도록 하였다. 7개 코호트(33개 단위데이터)로부터의 기 수
집자료 총 조사자수는 73,297건으로 프로파일링 분석결과 86,199 건의 이상치 중 2,911 건을 정제
를 위한 원본대조 대상으로 선정하여 원본대조를 수행하였다. 논리규칙 분석결과 16,182건의 논리
규칙 중에서 232,006건의 위배 데이터가 나타나서 41,437건의 원본대조를 수행하였고 이중 원본근
거 데이터 정제 후 로직오류 존재 수는 23,749건이 되는 것으로 나타났다. 본 과제에서 진행된 품
질진단 및 정제 작업결과를 바탕으로 향후 유전체역학과의 추가적인 정제작업을 거친 후 코호트
관계자들과의 협의를 통해 최종적인 정제 데이터를 생성하게 될 것이다.
2 011년 수집자료의 모니터링은 4개 코호트 9개 단위 데이터에 대하여 기 수집자료의 경우와 동
일한 품질진단 기준을 적용하여 이상치 및 논리오류 리스트를 추출하여 제시함으로써, 유전체역
학과에서 코호트 현장에 대하여 수집자료 품질 관련 피드백을 주어 문제점을 개선할 수 있는 근
거자료를 마련하였다.
코 호트 수집자료의 품질관리는 조사 결과지가 생성되는 시점의 사전관리부터 품질지표관리, 품
질진단 및 개선관리를 위한 목표관리까지 지속적으로 이루어져야 고품질의 코호트 자료를 보유할
수 있을 것이다. 향후 코호트 데이터 품질을 향상시키기 위해서 표준화 기반의 데이터 통합 품질
관리가 필요하고, 어플리케이션 영향도 관리를 포함한 데이터 거버넌스 관점으로 시스템 확장이
필요 할 것이다. 또한 본 과제를 통한 데이터 품질진단 및 정제 결과는 역학연구 활성화와 연구
결과의 신뢰도 향상에 기여할 것으로 기대한다.