본문바로가기

이 누리집은 대한민국 공식 전자정부 누리집입니다.

메뉴

헬스케어인공지능연구

수정일
2025-12-04
SHARE 페이지주소 복사하기 인쇄
개요
  • 개인의 맞춤형 건강관리 기술개발을 위해 다양한 헬스케어 데이터를 활용한 인공지능 기술을 적용 및 대규모 컴퓨팅 기반 인공지능 기법을 개발 연구를 수행하고 있습니다.
내용
  • 거대 언어 모델(Large Language Model)을 활용한 인공지능 기반 유전변이 분석 지원 알고리즘을 개발하여, 유전체 기반 유전변이 연구 및 의료 분야에서의 활용 가능성을 높이기 위한 연구를 수행하고 있습니다.
    • 다양한 질환의 연구결과 및 공개 유전변이 정보를 활용한 학습용 데이터 구축, 유전변이 결과 레포트, 거대 언어 모델 기반 유전변이 해석 서비스 구축 및 활용 방안을 도출할 예정입니다.
    VEP(Variant Effect Predictor)를 활용한 유전체 변이 주석(Annotation) 및 분석 파이프라인. 입력 파일(GFF, GTF, VCF, BED, bigWig)은 bgzip 압축 및 tabix 인덱싱 과정을 거친 후 VEP annotation 프로세스에 들어간다. VCF 파일을 입력받아 VEP를 통해 Variant Identifier(dbSNP), Population Frequency(1000 Genomes, gnomAD, ExAC, NHLBI ESP), Functional Prediction(PolyPhen, SIFT, ClinPred, LoFtool), Clinical Significance(HGMD, ClinVar, GWAS, OMIM) 등의 정보를 다양한 데이터베이스(Cache DB, Custom DB) 및 플러그인(Plugin)을 이용해 주석화한다. 전체 설치 과정은 perl INSTALL.pl을 통해 진행되며, 주석화된 결과는 텍스트(.txt) 파일로 출력되고, 변이 요약(Variant summary) 차트를 통해 시각화되어 제공된다.

    유전변이 주석 정보 수집 및 데이터베이스 구축 개요도

  • 비정형 의료 데이터(간호기록지, 폐영상 검사 판독 결과지) 전처리 파이프라인을 구축하고 인공지능 분석 알고리즘 개발을 통해, 비정형 의료 데이터 분석 사례 마련 및 절차를 공유하고자 기술개발 연구를 수행하고 있습니다.
    • 비정형 데이터 전처리 인공지능 알고리즘은 룰기반 및 자연어처리(Natural Language Processing, NLP) 알고리즘을 활용하여 데이터 정제 및 표준화를 수행하고, 언어모델을 활용한 의미 추출 및 분석을 진행하며, 최종적으로 데이터 통합 및 분석을 수행할 예정입니다.
    병원 메타데이터를 활용한 통합 의무기록 데이터 구축 파이프라인. (1단계) 안암, 구로, 안산 병원의 메타데이터와 의무기록(정형/비정형 데이터)을 국제 표준용어(SNOMED CT, LOINC, UMLS)를 이용해 표준화하고, 데이터 정제 과정을 거쳐 통합 데이터베이스에 저장한다. (2단계) 저장된 데이터는 통합 데이터베이스와 연동된 룰 기반 알고리즘을 거치거나, 간호기록, 폐 영상 검사 판독 결과 등에서 NLP 알고리즘(BERT, Fine-Tuning)을 이용한 정보 추출 및 의미 추출/분석을 수행한다. (3단계) 추출된 데이터는 데이터 구조 개발 및 환자 통합 프로필 구축을 거쳐 데이터 간 관계 정의 후 최종적으로 JSON 형태의 통합 의무기록 데이터로 모델링된다.

    인공지능 알고리즘 기반 비정형 의료 데이터 통합 구축 개요도

  • 인지장애 예측을 위해 다양한 헬스케어 데이터를 체계적으로 전처리를 수행하여, 인공지능 기반 분류 및 예측 모델 개발을 수행하고 있습니다.
    • 한국인 칩(K-chip)은 한국인의 특이한 유전 정보가 들어있는 질병 연구용 반도체로, 전장유전체상관분석(GWAS)을 인지장애관련 후보 유전변이를 선별하고, 이를 활용하여 인지장애 예측 인공지능 모델을 구축하고 있습니다.
    K-chip 데이터 분석을 통한 치매 연관 SNP 발굴 및 예측 모델 개발 흐름도. (a) BICWALZS 코호트(N=674)의 임상/역학 데이터와 K-chip 데이터를 사용하여 GWAS 분석을 수행하여 치매 연관 SNP 위치(-logP>4)를 발굴한다. 발굴된 SNP는 AD(18개), D(72개), VD(1개), VD(11개) 등으로 분류된다. (b) Training Set(N=285)을 RF, KNN, ANN, SVM 등의 머신러닝 알고리즘으로 학습시켜 예측 모델을 개발하고 5-Cross validation으로 내부 검증(Internal validation)을 수행한다. (d) 개발된 모델은 Validation SET(N=389)을 이용하여 COG Status Prediction을 수행하고, 2년 추적관찰(F/U)된 80명의 COG 상태 변화와 비교하여 Accuracy와 Confusion matrix를 산출하며 모델을 평가한다.

    한국인칩 데이터 기반 GWAS 분석을 통한 인지장애 예측 인공지능 모델 구축

    • 영상·임상역학·인지기능 등의 멀티모달 데이터를 기반으로 인지기능 상태 분류 및 변화 예측을 위한 데이터별 후보 변수를 통계적인 방법으로 선별하고, 이를 활용하여 인공지능 모델을 구축하고 추적관찰 정보를 활용하여 평가를 수행하고 있습니다.
    다중모드 데이터(Multimodal Dataset)를 활용한 치매 위험 계층화 및 예측 모델 개발 프로세스. 'Data' 단계에서는 임상 정보, 인지 평가, 구조적 MRI, 아밀로이드 PET, 유전적 요인 등의 다중모드 데이터와 이미지 특징 정량화 데이터를 준비한다. 'Model Development' 단계에서는 단계적 회귀(Stepwise regression)를 사용하여 Normal 그룹과 AD 그룹에서 각각 304개와 43개의 특징 변수를 선택하고, KNN, SVM, NN, RF 등의 알고리즘으로 예측 모델(Predictive Model)을 훈련시킨다. 'Risk stratification' 단계에서는 예측 모델을 통해 MCI 환자들을 저위험군(Low Risk)과 고위험군(High Risk)으로 계층화한다. 'Evaluate Accuracy' 단계에서는 5-fold Cross-Validation과 Confusion Matrix를 사용하여 모델 정확도를 평가하고, 최종적으로 Cross-sectional 및 Longitudinal analysis를 통해 그룹별 다중모드 데이터를 비교 분석한다.

    멀티모달 데이터(임상역학, 영상, 유전체) 기반 치매 예측 인공지능 모델 구축

  • 다양한 오믹스 정보를 활용하여 코로나19 중증도 예측을 위해, 인공지능 기반의 분류 모델 개발을 수행하고 있습니다.
    • 임상역학·혈액검사·사이토카인 발현 정보 등의 멀티모달 데이터를 기반으로 코로나19 중증도 분류 및 예측을 위한 모델을 구축하고, 정확도를 높이기 위해 다양한 접근방법을 활용하여 중요변수 선별, 관련 마커 제시 등을 수행하고 있습니다.
    1, 2차 임상, 실험실, 사이토카인 데이터를 활용한 통합 및 머신러닝 파이프라인. 1차와 2차의 Clinical, Laboratory, Cytokine profiling 데이터를 각각 통합하고, 누락 값 제거(Removing NA's), 이상치 제거(Removing outliers), 결측치 대체(Imputation) 등의 전처리(Preprocessing) 과정을 거친다. 사이토카인 데이터에는 배치 효과 보정(Batch effect correction)이 추가된다. 이후 각 데이터셋에서 Feature Selection을 통해 최종적으로 10개, 23개, 137개의 변수를 선택한다. 이 변수들은 최종적으로 통합(170 variables)되며, 데이터는 Train set과 Test set으로 7:3 분할되고, 오버샘플링(SMOTE)을 적용한다. 마지막으로 Logistic Regression, LightGBM, Random Forest, XGBoost 등의 머신러닝 알고리즘으로 학습을 진행하고 Accuracy, F1 score, precision, recall을 통해 성능을 평가한다.

    이종데이터 통합분석 파이프라인 구축 및 중증도 예측 모델 개발

connect