2026/03/28

임상 데이터 분석 가이드: 병원 기록에서 연구 결과까지

병원 정보 시스템 데이터를 내보내는 시점부터 저널에 그대로 실을 수 있는 통계 결과를 만드는 시점까지 — 임상 데이터 분석 파이프라인 전 과정을 짚어 봅니다.

병원 정보 시스템에서 Excel 파일 하나를 막 내려받았다고 해 볼게요. 입원 정보, 검사 수치, 추적 결과까지 환자 수백 명의 기록이 들어 있습니다. 컬럼 헤더에는 HbA1c, SBP, DBP, eGFR이 보이고, 어떤 셀은 비어 있고, 날짜 형식도 제각각이에요. 어디서 시작해야 할지 막막합니다.

새 임상 연구를 시작하는 많은 분들이 마주하는 풍경이에요. 사실 EMR에서 데이터를 빼내는 건 어려운 부분이 아닙니다. 진짜 어려운 일은 그 원자료를 출판 가능한 임상 논문으로 바꾸는 데 있어요.

이 글에서는 데이터 추출부터 최종 분석 산출까지 전 과정을 정리해 봅니다.

Step 1: 데이터를 내보내고 살펴보기

임상 데이터는 보통 병원 정보 시스템(HIS), 전자의무기록(EMR), 임상 데이터베이스, REDCap 같은 데이터 수집 플랫폼에서 나옵니다. 대부분 Excel이나 CSV로 내보내기를 지원해요.

파일을 받았다면 다음을 점검해 보세요.

한 행이 환자 한 명(또는 한 차례 진료)을 나타내는가?
컬럼명이 명확한가? 표준 약어(ALT, AST, WBC)인가, 시스템이 자동 생성한 코드인가?
데이터 사이에 요약 행이나 헤더 코멘트, 병합된 셀이 섞여 있지 않은가?
날짜 형식이 통일돼 있는가? (어떤 셀은 2024-01-15, 어떤 셀은 20240115, 또 어떤 셀은 01/15/2024일 수 있어요)
비식별화가 필요한 환자 식별 정보가 들어 있지는 않은가?

데이터 구조를 이해하는 게 이후 모든 작업의 기반입니다. 종단 연구 데이터(환자당 여러 기록)라면 wide format(방문별로 컬럼이 늘어남)인지 long format(방문별로 행이 늘어남)인지도 확인해야 해요.

Step 2: 데이터 정제

원자료는 거의 분석 가능한 상태가 아닙니다. 흔히 거치게 되는 정제 작업은 이런 것들이에요.

결측치 처리: "검사하지 않음"과 "결과 누락"을 구분하세요. 전자는 임상적 의미가 있을 수 있고, 후자는 데이터 품질 문제예요. 결측이 많은 핵심 변수(예: 20% 초과)는 변수 자체를 제외하거나 다중 대치(multiple imputation)를 고려합니다
코딩 통일: 같은 진단명이 "제2형 당뇨병", "T2DM", "type 2 DM"처럼 다양하게 적혀 있다면 하나로 통일해야 합니다
이상치 처리: 수축기 혈압 300mmHg, 나이 -5세 같은 값은 명백한 입력 오류입니다. 검증하거나 배제하세요
날짜 형식 통일: 모든 날짜를 YYYY-MM-DD 같은 일관된 형식으로 변환합니다
비식별화: 이름, 주민등록번호, 의무기록번호 등 개인 식별 정보를 모두 제거합니다
파생 변수 만들기: 키와 몸무게에서 BMI, 입원일과 퇴원일에서 재원일수, 수술일과 마지막 추적일에서 생존 시간 등을 계산합니다

이 단계가 통계 분석을 돌리는 시간보다 더 오래 걸리는 경우가 많아요. 그렇지만 데이터 품질이 이후 모든 결과의 신뢰도를 결정합니다.

Step 3: 베이스라인 특성표

임상 논문 어디에서나 거의 빠지지 않는 Table 1이 바로 베이스라인 특성표입니다. 군별로 인구통계학적 특성과 임상적 특성을 보여주는 표예요.

베이스라인 표 작성의 표준 형식은 다음과 같아요.

범주형 변수 (성별, 흡연, 동반질환): 빈도와 백분율로 보고. 군 간 비교는 카이제곱 검정 또는 Fisher 정확검정
정규분포 연속형 변수 (나이, BMI): 평균 ± 표준편차. 군 간 비교는 독립표본 t검정 또는 ANOVA
편향분포 연속형 변수 (재원일수, 일부 검사 수치): 중앙값(IQR). 군 간 비교는 Mann-Whitney U 검정 또는 Kruskal-Wallis 검정

베이스라인 표는 단순한 표본 기술이 아니에요. 군 간 교란변수의 불균형이 있는지를 리뷰어에게 보여주고, 이게 후속 분석 전략 선택에 직접 영향을 줍니다.

Step 4: 통계 방법 선택

임상 데이터 분석에서 통계 방법 선택은 연구 설계와 결과 변수 유형에 따라 달라집니다.

군 간 비교

연속형 결과 + 두 군: 독립표본 t검정(정규) 또는 Mann-Whitney U 검정(비정규)
연속형 결과 + 세 군 이상: ANOVA(정규) 또는 Kruskal-Wallis 검정(비정규)
범주형 결과: 카이제곱 검정 또는 Fisher 정확검정

다변량 분석

연속형 결과: 다중 선형 회귀분석
이분형 결과 (예: 합병증 발생 여부): 로지스틱 회귀분석
생존 결과 (예: 무진행 생존): Cox 비례위험 회귀분석
계수형 결과 (예: 입원 일수): Poisson 회귀분석 또는 음이항 회귀분석

진단 및 예측 평가

진단 정확도: ROC 곡선과 AUC
예측 모델 보정: Hosmer-Lemeshow 검정, 보정 곡선

생존 분석

생존 곡선: Kaplan-Meier 방법
군 간 생존 차이: Log-rank 검정
다변량 생존 분석: Cox 회귀분석

각 방법에는 가정이 있어요. 로지스틱 회귀는 충분한 표본 크기가 필요합니다(보통 예측 변수당 사건 10~20건 이상). Cox 회귀는 비례위험 가정이 성립해야 해요. 가정 점검 없이 분석을 돌리는 건 리뷰어가 논문을 돌려보내는 가장 흔한 이유 중 하나입니다.

Step 5: 결과 해석과 보고

통계 출력은 숫자입니다. 논문에는 임상적 결론이 담겨야 해요. 통계 결과를 임상 언어로 옮겨야 합니다.

p-value만이 아니라 효과 크기와 신뢰구간을 보고하세요. "치료군 합병증 발생률 12.3% vs 대조군 23.1% (OR = 0.47, 95% CI: 0.28–0.79, p = 0.004)"가 "p < 0.05, 통계적으로 유의함"보다 훨씬 정보량이 많습니다
표는 저널 표준을 따라야 해요. 보통 3선표(three-line table) 형식이고, 연속형 변수는 평균 ± SD 또는 중앙값(IQR), 범주형 변수는 n(%)로 보고합니다
그래프 종류를 잘 고르세요. 생존 데이터는 KM 곡선, 진단 평가는 ROC 곡선, 군 간 비교는 forest plot이나 막대그래프를 씁니다
다변량 회귀 결과는 보통 OR/HR 값과 신뢰구간을 보여주는 forest plot으로 제시합니다

많은 연구자가 막히는 지점이 바로 여기예요. 분석은 돌릴 수 있는데, 저널이 받아 줄 수준의 결과 문장으로 옮기는 게 어렵습니다.

수작업 워크플로의 한계

이걸 SPSS나 R로 다 한다고 하면, 통계 소프트웨어와 Word 문서 사이를 계속 오가면서 베이스라인 표를 손으로 정리하고, 그래프를 하나씩 손보고, 통계 출력을 원고 문장으로 다시 풀어내는 과정을 거치게 됩니다. 데이터셋 하나에 일주일도 우습게 가요.

게다가 임상 데이터는 설문 데이터보다 복잡합니다. 연속형, 범주형, 생존 시간, 중도절단 변수가 한 데이터셋 안에 섞여 있는 경우가 많아서 분석 파이프라인 자체가 더 오류가 나기 쉬워요.

Data2Paper는 이 흐름에 어떻게 들어가나요

Data2Paper는 임상 데이터 분석 파이프라인 전체를 지원합니다. Excel이나 CSV 파일을 업로드하고 연구 주제와 군 구분을 입력하면, 시스템이 데이터 정제, 변수 유형 감지, 통계 방법 선택, 분석 실행, 논문 섹션 생성을 한 번에 처리해요.

시스템은 임상 분야에서 자주 쓰이는 변수명(HbA1c, SBP, eGFR 등)을 인식하고, 변수 유형을 자동으로 판별해서 적절한 통계 검정을 선택합니다. 산출물에는 정형화된 베이스라인 표, 회귀분석 결과, 생존 곡선, ROC 곡선, 그리고 해석 문장이 포함돼요. 저널 투고 가능한 형식으로 바로 나옵니다.

통계 소프트웨어 조작이 아니라 임상적 질문 자체에 집중하고 싶은 임상 연구자라면, 마찰을 의미 있게 줄일 수 있는 도구입니다.

임상 데이터를 업로드하고 논문 생성 시작하기 →

전체 글

저자

Data2Paper 팀

뉴스레터

함께해요

최신 소식과 업데이트를 뉴스레터로 받아보세요