
临床数据分析全流程指南:从病历导出到论文结果
一篇面向医学研究生和临床科研人员的数据分析教程——从医院信息系统导出数据开始,到产出符合期刊规范的统计结果。
你从医院信息系统导出了一份 Excel,里面是几百个患者的入院记录、化验指标和随访结果。打开一看:列名是 HbA1c、SBP、DBP、eGFR 这样的缩写,有些单元格是空的,有些行的日期格式还不统一——然后你不知道该从哪里开始。
这是很多临床科研新手的真实处境。数据从 HIS 或电子病历系统导出来不难,真正难的是:怎么把这堆原始记录变成一篇可以投稿的临床论文?
这篇文章会从头到尾走一遍完整的临床数据分析流程,从数据导出开始,一直到产出可以写进论文的统计表格和结论。
第一步:导出和检查数据
临床数据通常来自医院信息系统(HIS)、电子病历系统(EMR)、临床数据库或 REDCap 等数据采集平台。大多数系统支持导出 Excel 或 CSV 格式。
导出后打开文件,重点检查:
- 每一行是不是对应一个患者(或一次就诊记录)?
- 列名是否清晰?是标准缩写(如 ALT、AST、WBC)还是系统自动生成的编码?
- 有没有混入了汇总行、表头注释或合并单元格?
- 日期字段的格式是否统一(有的是 2024-01-15,有的是 20240115,有的是 01/15/2024)?
- 是否包含患者标识信息需要脱敏处理?
搞清楚数据结构是做分析的前提。如果数据是纵向随访设计(同一患者多次记录),还需要确认数据是"宽格式"(每次随访占一列)还是"长格式"(每次随访占一行)。
第二步:数据清洗
医院系统导出的原始数据几乎不可能直接用来分析。常见的清洗工作包括:
- 处理缺失值:区分"未检测"和"检测结果丢失"——前者可能有临床意义,后者是数据质量问题。对于关键变量缺失率过高(如 >20%)的情况,需要考虑是否排除该变量或使用多重插补
- 统一编码:同一个诊断可能有多种写法("2型糖尿病""T2DM""type 2 DM"),需要统一
- 处理异常值:收缩压 300 mmHg 或年龄 -5 岁显然是录入错误,需要核实或排除
- 标准化日期格式:把所有日期统一为 YYYY-MM-DD 格式
- 脱敏处理:删除姓名、身份证号、住院号等可识别信息
- 派生变量计算:比如从身高体重算 BMI,从入院和出院日期算住院天数,从手术日期和末次随访日期算生存时间
这一步花的时间往往比跑统计分析本身还长,但数据质量决定了后续所有结果的可信度。
第三步:基线特征表
临床论文的 Table 1 几乎都是基线特征表(Baseline characteristics),按组别展示患者的人口学和临床特征。
基线表的标准写法:
- 分类变量(性别、吸烟史、合并症等):报告频数和百分比,组间比较用卡方检验或 Fisher 精确检验
- 正态分布的连续变量(年龄、BMI 等):报告均值 ± 标准差,组间比较用独立样本 t 检验或 ANOVA
- 偏态分布的连续变量(住院天数、某些实验室指标):报告中位数(四分位距),组间比较用 Mann-Whitney U 检验或 Kruskal-Wallis 检验
基线表不只是描述样本——它也向审稿人展示两组之间是否存在混杂因素的不平衡,这直接影响后续分析策略的选择。
第四步:选择统计方法
临床数据分析的方法选择取决于你的研究设计和结局变量类型:
组间比较
- 连续结局 + 两组:独立样本 t 检验(正态)或 Mann-Whitney U 检验(非正态)
- 连续结局 + 多组:ANOVA(正态)或 Kruskal-Wallis 检验(非正态)
- 分类结局:卡方检验或 Fisher 精确检验
多因素分析
- 连续结局:多元线性回归
- 二分类结局(如是否发生并发症):Logistic 回归
- 生存结局(如无进展生存期):Cox 比例风险回归
- 计数结局(如住院天数):Poisson 回归或负二项回归
诊断与预测评价
- 诊断准确性:ROC 曲线与 AUC
- 预测模型校准:Hosmer-Lemeshow 检验、校准曲线
生存分析
- 生存曲线:Kaplan-Meier 方法
- 组间生存差异:Log-rank 检验
- 多因素生存分析:Cox 回归
每种方法都有适用条件。Logistic 回归要求样本量足够(通常每个自变量至少需要 10-20 个事件数),Cox 回归要求满足等比例风险假设。不检验前提条件就跑分析,是论文被审稿人质疑的常见原因。
第五步:结果解读与报告
统计软件输出的是数字,但论文需要的是临床意义上的结论。你需要把统计结果翻译成临床语言:
- 报告效应量和置信区间,不能只看 p 值。"治疗组的并发症发生率为 12.3%,对照组为 23.1%(OR = 0.47, 95% CI: 0.28–0.79, p = 0.004)"比"p < 0.05,有统计学差异"信息量大得多
- 表格需要符合期刊规范:通常使用三线表,连续变量报告均值 ± 标准差或中位数(IQR),分类变量报告 n(%)
- 图表要选对类型:生存数据用 KM 曲线,诊断评价用 ROC 曲线,组间比较用森林图或条形图
- 多因素回归结果通常用森林图展示 OR/HR 值及其置信区间
这一步很多人卡住——能跑出结果,但不知道怎么写成符合期刊要求的论文语言。
手动做这些有多麻烦?
如果你用 SPSS 或 R 来做上面这套流程,你大概需要:在统计软件和 Word 之间反复切换、手动排版基线表、逐个调整图表格式、把统计输出翻译成论文文字……一个数据集做下来,花一周甚至更长时间很正常。
而且临床数据的变量类型复杂(连续、分类、生存时间、删失状态混在一起),比问卷数据的分析流程更容易出错。
Data2Paper 如何简化这个流程
Data2Paper 支持临床数据的完整分析流程。上传你的 Excel 或 CSV 文件,描述你的研究主题和分组方式,系统会自动完成数据清洗、变量类型识别、统计方法选择、分析执行和论文章节生成。
系统能够识别常见的临床变量名(如 HbA1c、SBP、eGFR),自动判断变量类型,选择合适的统计检验方法。输出包括规范的基线特征表、回归分析结果、生存曲线、ROC 曲线等,以及配套的解读文字,直接可以用在论文投稿中。
对于想把精力放在临床问题本身、而不是和统计软件较劲的医学科研人员来说,这是一个实际的效率提升。
更多文章

不用学 SPSS 也能做问卷分析:Data2Paper 与 SPSS/SPSSAU 对比
对比 SPSS、SPSSAU 和 Data2Paper 在问卷数据分析中的实际体验——学习成本、操作效率和输出质量。


问卷数据分析全流程指南:从问卷星导出到论文结果
一篇面向毕业论文写作者的问卷数据分析完整教程——从问卷星导出数据开始,到产出符合论文规范的统计结果。


生存分析入门:Kaplan-Meier 曲线、Log-rank 检验与 Cox 回归
面向临床科研人员的生存分析实用教程——讲清楚什么时候要用生存分析、怎么准备数据、怎么解读 KM 曲线和 Cox 回归结果。

邮件列表
加入我们的社区
订阅邮件列表,及时获取最新消息和更新