基于 Kaplan‑Meier、Cox 比例风险模型、AFT 模型与客户生命周期价值分析
侯哲妍 (Zheyan Hou) | 2026年4月
本分析使用 IBM 提供的 Telco Customer Churn 数据集,该数据集模拟了一家电信公司的客户信息。原始数据包含 7,043 条客户记录,每条记录包含 21 个字段,涵盖客户的人口统计学特征(如性别、年龄)、服务使用情况(如电话服务、互联网服务、在线安全等)、合同类型以及客户流失状态。
为了聚焦于高流失风险客户群体,对原始数据进行了以下筛选和转换:
| 步骤 | 操作说明 |
|---|---|
| 标签转换 | 将 churnString 列(值为"Yes"/"No")转换为数值型 churn 列(1=流失,0=未流失) |
| 合同类型筛选 | 只保留合同类型为 Month-to-month(月付合同)的客户 |
| 服务类型筛选 | 只保留使用互联网服务(internetService != "No")的客户 |
下表展示了清洗后数据的前 5 行示例:
| customerID | gender | tenure | contract | internetService | churn |
|---|---|---|---|---|---|
| 7590-VHVEG | Female | 1.0 | Month-to-month | DSL | 0 |
| 3668-QPYBK | Male | 2.0 | Month-to-month | DSL | 1 |
| 9237-HQITU | Female | 2.0 | Month-to-month | Fiber optic | 1 |
| 9305-CDSKC | Female | 8.0 | Month-to-month | Fiber optic | 1 |
| 1452-KIOVK | Male | 22.0 | Month-to-month | Fiber optic | 0 |
生存分析需要两个核心变量:生存时间 (tenure):客户在网时长(月);事件指示符 (churn):1 表示已流失,0 表示删失(仍为活跃用户)。下表展示了这两个关键变量的描述性统计:
| 统计量 | tenure(月) | churn(流失标识) |
|---|---|---|
| 计数 | 3,351 | 3,351 |
| 均值 | 19.43 | 0.464 |
| 标准差 | 18.17 | 0.499 |
| 最小值 | 1.0 | 0 |
| 最大值 | 72.0 | 1 |
📌 客户在网时长范围为 1 至 72 个月,平均在网时长约为 19.4 个月。
📌 目标群体中,流失客户的占比为 46.4%(1,556/3,351),说明月付互联网客户群体流失率较高,具有分析价值。
数据存储:清洗后的数据已保存为 Parquet 格式,存储路径为:/data/proj_1/ibm_telco_data/silver
中位生存时间:34.0 个月 —— 50% 的月付互联网客户会在签约后的 34 个月内流失。换句话说,这类客户的"预期寿命"约为 3 年。
Log-Rank 检验结果:p = 0.153 > 0.05,男性和女性的生存曲线无显著差异,性别不是影响客户流失时间的关键因素。
Log-Rank 检验结果:p < 0.001,使用在线安全服务的客户与未使用的客户之间存在极显著差异。从生存曲线可以看出,使用在线安全服务的客户生存概率明显更高。
对 15 个分类变量逐一进行 Log-Rank 检验,结果汇总如下:
| 变量 | p值 | 是否显著 (p<0.05) | 解读 |
|---|---|---|---|
| gender | 0.153 | 否 | 性别无显著影响 |
| seniorCitizen | 0.723 | 否 | 是否老年无显著影响 |
| partner | <0.001 | 是 | 有伴侣的客户生存概率更高 |
| dependents | <0.001 | 是 | 有家属的客户生存概率更高 |
| phoneService | 0.194 | 否 | 电话服务无显著影响 |
| multipleLines | <0.001 | 是 | 多条线路有显著影响 |
| internetService | <0.001 | 是 | DSL 与光纤客户有显著差异 |
| streamingTV | <0.001 | 是 | 流媒体电视有显著影响 |
| streamingMovies | <0.001 | 是 | 流媒体电影有显著影响 |
| onlineSecurity | <0.001 | 是 | 在线安全有极显著影响 |
| onlineBackup | <0.001 | 是 | 在线备份有极显著影响 |
| deviceProtection | <0.001 | 是 | 设备保护有显著影响 |
| techSupport | <0.001 | 是 | 技术支持有显著影响 |
| paperlessBilling | 0.004 | 是 | 无纸化账单有显著影响 |
| paymentMethod | <0.001 | 是 | 支付方式有显著影响 |
以 DSL 互联网服务客户为例,提取其前 10 个月的生存概率:
| 时间(月) | 生存概率 |
|---|---|
| 0 | 1.000 |
| 1 | 0.903 |
| 2 | 0.864 |
| 3 | 0.835 |
| 4 | 0.811 |
| 5 | 0.794 |
| 6 | 0.784 |
| 7 | 0.776 |
| 8 | 0.768 |
| 9 | 0.751 |
解读:DSL 客户在第 1 个月末的生存概率约为 90.3%,即约 9.7% 的 DSL 客户会在第一个月内流失;到第 9 个月末,生存概率降至约 75.1%。
🎯 整体中位生存时间:34 个月,50% 客户会在此之前流失。
🎯 最强影响因素:onlineSecurity、onlineBackup、techSupport(p 值极小)。
🎯 无显著影响因素:gender、seniorCitizen、phoneService。
🎯 业务启示:增值服务(在线安全、备份、技术支持)显著延长客户生命周期。
Cox 比例风险模型是一种半参数回归模型,用于分析多个变量对生存时间的联合影响。本模型纳入的变量包括:dependents_Yes、internetService_DSL、onlineBackup_Yes、techSupport_Yes。
| 变量 | coef | HR (exp(coef)) | HR 95% CI | p值 | 显著性 |
|---|---|---|---|---|---|
| dependents_Yes | -0.33 | 0.72 | (0.63, 0.83) | <0.005 | ✓ |
| internetService_DSL | -0.22 | 0.80 | (0.72, 0.90) | <0.005 | ✓ |
| onlineBackup_Yes | -0.78 | 0.46 | (0.41, 0.52) | <0.005 | ✓ |
| techSupport_Yes | -0.64 | 0.53 | (0.46, 0.61) | <0.005 | ✓ |
模型整体评价指标:Concordance 指数 = 0.64(中等区分能力),Partial AIC = 22639.90,Log-likelihood ratio test = 337.77 (df=4),p < 0.001。
风险比 HR < 1 表示降低流失风险(保护因素)。
📌 dependents_Yes:HR=0.72 → 有家属的客户流失风险降低 28%
📌 internetService_DSL:HR=0.80 → DSL 用户流失风险比光纤用户低 20%
📌 onlineBackup_Yes:HR=0.46 → 有在线备份的客户流失风险降低 54%(最强的保护因素)
📌 techSupport_Yes:HR=0.53 → 有技术支持的客户流失风险降低 47%
方法1:统计检验(Schoenfeld 残差检验)
| 变量 | test_statistic | p值 | 是否违反假设 |
|---|---|---|---|
| dependents_Yes | 1.48 | 0.22 | 否 |
| internetService_DSL | 20.98 | <0.001 | 是 |
| onlineBackup_Yes | 17.80 | <0.001 | 是 |
| techSupport_Yes | 8.09 | <0.001 | 是 |
结论:dependents_Yes 满足比例风险假设;internetService_DSL、onlineBackup_Yes、techSupport_Yes 违反假设,建议采用分层策略。
方法2:Schoenfeld 残差图
方法3:Log-log Kaplan-Meier 图




✅ 显著保护因素:onlineBackup(HR=0.46)、techSupport(HR=0.53)、dependents(HR=0.72)、DSL(HR=0.80)
✅ 业务启示:增值服务(在线备份、技术支持)是降低客户流失的最有效手段;有家属的客户黏性更强;DSL 用户流失风险低于光纤用户。
加速失效时间模型是一种参数模型,采用 Log-Logistic 分布。在 AFT 模型中,exp(coef) > 1 表示生存时间延长(保护因素),exp(coef) < 1 表示生存时间缩短。模型纳入了 partner、multipleLines、internetService_DSL、onlineSecurity、onlineBackup、deviceProtection、techSupport 以及两种自动支付方式。
整体模型评价:样本量 3,351,流失事件数 1,556,Concordance = 0.73,AIC = 13698.72,Log-likelihood ratio test = 877.49 (df=9),p < 0.001。
| 变量 | coef | exp(coef) | 95% CI | p值 |
|---|---|---|---|---|
| partner_Yes | 0.68 | 1.97 | (1.73,2.24) | <0.005 |
| multipleLines_Yes | 0.66 | 1.94 | (1.70,2.22) | <0.005 |
| internetService_DSL | 0.38 | 1.47 | (1.26,1.71) | <0.005 |
| onlineSecurity_Yes | 0.86 | 2.37 | (2.00,2.80) | <0.005 |
| onlineBackup_Yes | 0.81 | 2.25 | (1.97,2.59) | <0.005 |
| deviceProtection_Yes | 0.48 | 1.62 | (1.41,1.86) | <0.005 |
| techSupport_Yes | 0.69 | 1.99 | (1.68,2.36) | <0.005 |
| paymentMethod_Bank transfer | 0.74 | 2.10 | (1.75,2.51) | <0.005 |
| paymentMethod_Credit card | 0.80 | 2.22 | (1.84,2.68) | <0.005 |
⭐ onlineSecurity_Yes:2.37 倍 → 生存时间延长 2.37 倍
⭐ onlineBackup_Yes:2.25 倍 → 生存时间延长 2.25 倍
⭐ paymentMethod_Credit card:2.22 倍 → 生存时间延长 2.22 倍
⭐ techSupport_Yes:1.99 倍 → 生存时间延长 1.99 倍
⭐ partner_Yes:1.97 倍 → 生存时间延长 1.97 倍
与 Cox 模型对比:两个模型结论完全一致,所有增值服务均为保护因素,能显著延长客户生命周期。








假设检验结论:分布假设(直线性)满足;比例优势假设(平行性)不满足——部分曲线存在交叉,与 Cox 模型比例风险违反一致。
模型输出中位生存时间为 135.51 个月(约 11.3 年),但需谨慎解读:由于 Log-Logistic 分布假设 + 高删失率(53.5%)导致模型外推。Kaplan-Meier 估计的 34 个月更符合实际。因此中位生存时间绝对值以 KM 估计为准,AFT 主要用于评估变量相对效应。
📊 模型区分能力 Concordance = 0.73,优于 Cox 模型(0.64)
📊 所有 9 个变量均显著(p < 0.005),最强保护因素:onlineSecurity(2.37 倍)、onlineBackup(2.25 倍)
📊 业务启示:优先推广在线安全和在线备份服务,投入产出比最高。
基于 Cox 模型,假设月利润 30 元,折现率 10%/年,基准客户(所有协变量为 0:无家属、非DSL、无在线备份、无技术支持、无伴侣)。
| 月份 | 生存概率 | 月利润(元) | 预期月利润 | 净现值 | 累计NPV |
|---|---|---|---|---|---|
| 1 | 1.00 | 30 | 30.00 | 30.00 | 30.00 |
| 2 | 0.87 | 30 | 26.10 | 25.88 | 55.88 |
| 3 | 0.81 | 30 | 24.30 | 23.90 | 79.78 |
| 4 | 0.77 | 30 | 23.10 | 22.53 | 102.31 |
| 5 | 0.74 | 30 | 22.20 | 21.48 | 123.79 |
| 6 | 0.71 | 30 | 21.30 | 20.43 | 144.22 |
| 7 | 0.69 | 30 | 20.70 | 19.69 | 163.91 |
| 8 | 0.67 | 30 | 20.10 | 18.97 | 182.88 |
| 9 | 0.65 | 30 | 19.50 | 18.25 | 201.13 |
| ……(中间月份完整保留)…… | |||||
| 12 | 0.59 | 30 | 17.70 | 16.16 | 251.40 |
| 18 | 0.50 | 30 | 15.00 | 13.03 | 336.31 |
| 24 | 0.43 | 30 | 12.90 | 10.66 | 405.44 |
💰 基准客户 12 个月 CLV = 251.40 元;24 个月 CLV = 405.44 元
💰 投资回收期:约 10‑11 个月(假设 CAC=200 元)
💰 业务建议:客户获取成本应控制在 250 元以内,针对不同客户档案(如有家属、有在线备份)重新计算 CLV,CLV/CAC > 3 作为优质客户筛选标准。
📁 完整代码、图表及交互附录见 GitHub 仓库 | 基于 lifelines 框架实现 | 数据来源:IBM Telco Customer Churn