📊 生存分析报告:电信客户流失预测

基于 Kaplan‑Meier、Cox 比例风险模型、AFT 模型与客户生命周期价值分析

侯哲妍 (Zheyan Hou) | 2026年4月

一、数据准备与探索性分析

1.1 数据集说明

本分析使用 IBM 提供的 Telco Customer Churn 数据集,该数据集模拟了一家电信公司的客户信息。原始数据包含 7,043 条客户记录,每条记录包含 21 个字段,涵盖客户的人口统计学特征(如性别、年龄)、服务使用情况(如电话服务、互联网服务、在线安全等)、合同类型以及客户流失状态。

1.2 数据清洗与筛选

为了聚焦于高流失风险客户群体,对原始数据进行了以下筛选和转换:

步骤操作说明
标签转换churnString 列(值为"Yes"/"No")转换为数值型 churn 列(1=流失,0=未流失)
合同类型筛选只保留合同类型为 Month-to-month(月付合同)的客户
服务类型筛选只保留使用互联网服务(internetService != "No")的客户
✅ 清洗结果:原始数据 7,043 行 → 清洗后数据 3,351 行(筛选条件:月付合同 + 有互联网服务)。

1.3 清洗后数据概览

下表展示了清洗后数据的前 5 行示例:

customerIDgendertenurecontractinternetServicechurn
7590-VHVEGFemale1.0Month-to-monthDSL0
3668-QPYBKMale2.0Month-to-monthDSL1
9237-HQITUFemale2.0Month-to-monthFiber optic1
9305-CDSKCFemale8.0Month-to-monthFiber optic1
1452-KIOVKMale22.0Month-to-monthFiber optic0

1.4 生存分析关键变量统计

生存分析需要两个核心变量:生存时间 (tenure):客户在网时长(月);事件指示符 (churn):1 表示已流失,0 表示删失(仍为活跃用户)。下表展示了这两个关键变量的描述性统计:

统计量tenure(月)churn(流失标识)
计数3,3513,351
均值19.430.464
标准差18.170.499
最小值1.00
最大值72.01

1.5 关键发现

📌 客户在网时长范围为 1 至 72 个月,平均在网时长约为 19.4 个月
📌 目标群体中,流失客户的占比为 46.4%(1,556/3,351),说明月付互联网客户群体流失率较高,具有分析价值。

数据存储:清洗后的数据已保存为 Parquet 格式,存储路径为:/data/proj_1/ibm_telco_data/silver

二、Kaplan-Meier 生存分析

2.1 整体生存函数估计

整体生存曲线
图1:整体生存曲线(Kaplan-Meier估计)

中位生存时间:34.0 个月 —— 50% 的月付互联网客户会在签约后的 34 个月内流失。换句话说,这类客户的"预期寿命"约为 3 年。

2.2 分组生存分析

2.2.1 性别分组

性别分组生存曲线
图2:性别分组生存曲线

Log-Rank 检验结果:p = 0.153 > 0.05,男性和女性的生存曲线无显著差异,性别不是影响客户流失时间的关键因素。

2.2.2 在线安全服务分组

在线安全分组生存曲线
图3:在线安全服务分组生存曲线

Log-Rank 检验结果:p < 0.001,使用在线安全服务的客户与未使用的客户之间存在极显著差异。从生存曲线可以看出,使用在线安全服务的客户生存概率明显更高。

2.3 所有分类变量的 Log-Rank 检验汇总

对 15 个分类变量逐一进行 Log-Rank 检验,结果汇总如下:

变量p值是否显著 (p<0.05)解读
gender0.153性别无显著影响
seniorCitizen0.723是否老年无显著影响
partner<0.001有伴侣的客户生存概率更高
dependents<0.001有家属的客户生存概率更高
phoneService0.194电话服务无显著影响
multipleLines<0.001多条线路有显著影响
internetService<0.001DSL 与光纤客户有显著差异
streamingTV<0.001流媒体电视有显著影响
streamingMovies<0.001流媒体电影有显著影响
onlineSecurity<0.001在线安全有极显著影响
onlineBackup<0.001在线备份有极显著影响
deviceProtection<0.001设备保护有显著影响
techSupport<0.001技术支持有显著影响
paperlessBilling0.004无纸化账单有显著影响
paymentMethod<0.001支付方式有显著影响

2.4 生存概率提取

以 DSL 互联网服务客户为例,提取其前 10 个月的生存概率:

时间(月)生存概率
01.000
10.903
20.864
30.835
40.811
50.794
60.784
70.776
80.768
90.751

解读:DSL 客户在第 1 个月末的生存概率约为 90.3%,即约 9.7% 的 DSL 客户会在第一个月内流失;到第 9 个月末,生存概率降至约 75.1%。

2.5 Kaplan-Meier 分析小结

🎯 整体中位生存时间:34 个月,50% 客户会在此之前流失。
🎯 最强影响因素:onlineSecurity、onlineBackup、techSupport(p 值极小)。
🎯 无显著影响因素:gender、seniorCitizen、phoneService。
🎯 业务启示:增值服务(在线安全、备份、技术支持)显著延长客户生命周期。

三、Cox 比例风险模型

3.1 模型概述

Cox 比例风险模型是一种半参数回归模型,用于分析多个变量对生存时间的联合影响。本模型纳入的变量包括:dependents_YesinternetService_DSLonlineBackup_YestechSupport_Yes

3.2 模型拟合结果

变量coefHR (exp(coef))HR 95% CIp值显著性
dependents_Yes-0.330.72(0.63, 0.83)<0.005
internetService_DSL-0.220.80(0.72, 0.90)<0.005
onlineBackup_Yes-0.780.46(0.41, 0.52)<0.005
techSupport_Yes-0.640.53(0.46, 0.61)<0.005

模型整体评价指标:Concordance 指数 = 0.64(中等区分能力),Partial AIC = 22639.90,Log-likelihood ratio test = 337.77 (df=4),p < 0.001。

风险比森林图
图4:Cox模型风险比森林图

3.3 变量解读

风险比 HR < 1 表示降低流失风险(保护因素)。

📌 dependents_Yes:HR=0.72 → 有家属的客户流失风险降低 28%
📌 internetService_DSL:HR=0.80 → DSL 用户流失风险比光纤用户低 20%
📌 onlineBackup_Yes:HR=0.46 → 有在线备份的客户流失风险降低 54%(最强的保护因素)
📌 techSupport_Yes:HR=0.53 → 有技术支持的客户流失风险降低 47%

3.4 比例风险假设检验

方法1:统计检验(Schoenfeld 残差检验)

变量test_statisticp值是否违反假设
dependents_Yes1.480.22
internetService_DSL20.98<0.001
onlineBackup_Yes17.80<0.001
techSupport_Yes8.09<0.001

结论dependents_Yes 满足比例风险假设;internetService_DSLonlineBackup_YestechSupport_Yes 违反假设,建议采用分层策略。

方法2:Schoenfeld 残差图

Schoenfeld残差图
图5:Schoenfeld残差图

方法3:Log-log Kaplan-Meier 图

onlineBackup
onlineBackup
dependents
dependents
internetService
internetService
techSupport
techSupport

3.5 Cox 模型小结

显著保护因素:onlineBackup(HR=0.46)、techSupport(HR=0.53)、dependents(HR=0.72)、DSL(HR=0.80)
业务启示:增值服务(在线备份、技术支持)是降低客户流失的最有效手段;有家属的客户黏性更强;DSL 用户流失风险低于光纤用户。

四、加速失效时间模型 (AFT)

4.1 模型概述

加速失效时间模型是一种参数模型,采用 Log-Logistic 分布。在 AFT 模型中,exp(coef) > 1 表示生存时间延长(保护因素),exp(coef) < 1 表示生存时间缩短。模型纳入了 partner、multipleLines、internetService_DSL、onlineSecurity、onlineBackup、deviceProtection、techSupport 以及两种自动支付方式。

4.2 模型拟合结果

整体模型评价:样本量 3,351,流失事件数 1,556,Concordance = 0.73,AIC = 13698.72,Log-likelihood ratio test = 877.49 (df=9),p < 0.001。

变量coefexp(coef)95% CIp值
partner_Yes0.681.97(1.73,2.24)<0.005
multipleLines_Yes0.661.94(1.70,2.22)<0.005
internetService_DSL0.381.47(1.26,1.71)<0.005
onlineSecurity_Yes0.862.37(2.00,2.80)<0.005
onlineBackup_Yes0.812.25(1.97,2.59)<0.005
deviceProtection_Yes0.481.62(1.41,1.86)<0.005
techSupport_Yes0.691.99(1.68,2.36)<0.005
paymentMethod_Bank transfer0.742.10(1.75,2.51)<0.005
paymentMethod_Credit card0.802.22(1.84,2.68)<0.005
AFT模型系数图
图6:AFT模型系数图

4.3 变量解读

onlineSecurity_Yes:2.37 倍 → 生存时间延长 2.37 倍
onlineBackup_Yes:2.25 倍 → 生存时间延长 2.25 倍
paymentMethod_Credit card:2.22 倍 → 生存时间延长 2.22 倍
techSupport_Yes:1.99 倍 → 生存时间延长 1.99 倍
partner_Yes:1.97 倍 → 生存时间延长 1.97 倍

与 Cox 模型对比:两个模型结论完全一致,所有增值服务均为保护因素,能显著延长客户生命周期。

4.4 模型假设检验(Log-Odds 图)

partner
partner
multipleLines
multipleLines
internetService
internetService
onlineSecurity
onlineSecurity
onlineBackup
onlineBackup
deviceProtection
deviceProtection
techSupport
techSupport
paymentMethod
paymentMethod

假设检验结论:分布假设(直线性)满足;比例优势假设(平行性)不满足——部分曲线存在交叉,与 Cox 模型比例风险违反一致。

4.5 关于中位生存时间的说明

模型输出中位生存时间为 135.51 个月(约 11.3 年),但需谨慎解读:由于 Log-Logistic 分布假设 + 高删失率(53.5%)导致模型外推。Kaplan-Meier 估计的 34 个月更符合实际。因此中位生存时间绝对值以 KM 估计为准,AFT 主要用于评估变量相对效应。

4.6 AFT 模型小结

📊 模型区分能力 Concordance = 0.73,优于 Cox 模型(0.64)
📊 所有 9 个变量均显著(p < 0.005),最强保护因素:onlineSecurity(2.37 倍)、onlineBackup(2.25 倍)
📊 业务启示:优先推广在线安全和在线备份服务,投入产出比最高。

五、客户生命周期价值 (CLV) 分析

5.1 概述

基于 Cox 模型,假设月利润 30 元,折现率 10%/年,基准客户(所有协变量为 0:无家属、非DSL、无在线备份、无技术支持、无伴侣)。

5.2 生存概率预测(前25个月)

月份生存概率月利润(元)预期月利润净现值累计NPV
11.003030.0030.0030.00
20.873026.1025.8855.88
30.813024.3023.9079.78
40.773023.1022.53102.31
50.743022.2021.48123.79
60.713021.3020.43144.22
70.693020.7019.69163.91
80.673020.1018.97182.88
90.653019.5018.25201.13
……(中间月份完整保留)……
120.593017.7016.16251.40
180.503015.0013.03336.31
240.433012.9010.66405.44
投资回收期
图7:投资回收期分析
生存概率曲线
图8:基准客户生存概率曲线

5.3 CLV 分析小结

💰 基准客户 12 个月 CLV = 251.40 元;24 个月 CLV = 405.44 元
💰 投资回收期:约 10‑11 个月(假设 CAC=200 元)
💰 业务建议:客户获取成本应控制在 250 元以内,针对不同客户档案(如有家属、有在线备份)重新计算 CLV,CLV/CAC > 3 作为优质客户筛选标准。

📌 总结与业务策略


📁 完整代码、图表及交互附录见 GitHub 仓库 | 基于 lifelines 框架实现 | 数据来源:IBM Telco Customer Churn