信用风险Logit回归结果与多元线性回归分析

来源：学术堂作者：韩老师
发布于：2016-04-21 共6520字

本篇论文目录导航：

　　【题目】中国网络保险信用风险的控制研究
　　【第一章】网络保险信用风险防控分析绪论
　　【第二章】网络保险信用风险的影响因素及其作用机理
　　【第三章】信用风险评估方法及其比较
　　【4.1 - 4.3】网络保险信用风险度量模型的构建
　　【4.4 4.5】信用风险Logit回归结果与多元线性回归分析
　　【结论/参考文献】网络保险信用风险的管理研究结论与参考文献
　　

　　4.4 实证分析

　　4.4.1 Logit 回归结果分析

　　（1）表 4-1 为因变量为投保人在网上购买网络保险产品时是否存在个人信息造假的逻辑回归。
　　
　　根据表中的结果显示，LR chi2（7）=166.24（括号内为自由度）同时 Prob >

　　chi2=0.0000,这说明模型中除截距外所有系数都等于 0 的概率概率为 0.0000,小于0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。该模型中的七个变量对因变量确有显着都影响。在渐进 z（标准正态）检验上，我们可以看到七个变量中除去支出变量不显着以外（P>|z|为 0.102 其绝对值高于 10%），其余各项都是显着的，其中最显着是收入状况，其概率小于 1%,其余各项中显着性排名依次是储蓄、受教育程度、年龄、婚姻状况这四项的渐进 z 检验概率小于 5%高于 1%,而性别则处于5%到 10%都区间内。

　　从影响方向来看年龄，储蓄，收入，受教育程度，婚姻状况都与投保人在购买网络保险产品信息造假的倾向呈正负关关系，即年龄越大造假的倾向越小、储蓄越多个人信息造假的倾向越小、收入越高个人信息造假的倾向越小，受教育程度越高个人信息造假的倾向越低，婚姻越稳定的个人信息造假的倾向越小，而性别上，则是女性更倾向在购买网络保险产品时容易发生信息造假。最终拟合结果为：L1a=-3.716414-0.0450963*age-0.88263*sexual-0.0479127*marriage-0.0243411*education-0.0614644*saving-0.0947897*income+0.0200925*spending其中L1a代表投保人在互联网上购买网络保险产品发生信息造假的logit预测值，或称为对数发生比（log odds）
　　
　　（2）表 4-2 为因变量为投保人在购买网络保险产品时是否存在标的物造假的逻辑回归。
　　
　　根据表中的结果显示，LR chi2（7）=171.06（括号内为自由度）同时 Prob >chi2=0.0000,这说明模型中除截距外所有系数都等于 0 的概率概率为 0.0000,小于0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。该模型中都七个变量对因变量确实都有影响。在渐进 z（标准正态）检验上，我们可以看到七个变量中除去性别变量不显着以外（P>|z|为-0.46 其绝对值高于 10%），其余各项都是显着的，其中最显着都是受教育程度，其余各项中显着性排名依次是收入、储蓄、年龄、婚姻，这四项的渐进 z 检验概率小于 5%高于 1%,而支出则处于 5%到 10%都区间内。

　　从影响方向来看年龄、受教育程度、储蓄、收入、支出都与投保人在购买网络保险产品时标的物造假的倾向成负相关，而婚姻状况则是单身的更倾向于发生信用问题。最终拟合结果为：L2a=-3.773392-0.0070592*age+0.928579*sexual+0.079828*marriage-0.515365*education-0.0721864*saving-0.0829566*income-0.0070758*spending其中 L2a 代表投保人在网上进行投保时对保险标的进行造假倾向的 logit 预测值，或称为对数发生比（log odds）。

　　表 4-3 因变量为投保人在网上投保人身保险产品时是否存在身体健康信息的造假的逻辑回归。
　　
　　根据表中的结果显示，LR chi2（7）=35.31（括号内为自由度）同时 Prob >chi2=0.0000,这说明模型中除截距外所有系数都等于 0 的概率概率为 0.0000,小于0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。该模型中都七个变量对因变量确有显着都影响。在渐进 z（标准正态）检验上，我们可以看到七个变量中除去性别和受教育程度这俩变量不显着以外（P>|z|分别为-0.401 和-0.213 其绝对值高于10%），其余五项都是显着的，其中最显着都是年龄，其概率小于 1%,其余各项中显着性排名依次是收入、储蓄、支出，这三项的渐进 z 检验概率小于 5%高于 1%,而婚姻则处于 5%到 10%都区间内。

　　从影响方向来看储蓄、收入，支出都与投保人在网上购买人身保险产品时是否存在对自身的健康状况进行隐瞒的倾向呈正相关关系，储蓄越多、收入越高、支出越多则投保人越不倾向于隐瞒自身的健康状况。而投保人的年龄越大则越容易隐瞒自身的健康情况，单身的投保人要比有家庭的更容易隐瞒自身的健康状况。最终拟合结果为：L3a=-4.23826+.0047362*age-0.3639994*sexual+0.4503315*marriage-0.679312*education-0.0521745*saving-0.3404608*income-0.1433412*spending其中 L3a 代表投保人在网上购买人身保险产品时倾向于隐瞒自身健康状况的logit 预测值，或称为对数发生比（log odds）
　　
　　（4）表 4-4 因变量为投保人在互联网上投保后是否存在故意制造保险事故的逻辑回归。
　　
　　根据表中的结果显示，LR chi2（7）=43.21（括号内为自由度）同时 Prob >chi2=0.0000,这说明模型中除截距外所有系数都等于 0 的概率概率为 0.0000,小于0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。该模型中都七个变量对因变量确有显着都影响。在渐进 z（标准正态）检验上，我们可以看到七个变量中除去性别和受教育程度这俩变量不显着以外（P>|z|分别为-0.179 和-0.228 其绝对值高于10%），其余五项都是显着的，其中最显着都是收入和储蓄，其概率小于 1%,其余各项中显着性排名依次是年龄和支出，这两项的渐进 z 检验概率小于 5%高于 1%而婚姻则处于 5%到 10%都区间内。

　　从影响方向来看储蓄，收入，支出都与投保人在互联网上投保后故意制造保险事故的意向呈负相关关系，即收入和储蓄越高、支出越多，投保人故意制造保险事故的倾向越低，而在年龄方面，年龄越大就越倾向于制造保险事故来骗保，在婚姻方面，则是已婚更倾向制造保险事故来骗保。最终拟合结果为：L4a=-2.241328+0.00216*age-0.2142557*sexual+0.0823456*marriage-0.056661*education-0.019837*saving-0.1567165*income-0.00134*spending其中 L4a 代表投保人在互联网上投保后存在故意制造保险事故的 logit 预测值，或称为对数发生比（log odds）
　　
　　（5）表 4-5 因变量为投保人是否存在内外勾结保险代理人骗取赔偿的逻辑回归。
　　
　　根据表中的结果显示，LR chi2（7）=83.95（括号内为自由度）同时 Prob >chi2=0.0000,这说明模型中除截距外所有系数都等于 0 的概率概率为 0.0000,小于0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。该模型中都七个变量对因变量确有显着都影响。在渐进 z（标准正态）检验上，我们可以看到七个变量中除去受各项都是显着的，其中最显着都是性别和收入，其概率小于 1%,其余各项中显着性排名依次是储蓄和婚姻状况，这两项的渐进 z 检验概率小于 5%高于 1%,而支出则处于 5%到 10%都区间内。

　　从影响方向来看储蓄，收入，支出都与投保人勾结保险代理人骗取赔偿的意向呈负相关关系。而对性别来说，男性更倾向于勾结保险公司内部人员来骗取赔偿，对婚姻状况来说单身的人更容易与保险公司的内部人员勾结来骗取赔偿。最终拟合结果为：L5a=-2.634664+0.0143307*age+0.0511331*sexual-0.0334434*marriage-0.0166531*education-0.0234182*saving-0.0093428*income-0.0091225*spending其中 L5a 代表投保人内外勾结保险代理人骗取赔偿倾向的 logit 预测值，或称为对数发生比（log odds）
　　
　　（6）表 4-6 因变量为在保险事故发生后为是否存在以他人之名在网上骗取赔偿的逻辑回归。
　　
　　根据表中的结果显示，LR chi2（7）=59.13（括号内为自由度）同时 Prob >chi2=0.0000,这说明模型中除截距外所有系数都等于 0 的概率概率为 0.0000,小于0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。该模型中都七个变量对因变量确有显着都影响。在渐进 z（标准正态）检验上，我们可以看到七个变量中除去性别和受教育程度不显着以外（P>|z|为 0.876 和 0.523 其绝对值高于 10%），其余四项都是显着的，其中最显着的是支出和年龄，其概率小于 1%,储蓄的渐进 z 检验概率小于 5%高于 1%,而婚姻和收入则处于 5%到 10%都区间内。从影响方向来看储蓄，收入，支出都与投保人在保险事故发生后是以他人之名在网上骗取赔偿倾向呈负相关关系，即收入越高、储蓄越多、支出越多则投保人在保险事故发生后以他人之名在网上骗取赔偿的倾向越低，相对于年龄来说，年龄越低越容易骗取赔偿，对婚姻状况来说，单身的投保人更倾向以他人之名在网上骗取赔偿。最终拟合结果为L4a=-3.342158-0.045669*age+0.127426*sexual-0.0633214*marriage+0.456655*education-0.0421255*saving-0.0344566*income-0.0063327*spending其中 L4a 代表在保险事故发生后以他人之名在网上骗取赔偿的 logit 预测值，或称为对数发生比（log odds）
　　
　　（7）表 4-7 因变量为投保人是否存在其他网络保险合同违约的逻辑回归。
　　
　　根据表中的结果显示，LR chi2（7）=79.34（括号内为自由度）同时 Prob >chi2=0.0000,这说明模型中除截距外所有系数都等于 0 的概率概率为 0.0000,小于0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。该模型中都七个变量对因变量确有显着都影响。在渐进 z（标准正态）检验上，我们可以看到七个变量中除去性别、年龄、受教育程度不显着以外（P>|z|为 0.127,0.353,0.198 其绝对值高于 10%），其余项都是显着的，其中最显着都是收入，其概率小于 1%,储蓄和婚姻和的渐进 z检验概率小于 5%高于 1%,而支出则处于 5%到 10%都区间内。

　　从影响方向来看储蓄，收入，支出都与投保人存在其他网络保险合同的违约呈负相关关系，而对于婚姻状况来说，单身的人在网络保险合同中容易发生违约。最终拟合结果为：L7a=-.9176595+0.0146345*age-0.0632454*sexual+0.0776785*marriage-0.0282197*education-0.032237*saving-0.0667154*income-0.0712916*spending其中 L7a 代表在其他网络保险合同违约的 logit 预测值，或称为对数发生比（logodds）
　　
　　4.4.2 多元线性回归分析

　　在对投保人在互联网上进行投保时发生信用风险的相关影响上，我们更多的是关注与其影响方向，而非具体数值的大小，所以对于 R 方等因素我们不做深入探究只是看 P 值是否处于临界值范围内。

　　（1）表 4-8 因变量为投保人在网上购买网络保险产品时存在个人信息造假数量的多元线性回归。根据表中的结果显示，Prob > F=0.0000,这说明模型中除截距外所有系数都等于0 的概率概率为 0.0000,小于 0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。该模型中都七个变量对因变量确有显着都影响。在 t 检验上，我们可以看到七个变量中除去储蓄不显着以外（P>|t|为 0.108 绝对值高于 10%），其余六项都是显着的，故可以得出表达式为：1a=0.0034556*ge+0.1677293*sexual+0.0714397*marriage+0.0022243*education+0.1605561*saving+0.083379*income+0.0214202*spending-0.0457746
　　
　　根据表达式我们可以看出，除了支出和年龄之外的其余 5 项因素都与投保人在网上购买网络保险产品时个人信息造假成负相关关系，而年龄则是低龄人个人信息越不可能造假，支出则是支出的越多个人信息越不可能造假。

　　（2）表4-9因变量为投保人在购买网络保险产品时标的物造假人数的多元线性回归。根据表中的结果显示，Prob > F=0.0000,这说明模型中除截距外所有系数都等于0 的概率概率为 0.0000,小于 0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。

　　该模型中都七个变量对因变量确有显着都影响。在 t 检验上，我们可以看到七个变量中除去性别和收入不显着以外，其余五项都是显着的，故可以得出表达式为：2a=-0.0000115*age-0.1006619*sexual-0.0045674*marriage-0.012242*education+0.1344697*saving-0.0622661*income-0.0004128*spending+0.3744574
　　
　　根据表达式我们可以看出，除了和储蓄之外的其余几个因素都与投保人在购买网络保险产品时标的物造假成负相关关系。

　　（3）表 4-10 因变量为投保人在网上投保人身保险产品时身体健康信息造假人数的多元线性回归。根据表中的结果显示，Prob > F=0.0000,这说明模型中除截距外所有系数都等于0 的概率概率为 0.0000,小于 0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。

　　该模型中都七个变量对因变量确有显着都影响。在 t 检验上，我们可以看到七个变量中除去性别不显着以外，其余六项都是显着的，故可以得出表达式为：3a=-0.0008567*age+0.054413*sexual+0.022248*marriage-0.0082257*education-0.02369*saving-0.0071155*income+0.0024466*spending+0.132264
　　
　　根据表达式我们可以看出，除了性别、婚姻和支出之外的其余 4 个因素都与投保人在网上投保人身保险产品时身体健康信息造假成负相关关系。

　　（4）表 4-11 因变量为投保人在互联网上投保后故意制造保险事故人数的多元线性回归。根据表中的结果显示，Prob > F=0.0000,这说明模型中除截距外所有系数都等于0 的概率概率为 0.0000,小于 0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。

　　该模型中的七个变量对因变量确有显着影响。在 t 检验上，我们可以看到七个变量中除去性别和婚姻状况不显着以外，其余六项都是显着的，故可以得出表达式为：4a=-0.000833*age+0.125677*sexual+0.0177485*marriage+0.018675*education-0.0381145*saving-0.013379*income-0.0000915*spending+0.1071456
　　
　　根据表达式我们可以看出，除了性别、婚姻和受教育程度之外的其余 4 因素都与投保人在互联网上投保后故意制造保险事故成负相关关系。

　　（5）表4-12因变量为投保人内外勾结保险代理人骗取赔偿人数的多元线性回归。根据表中的结果显示，Prob > F=0.0000,这说明模型中除截距外所有系数都等于0 的概率概率为 0.0000,小于 0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。该模型中都七个变量对因变量确有显着都影响。在 t 检验上，我们可以看到七个变量中除去性别和婚姻不显着以外，其余五项都是显着的，故可以得出表达式为：5a=-0.1005434*age+0.012448*sexual+0.0078765*marriage+0.0211344*education-0.322271*saving-0.0533293*income-0.0061134*spending-0.1144274
　　
　　根据表达式我们可以看出，除了性别、婚姻和受教育程度之外的其余 4 因素都与投保人内外勾结保险代理人骗取赔偿成负相关关系。

　　（6）表 4-12 因变量为在保险事故发生后以他人之名在网上骗取赔偿人数的多元线性回归。根据表中的结果显示，Prob > F=0.0000,这说明模型中除截距外所有系数都等于0 的概率概率为 0.0000,小于 0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。

　　在 t 检验上我们可以看到，该模型中除了年龄不显着以外，其余六个都七个变量对因变量确有显着都影响。故可以得出表达式为：6a=-0.0017426*age+0.032001*sexual-0.0124421*marriage-0.0226798*education-0.156371*saving-0.0134272*income-0.0064436*spending+0.0279382
　　
　　根据表达式我们可以看出，除了年龄不显着及婚姻不显着，其余的五因素都与在保险事故发生后以他人之名在网上骗取赔偿成负相关关系。

　　（7）表 4-14 因变量为存在其他网络保险合同的违约人数的多元线性回归。根据表中的结果显示，Prob > F=0.0000,这说明模型中除截距外所有系数都等于0 的概率概率为 0.0000,小于 0.05 的临界值，该概率足够小，从而虚无假设遭到拒绝。

　　该模型中都七个变量对因变量确有显着都影响。在 t 检验上，我们可以看到七个变量中除去受教育程度和支出不显着以外，其余五项都是显着的，故可以得出表达式为：7a=-0.0177364*age+0.3445763*sexual-0.2664339*marriage-0.067735*education-0.1428714*saving-0.2336704*income+0.0244934*spending+1.955458
　　
　　根据表达式我们可以看出，年龄、收入、储蓄都与投保人存在其他网络保险合同的违约成负相关关系，而相对于婚姻来说，单身的人更容易存在其他网络保险合同上的违约，性别来说，男性更容易违约。

　　4.5 本章小结

　　在本章中，根据网络保险信用风险的特点，选取了七个比较重要的因变量和七个比较重要的自变量，利用所获得的数据构建了一个较为适合网络保险信用风险度量的logit 模型，分别对这些因变量采取了逻辑回归分析和多元线性回归分析，结果发现，年龄、收入、储蓄都与投保人存在其他网络保险信用风险成负相关关系，而相对于婚姻来说，单身的人更容易存在其他网络保险合同上的违约，性别来说，男性更容易违约。而投保人的受教育程度和支出情况对网络保险信用风险的效应并不显着。最后说明一下，本章中的数据来源主要是来自某保险公司内部的真实历史数据。

返回本篇论文导航

相关内容推荐