广义优势率模型下区间删失数据的回归分析和变量选择

许洋¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

区间删失数据作为一种特殊的失效时间数据, 广泛存在于医学、人口学、经济学等科学领域中(Sun, 2006). 区间删失数据通常是指无法精确地观测到感兴趣的失效时间T, 而只能观测到其发生在某个时间区间内. 区间删失数据一般主要分为Ⅰ型区间删失数据和Ⅱ型区间删失数据. 其中,Ⅰ型区间删失数据也被称为现状数据, 是指实验中的每个个体只能被观测一次, 观测到的信息为该事件发生的时间是否大于观测时间.Ⅱ型区间删失数据是指感兴趣的事件发生在某个有限的时间区间中. 在实践中,往往会存在大量的协变量且并非所有协变量对生存结果有显著影响,因此需要进行变量选择.本文,我们基于一种较为宽泛的模型―广义优势率模型,该模型包含了比例风险模型和比例优势模型等一些常见的半参数模型, 研究区间删失数据的回归分析和变量选择问题. 本文的研究内容主要包括三个方面, 分别为广义优势率混合治愈模型下区间删失数据的变量选择、部分线性可加的广义优势率模型下高维区间删失数据的变量选择和广义优势率脆弱模型下相依现状数据的回归分析. 首先, 在失效时间研究中, 通常使用带有惩罚函数的方法来处理存在大量协变量或风险因素的问题.同时,试验总体有时可能存在治愈子组,这意味着一部分研究个体对感兴趣的失效事件是不敏感或免疫的. 在这种情况下, 传统的生存方法或模型便不再适用, 由于它们假设所有实验个体最终都会经历感兴趣的失效事件. 为了处理以上情形,第二章提出了用于变量选择的广义优势率混合治愈模型方法. 在估计过程中,提出基于单调样条的Sieve方法来对模型中的未知函数进行估计.在方法的实施中,给出一种基于Gamma-Poisson潜变量的惩罚EM算法来得到模型中参数的惩罚极大似然估计. 此外, 从理论上证明了回归系数估计的 Oracle 性质, 并通过大量的数值模拟验证了所提模型和变量选择方法的合理性. 最后, 将提出的方法应用于尼日利亚人口与健康调查的实际数据中,得到了一些有意义的结果. 其次,关于高维区间删失数据的变量选择问题已经被许多学者研究(Wu and Cook (2015), Scolas et al. (2016), Zhao et al. (2020) 和 Li et al. (2020)). 然而, 上述工作都假定协变量对感兴趣的失效时间是线性关系的. 事实上, 协变量对失效时间的影响可能是非线性关系的, 因此部分线性模型最近获得了比较多的关注, 部分线性模型结合了非参数模型的灵活性以及参数模型的简单性和易解释性. 为此, 第三章研究了基于部分线性可加的广义优势率模型下高维区间删失数据的变量选择问题. 其中, 考虑了一些常用的惩罚函数,具体包括LASSO, SCAD, SICA, SELO, MCP和BAR惩罚函数. 关于惩罚对数似然函数的极大化问题,首先提出了基于伯恩斯坦多项式的Sieve极大似然估计方法, 克服了模型中非参数部分的计算困难问题. 其次提出一种快速循环坐标下降算法交替估计感兴趣的参数. 此外, 讨论了所得估计量的渐近性质并通过大量的数值模拟验证了估计的效果和精确性. 最后, 将提出的模型和方法用于拟合阿尔兹海默症的实际数据,得到了一些合理的结果. 最后,许多学者研究了现状数据的回归分析问题.例如, Huang (1996), Rossini and Tsiatis (1996)和Lin et al. (1998)等人, 他们都假设感兴趣的失效时间和观测时间是独立的. 在实践中,感兴趣的失效时间和观测时间可能存在某种相关性,此时产生的现状数据称为相依现状数据. 为了刻画两者的相依性,现有的方法一般分为两类: copula模型方法和脆弱模型方法. 然而, copula 模型方法的一个局限性为处理相依现状数据时, 需要假设 copula 函数中的相关系数是已知的. 因此, 第四章考虑了广义优势率脆弱模型下相依现状数据的回归分析问题.为了解决这个问题,采用了Sieve极大似然估计的思想并提出一种基于 Gamma-Poisson 数据扩充的 EM 算法来得到参数估计. 之后,讨论了估计量包括Oracle性质在内的渐近性质并通过模拟实验验证了所提方法的合理性. 最后,将所提模型和方法应用于老鼠肝脏肿瘤的实际分析中.

关键词

区间删失数据/回归分析/变量选择/广义优势率模型

引用本文复制引用

授予学位

博士

学科专业

统计学

导师

赵世舜

学位年度

2022

学位授予单位

吉林大学

语种

中文

中图分类号

段落导航