数据同化是指在一个数值预报模式中,利用观测资料和短期预报结果的统计结合起来为数值预报提供初始场(称之为分析状态)。它是基于对动力学模型和观测的认知,将各种观测信息融合到基于物理规律的模式当中去的一种方法。但在实际问题中,由于模型误差、观测资料不均匀和观测误差等诸多不利因素,这往往会导致预报系统的不准确,从而就使得数据同化有着非常重要的实际意义。数据同化的结果在很大程度上取决于对预报误差方差矩阵和量测误差方差矩阵的正确估计。集合卡尔曼滤波是一个常用的数据同化方法,它针对非线性的预报算子和观测算子,产生了一个集合预报,使得集合中的成员与真实状态同概率分布,从而利用预报集合的样本方差矩阵来估计预报误差方差矩阵。但由于集合数的限制和模型误差等诸多方面的原因,往往会导致对预报误差方差矩阵的较低估计,这可能会导致分析状态排斥观测信息甚至滤波器的退化。常用的改进就是对预报误差方差矩阵的膨胀调整,基于此提出了几种估计膨胀因子的方法。 ⑴膨胀因子的极大似然估计方法。基于Dee等提出的用极大似然方法来估计预报误差方差矩阵,将X.Zheng和Liang等通过新息统计量的似然函数来估计膨胀因子的方法推广到了观测算子为切线性时的情形。在给定预报状态的情形下,新息统计量近似的服从正态分布。基于此提出了两种算法,分别为使用观测算子的切线性算子和观测算子本身来表示新息统计量的似然函数。相比于其他方法,这种方法可以在量测误差方差矩阵不正确的情况下,在一个同化过程中可以引入两个膨胀因子分别调整预报误差方差矩阵和量测误差方差矩阵,并且同时来估计这两个膨胀因子。 ⑵矩估计和二阶最小二乘估计方法。将Li等的使用观测算子的切线性算子和新息统计量做矩估计的方法,推广到了使用观测算子的二阶导数,这样可以避免对观测算子的切线性限制。另外,将L.Wang的在回归分析中的二阶最小二乘估计方法用于估计这里的膨胀因子,这样做有两个好处:其一,如果量测误差方差矩阵是正确的,只需要解一个一阶方程(使用切线性算子)或者二阶方程(将观测算子展开到二阶导数)来估计预报误差方差矩阵的膨胀因子,其计算量很小;其二,如果量测误差方差矩阵不正确,同样可以在一个同化过程中一起来估计分别调整预报误差方差矩阵和量测误差方差矩阵的两个两个膨胀因子。并且,对非线性观测算子展开的项数越多,其同化结果越好。如果在实际问题中,切线性算子和非线性观测算子的二阶导数不易求得,还针对这两种估计方法提出了相应的直接应用非线性观测算子本身的算法。 ⑶广义交叉验证方法。将G.Wahba等的交叉验证的思想用于估计膨胀因子,推导出了相应的广义交叉验证得分函数,并且证明了这种方法在无偏风险估计中是最优的。另外,讨论了在膨胀调整前后分析状态对预报状态和观测的敏感性,指出分析状态对观测的影响矩阵就是广义交叉验证得分函数中的影响矩阵。说明了通过对误差方差矩阵的膨胀调整,可以提高分析状态对观测的敏感性,在一定程度上克服了集合卡尔曼滤波本身对预报误差方差矩阵的较低估计而引起的不利影响。 ⑷通过Lorenz-96模型和二维浅水方程的模拟结果表明,我们提出的几种估计膨胀因子的方法可以大大地改进了集合卡尔曼滤波同化方法的估计精度。