统计模型验证

在统计学中,模型验证是确认统计模型的输出对于实际数据生成过程是可接受的任务。换句话说,模型验证是确认统计模型的输出对数据生成过程的输出有足够的保真度以实现调查目标的任务。

模型验证可以基于两种类型的数据:用于构建模型的数据和未用于构建的数据。基于第一种类型的验证通常涉及分析模型的拟合优度或分析残差是否看起来是随机的(即残差诊断)。基于第二种类型的验证通常涉及分析模型的预测性能在应用于相关的新数据时是否会出现不可忽略的恶化。

仅基于第一种类型(用于构建模型的数据)的验证通常是不充分的。图 1 显示了一个极端示例。该图显示了通过直线 + 噪声生成的数据(黑点)。该图还显示了一条曲线,该曲线是为完美拟合数据而选择的多项式。曲线的残差全部为零。因此,仅基于第一类数据的验证将得出该曲线是一个好的模型的结论。然而曲线显然是一个糟糕的模型:插值,特别是在 -5 和 -4 之间,往往会产生高度误导;此外,任何实质性的推断都是不好的。

It is a long established fact that a reader will be distracted by the readable content of a page when looking at its layout. The point of using Lorem Ipsum is that it has a more-or-less normal distribution of letters, as opposed to using 'Content here, content here', making it look like readable English.

You must log in to access this content
Iniciar con Google
Iniciar con Facebook
x