# 不匹配的数据集

# 1. 训练集和测试集的不同分布

# 1.1 一个例子

# 1.2 另一个例子

# 2. 不匹配数据下的误差分析

当数据不匹配时,training set 和 dev set 并不来自同一分布,这使得原来进行方差分析的方法变得不准确:无法确定误差是源于训练时的过拟合,还是源于数据分布问题。

# 2.1 training-dev 数据集

为了明晰上述问题,可以设立一个 train-dev 数据集,即从原 training set 中分一点出来做 dev set,以对模型进行方差分析。

# 2.2 误差分析

通过 training-dev set 的加入,就可以判断数据的不匹配程度。

有时会发现 dev error 比 training-dev error 表现还要好,有可能是因为目标任务中的数据比收集的 training set 更好识别。

# 3. 处理数据不匹配问题

并没有系统处理数据不匹配的方案,但有些方法可以尝试下。

# 3.1 数据分析

第一步,做数据分析,尝试了解训练集与开发测试集的具体差异。

然后通过收集或制造数据,使训练数据更接近开发集。

但在模拟数据时,要注意避免过拟合。

最后更新时间: 1/3/2022, 6:41:10 PM