如何从现有数据创建数据

April 20, 2026

科研论文快速阅读论文语义搜索AI赋能科研AI文献综述AI驱动科研工具

你可以通过应用数据增强 (Data Augmentation)、合成数据生成 (Synthetic Data Generation)、特征工程 (Feature Engineering) 和数据插补 (Data Imputation) 等技术，从现有数据集中创建新数据，以扩大样本量或提取更深入的见解。

无论你是试图训练机器学习模型、平衡倾斜的数据集，还是应对严格的隐私限制，从原始样本中生成新的数据点都是现代研究中的常规做法。以下是最有效的方法：

1. 数据增强 (Data Augmentation)

数据增强是指对现有数据进行微小且保留原有语义的修改，从而创建新的数据实例。在计算机视觉研究中，这可能意味着对现有图像进行旋转、裁剪或颜色变换。在自然语言处理 (NLP) 领域，它通常涉及同义词替换或回译 (Back-translation)。这种技术在增加数据集规模以及防止模型在小样本上发生过拟合 (Overfitting) 方面非常有效。

2. 合成数据生成 (Synthetic Data Generation)

与数据增强不同，合成数据生成会创建全新的人工数据点，这些数据点能够反映真实世界数据集的统计特征。诸如 SMOTE (合成少数类过采样技术) 等技术常用于平衡某一类别样本量不足的数据集。对于更复杂的需求，生成对抗网络 (GANs) 可以生成高度逼真的表格数据、文本或图像。这在医疗保健和金融领域尤为重要，因为在这些领域，共享原始数据会受到隐私法规的严格限制。

3. 特征工程 (Feature Engineering)

有时，创建数据仅仅意味着从你已有的信息中提取新变量。特征工程将现有的数据列进行组合或转换，使其成为更具预测能力的格式。例如，你可以利用现有的“身高”和“体重”数据创建一个新的“身体质量指数 (BMI)”变量，或者从原始时间戳中提取出具体的星期几。

4. 数据插补 (Data Imputation)

如果你的数据集存在大量缺失值，数据插补技术允许你根据现有的数据趋势来创建替代数据。与其直接丢弃不完整的行从而丢失有价值的信息，不如使用统计平均值（如均值或中位数）或预测算法（如 k-近邻算法，k-NN）来估算缺失值并填补空白。

寻找合适的方法

最佳的数据创建策略在很大程度上取决于你所在的学科和具体的研究目标。由于数据科学方法发展迅速，在海量文献中寻找合适的方法可能会让人感到无从下手。但是，WisPaper 的学术搜索 (Scholar Search) 能够理解你潜在的研究意图，为你过滤掉无关信息，帮助你快速查找论文，获取你所在领域中具体使用的数据转换技术细节。无论选择哪种方法，都请务必在方法 (Methodology) 部分清晰地记录你的数据生成步骤，以保持学术透明度，并确保你的实验具有可重复性 (Reproducibility)。

WisPaper

Screen 1,000 papers in just 5 minutes pinpoint the 20 that really matter

Your Scholar Search Agent | Read Less Get More