在有杆泵的数据库设计中,易出现空白数据、错误数据、重复数据等不规范现象和问题,需要经过统一的过滤和修正。因此数据预处理的主要目的是清洗错误的、有冲突的、重复的数据,避免数据的冗余或不统一,以利于数据搜索。
数据选择是为了目标而搜索和选择相关数据,其目的是辨别出待分析数据的集合,缩小处理范围,提高数据挖掘质量。例如,生产层岩性的数据值可按岩石深度分别赋予不同深度上的对应值;杆柱材质的数据值可按材质类型分别赋予不同的数值;等等。
为了确保数据挖掘系统在信息和文字识别中能够正确地分析和录入数据,应必须找出数据库中的空白数据、错误数据、重复数据等以便修改和完善。
另外,还要找出所有不完整的数据,例如高含蜡量的油井数据中有清防蜡时间,但却没有加药量和药剂类型;措施后的油井数据中有措施名称和新换管柱数据,但却没有措施后地面设备数据。上述情况下都会导致系统信息的不确定性,降低数据挖掘结果的可靠性。因此必须加以过滤或修改。