更新时间:2022-06-28 来源:黑马程序员 浏览量:
数据清洗技术是提高数据质量的有效方法。这项技术是一个较新的研究领域,对大数据集的清洗工作需要花费很长的时间。由于不同的应用领域对数据清洗有不同的解释,因此数据清洗直到现在都没有一个公认、统一的定义。数据清洗主要应用于3个领域,即数据仓库领域、数据挖掘领域以及数据质量管理领域。
在数据仓库领域中,当多个数据库合并时或多个数据源进行集成时,都需要进行数据清洗。例如,当同一个实体的记录在不同数据源中以不同的表示格式或错误表示的情况下,合并后的数据仓库中就会出现重复的记录,数据清洗的程序就需要识别出重复的记录并消除重复的记录,也就是所谓的数据合并或清除(Merge/Purge)问题。在数据仓库环境中,数据清洗主要包括数据的清洗和结构的转换两个过程。
在数据挖掘领域中,数据清洗是数据进行预处理过程的第一个步骤。在数据预处理应用中,数据清洗的主要任务是提高数据的可用性,即去除噪声、无关数据以及空值等,并考虑数据的动态变化。在字符分类问题中,通过使用机器学习的技术进行数据清洗,即使用特定算法检测数据库对缺失和错误的数据予以修改。
在数据质量管理领域中,数据质量管理是一个学术界和商业界都感兴趣的领域。数据质量管理主要用于解决信息系统中的数据质量及集成问题。在该领域中,数据清洗从数据质量的角度出发,把数据清洗过程和数据生命周期集成在一起,对数据的正确性进行检查并提高数据质量。
【AI设计】北京143期毕业仅36天,全员拿下高薪offer!黑马AI设计连续6期100%高薪就业
2025-09-19【跨境电商运营】深圳跨境电商运营毕业22个工作日,就业率91%+,最高薪资达13500元
2025-09-19【AI运维】郑州运维1期就业班,毕业14个工作日,班级93%同学已拿到Offer, 一线均薪资 1W+
2025-09-19【AI鸿蒙开发】上海校区AI鸿蒙开发4期5期,距离毕业21天,就业率91%,平均薪资14046元
2025-09-19【AI大模型开发-Python】毕业33个工作日,就业率已达到94.55%,班均薪资20763元
2025-09-19【AI智能应用开发-Java】毕业5个工作日就业率98.18%,最高薪资 17.5k*13薪,全班平均薪资9244元
2025-09-19