大规模数据挖掘中的数据流管理
Management of Data Streams for Large-scale Data Mining作者机构:美国电话电报公司实验室-研究所美国新泽西州弗伦翰公园079320971 清华大学计算机科学与技术系北京100084
出 版 物:《中国科技资源导刊》 (China Science & Technology Resources Review)
年 卷 期:2008年第40卷第6期
页 面:30-38页
学科分类:12[管理学] 1204[管理学-公共管理] 03[法学] 0306[法学-公安学]
摘 要:在企业环境中,管理数据流或者实时数据更新是任何数据挖掘操作的一个主要挑战。无论是数据还是元数据,都要确保数据流的稳定、正确、可验。在这种环境下,实时数据更新很复杂,且数据量大而难懂。管理频繁变化的数据和元数据对企业是巨大的挑战。本文阐述了在管理企业数据的任务中的技术问题,并提出了一种解决方法。这种解决方法可以结合多个领域里的知识,如工程技术和统计学,来理解和标准化企业挖掘的准备工作,以使信息采集和质量管理自动化。