基于Map/Reduce并行编程模型的XBRL维度数据解析算法
An XBRL dimensional data parsing algorithm based on the Map /Reduce parallel programming model作者机构:中国科学院大学工程管理与信息技术学院北京100049
出 版 物:《中国科学院大学学报(中英文)》 (Journal of University of Chinese Academy of Sciences)
年 卷 期:2014年第31卷第1期
页 面:124-129页
学科分类:08[工学] 081203[工学-计算机应用技术] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:XBRL 半结构化数据处理 大数据处理 Map Reduce XBRL维度
摘 要:从XBRL维度数据处理的角度,研究大规模半结构化数据处理技术,提出一种基于Map/Reduce并行编程模型的XBRL维度数据解析算法.该算法在Map/Reduce编程模型和StAX流式解析技术的基础上,针对XBRL财务报告中各XML文件之间较复杂的数据引用关系,以整份XBRL财务报告为处理的最小单位,结合并行技术提取维度事项所包含的数据,再处理业务语义数据,从而实现复杂XBRL维度数据的解析.性能比较分析表明,该算法在大规模XBRL数据处理方面具有显著优势.