基于大尺度网络结构发现模型的涉税企业关系挖掘方法研究
作者单位:西安理工大学
学位级别:硕士
导师姓名:魏嵬;张贝贝;徐江
授予年度:2024年
学科分类:12[管理学] 120202[管理学-企业管理(含:财务管理、市场营销、人力资源管理)] 02[经济学] 0202[经济学-应用经济学] 1202[管理学-工商管理] 07[理学] 020203[经济学-财政学(含∶税收学)] 070104[理学-应用数学] 0701[理学-数学]
主 题:复杂网络 网络结构演化 网络压缩 简单路径 全路径搜索
摘 要:税务机关通过分析企业间的资金流来揭露偷税漏税行为。然而,不法分子在面对传统税务稽查方法时,利用多层级控股的方式,导致企业间资金结构变得异常复杂,从而掩盖资金的真实流向,使得税务机关难以及时追踪这些违法行为。梳理企业间资金流,即在税务相关的复杂网络中进行路径搜索,可通过复杂网络领域中搜索两节点间所有简单路径的算法框架实现,这同时也是众多领域中不可或缺的关键技术。简单路径需满足路径序列中节点不重复的条件,获取两节点间全简单路径集则需要求解多个NP-hard问题。然而,该技术所面临的核心问题是路径搜索算法的时间和空间复杂度随网络规模呈指数形式增长,大量路径搜索算法在面对大尺度复杂网络时表现不佳。为此,本文提出了一种新的全简单路径搜索框架,其中包含网络结构动态演化模块、复杂网络压缩模块和全简单路径搜索模块。首先,本文提出基于图片智能内容解析的复杂网络动态拼接方法,快速将小尺度网络集合向大尺度网络融合。然后,本文提出一种压缩算子,并基于该算子提出一种新的网络压缩方法,以高效降低整体网络规模。最后,本文提出基于网络压缩模型的全简单路径搜索方法(All Simple Path Search Algorithm Based on Network Compression Model,简称NTCS算法)。该方法利用由边界节点组成的导向性路径框架,避免对复杂网络中路径的盲目搜索,将传统路径算法中的递归策略转变为可预估计算规模且可计算的解决方案。本研究的具体工作包括以下四个方面: (1)提出了一种基于Faster R-CNN的股权穿透图内容解析方法。该方法通过解析股权穿透图的内容,提取企业实体、企业间的控股关系和控股百分比,并将它们分别转化为复杂网络中的实体节点、有向边连接和权值。通过进行数据扩充工作,补全各子网中节点和有向边的其他属性信息,为后续对税务相关复杂网络的分析提供数据支持。 (2)提出了一种基于动态社团结构演化发现模型的网络拼接方法。该方法从动态角度出发,通过模块度矩阵和二分变换网络,在确保社团合理划分的前提下对各税务子网进行拼接。同时,该方法兼顾了网络扩充前后社团标签的一致性,解决了税务相关复杂网络中信息扩充困难的问题。 (3)本文提出一种压缩算子,基于该算子构建了一种新的复杂网络压缩方法。该方法利用转移算子和压缩算子,将完整的复杂网络大幅压缩成可被分析的网络规模以减少对路径的重复搜索,同时保留了压缩前复杂网络的结构特征。 (4)针对复杂网络中搜索两节点间所有简单路径这一 NP-hard问题,提出了一种基于网络压缩模型的全简单路径搜索方法(NTCS算法)。该算法是结合分治算法的思想的精确算法,适用于有向有环网络。通过在限制区域的网络中拓宽和拼接由边界节点组成的导向性路径框架,从而大幅避免算法对复杂网络中路径的盲目搜索。