社交网络中基于多模态的敏感信息识别技术研究
作者单位:中原工学院
学位级别:硕士
导师姓名:单芳芳;高继勋
授予年度:2023年
学科分类:0839[工学-网络空间安全] 08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:近些年来,社交网络的广泛使用在一定程度上对用户隐私造成了安全风险。社交媒体平台从用户那里收集大量个人数据,包括有关他们的位置、个人动态和兴趣的信息。这些数据容易受到黑客或其他恶意行为者未经授权的访问,可能会产生负面后果,进而对个人乃至国家造成严重的威胁,因此,如何对社交网络用户信息进行隐私保护是亟需解决的问题。然而目前社交网络隐私保护仍然面临如下挑战:(1)忽略数据关联泄露敏感信息的风险,由于对性格、背景各异用户的敏感信息容忍程度和敏感信息的关联性等方面考虑不足,缺乏对历史信息记录和不同格式信息的综合防护,易被恶意用户通过综合分析,挖掘出隐式关联关系,通过融合分析获取敏感度高的私人信息。(2)多模态敏感信息定位识别困难,敏感信息识别涉及用户个人数据隐私敏感度量,传统隐私设置一般仅针对特定敏感信息对隐私数据进行保护,并未考虑用户的个性化需求。然而,不同用户对于隐私敏感程度以及敏感信息的定义不同,加之缺乏多模态数据的综合分析,导致访问控制的权限设置受到阻碍,使得社交网络中敏感信息识别成为一大挑战。针对以上挑战,本文的主要研究内容如下:(1)当前的敏感属性识别方法存在一些限制,无法自适应地识别位置数据集的敏感属性,忽略了数据属性之间的关联关系,从而导致敏感属性被错误的推理。为了解决这些问题,本文利用信息论中的信息熵和最大离散熵,来初步计算数据属性中的敏感度,在计算过程中,考虑了数据分布的特性,并避免了不同数据特征方差的风险,使计算结果更加符合实际意义。并在此基础上提出了一种改进的关联规则算法,该算法利用新的事务存储表和归并项集的方法来快速进行项集搜索,从而提高了搜索效率,增强了文本敏感属性的识别能力。(2)本文提出了一种改进的双通道多跳推理机制,用于挖掘和利用社交网络中用户图像和文本数据之间的隐式相关性,打破了跨模态数据之间的语义障碍,丰富了查询文本和图像中隐私的语义表示。此外,本文还探究了用户个性化敏感偏好对于隐私保护技术的挑战,并通过添加用户自定义敏感列表并将其放入双通道多跳推理机制中,增强了敏感信息偏好的表示,最终实现了个性化的用户隐私偏好。同时,本文还设计了一种改进的多模自适应空间注意力编解码架构,用以选择需要注意的特征信息,从而实现对敏感信息的准确识别。