检索结果-南通市图书馆

在线全文

学校读者我要写书评

暂无评论

基于统计与正文特征的中文网页正文抽取研究

中文信息学报 2009年第5期23卷 80-85页

作者：周佳颖朱珍民高晓芳中国科学院计算技术研究所北京100190 湘潭大学信息工程学院湖南湘潭411105 首都师范大学计算机科学联合研究院北京100037

该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子... 详细信息

该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,该文首先基于统计的方法获取一条正文路径,然后学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。实验表明该方法抽取单正文和多正文的精确率分别为94%和91%。

关键词：计算机应用中文信息处理正文抽取单正文体多正文体

在线全文

学校读者我要写书评

暂无评论

一种基于统计的中文网页正文抽取方法

情报学报 2009年第2期28卷 187-194页

作者：钱爱兵南京中医药大学经贸管理学院南京210046

针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值... 详细信息

针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文。通过使用中文新闻类网页对该方法的有效性进行验证,结果表明：该方法虽然简单,但是抽取准确率极高且易于实现。

关键词：文本密度文本结点正文抽取贝叶斯判别准则 DOM树

维普期刊数据库评论

在线全文

维普期刊数据库

学校读者我要写书评

暂无评论

基于分块和统计相结合的新闻正文抽取

情报理论与实践 2010年第1期33卷 117-120页

作者：李烯徐朝军南京师范大学教育科学院江苏南京210097

本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能... 详细信息

本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能反映一组数据的波动大小的特性,按内容块长度降序排列并依次计算去掉最大内容块后的方差变化情况,寻找最有可能的正文内容块;最后随机选取了一些新闻网页进行测试,结果显示准确率可达96%,充分证明了该方法的有效性。

关键词：数据挖掘网页分块数学期望正文抽取

基于文本块密度和标签路径覆盖率的网页正文抽取

在线全文

学校读者我要写书评

暂无评论

计算机应用研究 2018年第6期35卷 1645-1650页

作者：刘鹏程胡骏吴共庆合肥工业大学计算机与信息学院合肥230009

大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征... 详细信息

大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。

关键词：正文抽取文本块密度标签路径覆盖率特征融合

面向网页内容无障碍访问的导航栏抽取与正文抽取

在线全文

学校读者我要写书评

暂无评论

面向网页内容无障碍访问的导航栏抽取与正文抽取

作者：王朋朋浙江大学

学位级别：硕士

残疾人由于自身的身体局限,在互联网高速发展的时代难以充分享受网络社会的便利性。与早期的网页HTML元素布局简单,内容以文本内容为主相比,现今的网页不仅包含各种多媒体元素,而且使用了更多的CSS样式结构和JavaScript动态结构,HTML元... 详细信息

残疾人由于自身的身体局限,在互联网高速发展的时代难以充分享受网络社会的便利性。与早期的网页HTML元素布局简单,内容以文本内容为主相比,现今的网页不仅包含各种多媒体元素,而且使用了更多的CSS样式结构和JavaScript动态结构,HTML元素繁多,加剧了残疾人信息获取的障碍,同时,由于技术更新快,网页设计多样化等原因,网页设计普遍存在大量的不一致问题,进一步加剧了残疾人访问互联网的障碍。中国残联致力于帮助残疾人更好的融入互联网社会,保证残疾人的利益,联合工业和信息化部电信研究院发布了网站无障碍标准。在工信部发布的网站无障碍标准中,有两条重要标准：“网页可以快捷键跳过导航栏以及网页标题和正文的相关性”。跳过导航栏可以帮助残疾人快速进入目标网页,在本文中,我们提出了一种新颖的、针对残疾人浏览频率高的资讯、新闻类网页中抽取网页导航栏的方法,基于这两种类型网页的特点,使用基于链接文本比例,邻近行编辑距离以及编辑距离梯度变化三个特征,最后使用无监督聚类的方法,有效、快速地在指定网页中抽取导航栏,并在一系列网站的抽取实验中达到了90%以上的准确率,并实现了一个可以自动标注网页导航栏的系统。网页标题和正文的相关性标准可以有效地减少残疾人的阅读障碍,使残疾人快速获取每个网页的主要内容,过滤无关的网页信息,不同于以往的正文抽取算法需要重建DOM树以及训练模型的方法,在本文中,我们提出了一种引入高斯平滑函数的抽取标签文本比例以及变化率的无监督方法,可以在不需要训练数据和DOM树的情况下有效、准确地在一系列网页中抽取网页正文。

关键词：导航栏抽取正文抽取无障碍检测

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

面向普适计算的正文抽取技术的研究与设计

面向普适计算的正文抽取技术的研究与设计

作者：周佳颖湘潭大学

学位级别：硕士

随着计算机和互联网技术的广泛应用,特别是随着普适计算技术的发展,如何有效地从种类繁杂的网络中,抽取出有价值的信息,让用户通过逐渐融入到人们日常生活的设备(如智能终端、智能手机等)获得最合适的信息服务——普适服务,是目前亟需... 详细信息

随着计算机和互联网技术的广泛应用,特别是随着普适计算技术的发展,如何有效地从种类繁杂的网络中,抽取出有价值的信息,让用户通过逐渐融入到人们日常生活的设备(如智能终端、智能手机等)获得最合适的信息服务——普适服务,是目前亟需解决的一个重要问题。基于互联网数据挖掘的正文抽取技术是提供普适的信息服务的基础,利用该技术分析巨大的网络信息源获得服务内容,同时从中提取出供咨询、参考和决策等用途的信息——情境信息,为普适服务中的Web高级应用奠定良好的基础。基于Web的普适信息服务,对正文抽取技术有更高的要求,即:必须满足不限定数据源、全自动化、实现简单、不限定网页类型等。本文结合国家863计划课题和普适计算环境下的需求,对中文网页的正文抽取技术进行了比较深入的研究,取得了以下主要研究成果: 1.系统分析和比较了现有的正文抽取方法。这些方法包括:基于模板的方法、基于视觉特征的方法、基于本体论的方法、基于统计的方法。这些方法各有侧重地解决了信息抽取中面临的问题,总体上取得了良好的效果,但在某些方面存在不同程度的局限或缺陷,导致都无法满足普适环境下信息抽取技术的要求。 2.基于上述的分析,本文提出了一种基于统计与正文特征的网页正文抽取方法。该方法在保持统计方法原有特性的同时,利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,本文首先基于统计的方法获取一条正文路径,然后通过学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。试验表明该方法抽取单正文和多正文的精确率分别为93.6%和91%。 3.在上述方法的基础上,本文设计了一个在普适环境下的正文抽取插件。该插件在不限定数据源、全自动化、实现简单的同时,能够处理单正文体网页(如新闻类网页)或呈现在网页中视觉效果相似的多正文体网页(如bbs网页)。将该插件应用到目标智能系统——“以用户为中心多服务融合的新型访问终端”。目标系统的实际运行结果表明,该插件是有效的。

关键词：普适计算正文抽取单正文体多正文体

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

基于统计的自动化Web新闻正文抽取

计算机应用与软件 2010年第12期27卷 232-235页

作者：林子熠沈备军上海交通大学软件学院上海200240

目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低。提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页... 详细信息

目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低。提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页功能模块的HTML标签,然后基于该标签解析网页,找出正文。方法不需要大量训练集,不需要假设有统一的网页模板,有较高的抽取速度,能较好地满足大多数新闻搜索服务应用的需求。

关键词： Web新闻正文抽取自动化标签检测

在线全文

学校读者我要写书评

暂无评论

基于文本标点密度连续和的网页正文抽取

计算机时代 2020年第1期 69-72页

作者：汤佳杰曹永忠顾浩扬州大学信息工程学院

为了简化网页正文抽取操作与提高网页正文抽取的准确性,提出了一种基于文本标点密度连续和的抽取方法(TPDS)。TPDS基于网页中文本标点分布的密度并计算密度的连续和,选取所有文本块中连续和最大的文本块,将其确定为网页最佳文本块并抽... 详细信息

为了简化网页正文抽取操作与提高网页正文抽取的准确性,提出了一种基于文本标点密度连续和的抽取方法(TPDS)。TPDS基于网页中文本标点分布的密度并计算密度的连续和,选取所有文本块中连续和最大的文本块,将其确定为网页最佳文本块并抽取正文内容。从不同的门户网站随机选取的网页作为测试数据集,实验结果表明,TPDS可有效过滤网页噪声信息得到正文内容。该方法在不同网页上具有很好的适用性,抽取性能优于CETR、CETD、CEPR和CETD-TPC算法。

关键词：正文抽取文本密度标点分布标签树

在线全文

学校读者我要写书评

暂无评论

基于网页DOM树节点路径相似度的正文抽取

微型机与应用 2016年第19期35卷 74-77页

作者：潘心宇陈长福刘蓉王美清福州大学数学与计算机科学学院福建福州350108 福建库易信息科技有限责任公司福建福州350000

由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路... 详细信息

由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。

关键词： DOM树信息抽取 HTML标签网页去噪正文抽取