咨询与建议

限定检索结果

文献类型

  • 27 篇 期刊文献
  • 19 篇 学位论文
  • 1 篇 会议

馆藏范围

  • 47 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 44 篇 工学
    • 36 篇 计算机科学与技术...
    • 31 篇 软件工程
    • 13 篇 仪器科学与技术
    • 1 篇 机械工程
    • 1 篇 控制科学与工程
  • 5 篇 管理学
    • 4 篇 管理科学与工程(可...
    • 2 篇 图书情报与档案管...
    • 1 篇 工商管理
  • 3 篇 文学
    • 2 篇 新闻传播学
    • 1 篇 中国语言文学
  • 2 篇 经济学
    • 2 篇 应用经济学
  • 1 篇 艺术学
    • 1 篇 设计学(可授艺术学...

主题

  • 47 篇 正文抽取
  • 6 篇 信息抽取
  • 5 篇 dom树
  • 4 篇 文本密度
  • 3 篇 网页分块
  • 3 篇 中文信息处理
  • 2 篇 主题爬虫
  • 2 篇 文本块密度
  • 2 篇 互联网信息
  • 2 篇 正文特征
  • 2 篇 网络爬虫
  • 2 篇 支持向量机
  • 2 篇 数据挖掘
  • 2 篇 网页去噪
  • 2 篇 标签路径覆盖率
  • 2 篇 定向采集
  • 2 篇 单正文体
  • 2 篇 计算机应用
  • 2 篇 html标签
  • 2 篇 多正文体

机构

  • 3 篇 北京邮电大学
  • 3 篇 上海交通大学
  • 2 篇 中国科学院大学
  • 2 篇 武汉理工大学
  • 2 篇 福州大学
  • 2 篇 武汉工程大学
  • 2 篇 华东师范大学
  • 2 篇 武汉大学
  • 2 篇 浙江大学
  • 2 篇 扬州大学
  • 2 篇 湘潭大学
  • 2 篇 中国科学技术大学
  • 1 篇 华中科技大学
  • 1 篇 大连理工大学
  • 1 篇 北京交通大学
  • 1 篇 首都师范大学
  • 1 篇 桂林电子科技大学
  • 1 篇 郑州航空工业管理...
  • 1 篇 中国科学院文献情...
  • 1 篇 中国科学院计算技...

作者

  • 2 篇 周佳颖
  • 2 篇 刘志杰
  • 2 篇 黄仲清
  • 2 篇 林子熠
  • 1 篇 潘洋
  • 1 篇 廖建军
  • 1 篇 胡万亭
  • 1 篇 陈雷
  • 1 篇 俞晓明
  • 1 篇 王朋朋
  • 1 篇 梁勇
  • 1 篇 于林林
  • 1 篇 张文
  • 1 篇 段晓丽
  • 1 篇 赵文
  • 1 篇 高庆锋
  • 1 篇 田晨耕
  • 1 篇 张振宇
  • 1 篇 寇文波
  • 1 篇 王美清

语言

  • 47 篇 中文
检索条件"主题词=正文抽取"
47 条 记 录,以下是1-10 订阅
排序:
基于文本密度模型的Web正文抽取
收藏 引用
模式识别与人工智能 2013年 第7期26卷 667-672页
作者: 朱泽德 李淼 张健 陈雷 曾新华 中国科学技术大学自动化系 合肥230026 中国科学院合肥智能机械研究所 合肥230031
为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于统计与正文特征的中文网页正文抽取研究
收藏 引用
中文信息学报 2009年 第5期23卷 80-85页
作者: 周佳颖 朱珍民 高晓芳 中国科学院计算技术研究所 北京100190 湘潭大学信息工程学院 湖南湘潭411105 首都师范大学计算机科学联合研究院 北京100037
该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
一种基于统计的中文网页正文抽取方法
收藏 引用
情报学报 2009年 第2期28卷 187-194页
作者: 钱爱兵 南京中医药大学经贸管理学院 南京210046
针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法。该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值... 详细信息
来源: 维普期刊数据库 维普期刊数据库 评论
基于分块和统计相结合的新闻正文抽取
收藏 引用
情报理论与实践 2010年 第1期33卷 117-120页
作者: 李烯 徐朝军 南京师范大学教育科学院 江苏南京210097
本文提出一种结合网页分块与统计的方法来抽取新闻类网页中的正文。首先,在网页解析的基础上根据标签信息对网页进行分块处理,并计算出每一个内容块的实际长度;其次,在得到内容块的长度集合后,计算这些内容块长度的均值,同时利用方差能... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于文本块密度和标签路径覆盖率的网页正文抽取
收藏 引用
计算机应用研究 2018年 第6期35卷 1645-1650页
作者: 刘鹏程 胡骏 吴共庆 合肥工业大学计算机与信息学院 合肥230009
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
面向网页内容无障碍访问的导航栏抽取正文抽取
面向网页内容无障碍访问的导航栏抽取与正文抽取
收藏 引用
作者: 王朋朋 浙江大学
学位级别:硕士
残疾人由于自身的身体局限,在互联网高速发展的时代难以充分享受网络社会的便利性。与早期的网页HTML元素布局简单,内容以文本内容为主相比,现今的网页不仅包含各种多媒体元素,而且使用了更多的CSS样式结构和JavaScript动态结构,HTML元... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
面向普适计算的正文抽取技术的研究与设计
面向普适计算的正文抽取技术的研究与设计
收藏 引用
作者: 周佳颖 湘潭大学
学位级别:硕士
随着计算机和互联网技术的广泛应用,特别是随着普适计算技术的发展,如何有效地从种类繁杂的网络中,抽取出有价值的信息,让用户通过逐渐融入到人们日常生活的设备(如智能终端、智能手机等)获得最合适的信息服务——普适服务,是目前亟需... 详细信息
来源: 同方学位论文库 同方学位论文库 评论
基于统计的自动化Web新闻正文抽取
收藏 引用
计算机应用与软件 2010年 第12期27卷 232-235页
作者: 林子熠 沈备军 上海交通大学软件学院 上海200240
目前有多种Web新闻正文抽取算法,其中,基于树编辑距离的算法需要假设整个网页有统一模板,基于包装器的算法需要大量训练集,面向感知的提取算法适应性强,但是效率相对较低。提出了基于统计的Web新闻正文自动抽取方法,能自动检测分割网页... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于文本标点密度连续和的网页正文抽取
收藏 引用
计算机时代 2020年 第1期 69-72页
作者: 汤佳杰 曹永忠 顾浩 扬州大学信息工程学院
为了简化网页正文抽取操作与提高网页正文抽取的准确性,提出了一种基于文本标点密度连续和的抽取方法(TPDS)。TPDS基于网页中文本标点分布的密度并计算密度的连续和,选取所有文本块中连续和最大的文本块,将其确定为网页最佳文本块并抽... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
基于网页DOM树节点路径相似度的正文抽取
收藏 引用
微型机与应用 2016年 第19期35卷 74-77页
作者: 潘心宇 陈长福 刘蓉 王美清 福州大学数学与计算机科学学院 福建福州350108 福建库易信息科技有限责任公司 福建福州350000
由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论