咨询与建议

限定检索结果

文献类型

  • 2 篇 期刊文献

馆藏范围

  • 2 篇 电子文献
  • 0 种 纸本馆藏

日期分布

学科分类号

  • 2 篇 工学
    • 2 篇 计算机科学与技术...
    • 2 篇 软件工程
  • 1 篇 管理学
    • 1 篇 管理科学与工程(可...

主题

  • 2 篇 中文抽词
  • 1 篇 逐层扫描
  • 1 篇 人工智能
  • 1 篇 自然语言处理
  • 1 篇 频繁字串
  • 1 篇 高频词
  • 1 篇 分词
  • 1 篇 互信息
  • 1 篇 信息熵

机构

  • 1 篇 中国科学院自动化...
  • 1 篇 上海交通大学

作者

  • 1 篇 曾隽芳
  • 1 篇 张宇萌
  • 1 篇 刘传汉
  • 1 篇 任禾

语言

  • 2 篇 中文
检索条件"主题词=中文抽词"
2 条 记 录,以下是1-10 订阅
排序:
一种基于信息熵的中文高频取算法
收藏 引用
中文信息学报 2006年 第5期20卷 40-43,90页
作者: 任禾 曾隽芳 中国科学院自动化研究所综合信息中心 北京100080
为扩展分典,提高分的准确率,本文提出了一种基于信息熵的中文高频取算法,其结果可以用来识别未登录并扩充现有典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分... 详细信息
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论
一种基于逐层扫描的频繁字串快速提取算法
收藏 引用
计算机科学 2008年 第5期35卷 127-130页
作者: 张宇萌 刘传汉 上海交通大学计算机科学与工程系
串频统计是一种简便有效的取未登录方法。本文提出了一种快速的频繁字串提取和计频方法,通过逐层扫描快速发现频繁字串,修正字串有效出现频次,最后取平均互信息量达到阚值的字串。实验结果显示该方法有效可行。
来源: 维普期刊数据库 维普期刊数据库 同方期刊数据库 同方期刊数据库 评论