在分词、词性标注、命名实体识别等自然语言处理基础任务,反作弊、知识图谱、新闻热点识别等文本挖掘应用中,未登录词是难以绕开的一个问题。从陌生语料中自动化的新词挖掘是解决该类问题的一种有效方法。
新词挖掘可以分为两大类:
我正在开发的开源NLP工具集BaizeNLP中提供了无监督、无知识的新词挖掘工具,效果如下:(web demo »)
_输入文本_,自然语言处理的百度百科。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
新词挖掘的结果
New Word
1
语言
2
自然语言
3
计算机
4
科学
5
领域
6
研究
7
自然语言处理
8
计算机科学
9
是计算机科学
10
重要
BaizeNLP中的新词挖掘算法原理来自Matrix67的互联网时代的社会语言学:基于SNS的文本数据挖掘。
不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所有抽出来的词和已有词库进行比较,不就能找出新词了吗?
Matrix认为,一段文本构成词语由它的内部凝固程度和它的自由运用程度构成。内部凝固程度衡量的是该词语的出现频率和该词语是有意义的搭配的程度,内部凝固程度越高,该文本片段越可能是一个词语;自由运用程度考察的是该词语左右邻字的丰富程度,自由运用程度越高,该文本片段越可能是一个词语。
在_自然语言处理的百度百科_语料中,部分文本片段的内部凝固程度和自由运用程度如下:
文本片段
内部凝固程度(bit)
自由运用程度(bit)
频率
自然
7.544
0.0
9
然语
7.014
0.0
9
语言
7.014
1.509
13
自然语
7.014
0.0
9
自然语言
7.014
2.281
9
然语言处
7.544
0.0
4
自然语言处
7.544
0.0
4
自然语言处理
7.544
0.811
4
然语言处理是
7.129
0.0
2
BaizeNLP的新词挖掘工程实现可以参照源码。简单来说,核心实现包括:
n=词语最大长度+1
)《西游记》
行者,八戒,师父,三藏,行者道,大圣,一个,唐僧,菩萨,沙僧,和尚,怎么,者道,我们,不知,长老,那里,笑道,妖精,老孙,悟空,甚么,两个,八戒道,国王,徒弟,闻言,那怪,如何,呆子,只见,三藏道,与他,不敢,不曾,宝贝,小妖,原来,大王,道师父,今日,正是,等我,兄弟,出来,叫道,如今,一声,取经,铁棒
《资本论》
资本,生产,价值,劳动,商品,货币,这种,部分,形式,一个,00,工人,这个,利润,我们,作为,价格,因此,产品,剩余,流通,如果,资本家,已经,过程,他们,可以,土地,因为,社会,增加,但是,没有,就是,只是,情况,这样,自己,10,必须,地租,这些,银行
世界,中国,全球,人类,主义,共同,命运,发展,构建,时代,经济,推动,国际,多边,历史,20,治理,合作,多边主义
小说,斯通纳,生活,完美,威廉,力量,意义,是一,是一部,文学,的小说,这本,的一生,追求,或许,献给,艺术,语言,密苏里,勇者
Original url: Access
Created at: 2019-04-12 11:54:37
Category: default
Tags: none
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论