文本自动文摘(automatic summarization/abstracting)是利用计算机自动实现文本分析、内容归纳和摘要自动生成的技术。
按照不同的标准自动文摘可以划分为不同的类型。
如果根据文摘的功能划分,可以分为指示型文摘(indicative)、报道型文摘(informative)和评论型文摘(evaluative)。
根据输入文本的数量划分,自动文摘可以分为单文档摘要和多文档摘要两类。
根据原文语言种类划分,自动文摘可以分单语言(monolingual)摘要和跨语言(cross-lingual)摘要。
根据文摘和原文的关系划分,则又可以分为摘录型文摘(extract)和理解型文摘(abstract),前者是由从原文中抽取出来的片段组成,而后者则是对原文主要内容重新组织后形成的。
如果根据文摘的应用划分,则可以分为普通型(generic)文摘和面向用户查询的(query-oriented)文摘,前者提供原文作者的主要观点,而后者则反映用户感兴趣的内容。
需要指出的是,上述文摘类型的划分并非互斥的,各种划分类型之间存在一定的重叠,例如,多文档摘要也可以是跨语言的多文档摘要。
1999曾将自动文摘方法概括为四种:自动摘录、基于理解的自动文摘、信息抽取和基于结构的自动文摘。而2005则从系统实现的方法考虑,将多文档自动文摘方法概括为三种:基于单文档文摘技术的方法、基于信息抽取的方法和基于多文档集合特征的方法。
一般来说,自动文摘过程包括三个基本步骤:
文本分析过程是对原文本进行分析处理,识别冗余信息;文本内容的选取和泛化过程是从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;文摘的转换和生成过程实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性。
由于不同的系统所采用的具体实现方法不同,因此,在不同的系统中上述几个模块所处理的问题和采用的方法也有所差异。例如,在基于句子抽取的多文档文摘系统中,其基本思想是通过计算句子之间的相似性,抽取文摘句,然后对文摘句排序的方法生成最后的文摘,因此,其核心技术集中在句子相似性计算、文摘句抽取和文摘句排序三个问题上,并不需要经过文摘表示这一中间环节。
一般来说,多文档摘要的概念具有更大的外延,多文档摘要技术研究可以涉及更广泛的技术问题。从定义的角度讲,多文档摘要就是将同一主题下的多个文本描述的主要信息按压缩比提炼出一个文本的自然语言处理技术。从应用的角度来看,一方面,在互联网上使用搜索引擎时,搜索同一主题的文档往往会返回成千上万个网页,如果将这些网页形成一个统一的、精练的、能够反映主要信息的摘要必然具有重要的意义。另一方面,对于互联网上某一新闻单位针对同一事件的系列报道,或者对某一事件数家新闻单位同一时间的报道,若能从这些相关性很强的文档中提炼出一个覆盖性强、形式简洁的摘要也同样具有重要的意义。而这两种情况正是多文档摘要技术的两种典型应用。
无论是单文档文摘还是多文档文摘,目前采用的方法一般为基于抽取的方法(extracting method)或称摘录型方法和基于理解的方法(abstracting method)。在单文档摘要系统中,一般都采用基于抽取的方法。而对于多文档而言,由于在同一主题中的不同文档中不可避免地存在信息交叠和信息差异,因此,如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常意味着要在句子层以下做工作,如对句子进行压缩、合并、切分等。所以,多文档摘要系统所面临的问题更加复杂。
另外,单文档的输出句子一般都按照句子在原文中出现的顺序排列,而在多文档摘要中,大都采用时间顺序排列句子,如何准确地得到每个句子的时间信息,也是多文档文摘中需要解决的一个重要问题。
正如前面指出的,自动文摘过程通常包括三个基本步骤,实现这些基本步骤的方法可以是基于句子抽取的,也可以是基于内容理解的,或者是基于结构分析的或其他方法。但无论采用什么样的方法,都必须面对三个关键问题:
①文档冗余信息的识别和处理;
②重要信息的辨认;
③生成文摘的连贯性。
常用的冗余识别方法通常有两种,一种是聚类的方法,测量所有句子对之间的相似性,然后用聚类方法识别公共信息的主题;另一种做法是采用候选法,即系统首先测量候选文段与已选文段之间的相似度,仅当候选段有足够的新信息时才将其入选。如最大边缘相关法MMR。
辨认重要信息的常用方法有抽取法和信息融合法。抽取法的基本思路是选出每个聚类中有代表性的部分(一般为句子),默认这些代表性的部分(句子)可以表达这个聚类中的主要信息。信息融合(information fusion)法的目的是要生成一个简洁、通顺并能反映这些句子(主题)之间共同信息的句子。为达到这个目标,要识别出对所有入选的主题句都共有的短语,然后将之合并起来。由于集合意义上的句子交集效果并不理想,因此,需要一些其他技术来实现融合,这些技术包括句法分析技术、计算主题交
集(theme intersection)等。
为了确保文摘句子的一致性和连贯性,需要排列句子的先后顺序。目前采用的句子排序方法通常有两种:一种是时间排序法(chronological ordering),另一种是扩张排序算法(augmented algorithm)。在时间排序法中,一般选定某一个时间为参考点,然后计算其他相对时间的绝对时间。扩张排序算法的目的是试图通过将有一定内容相关性的主题(topically related themes)放在一起来降低不流畅性。
虽然很多学者致力于理解式方法的研究,但摘录型的摘要方法仍是实用性自动摘要的主流方法。已有的摘录型方法的主要思路是从文章中提取特征,然后采用有监督或者无监督的机器学习方法对句子进行分类、打分,并进行句子抽取和排序。特征提取的基
本单位是句子。
文摘自动评测是自然语言处理中比较棘手的问题,相对于机器翻译、信息检索等其他技术的评测更加困难,因为理论上根本没有完美的摘要作参考。
传统的文摘评价方法主要由人工根据以下几个指标评价文摘的质量:一致性、简洁性、文法合理性、可读性和内容含量。但是,在针对大规模文本进行评测时,人工评价需要消耗大量的人力,实现起来比较困难。文摘自动评估方法大致分为两类:一类称作内部(intrinsic)评价方法,与文摘系统的目的相关,它通过直接分析摘要的质量来评价文摘系统;第二类称作外部(extrinsic)评价方法,它是一种间接的评价方法,与系统的功能相对应,将文摘应用于某一个特定的任务中,根据摘要功能对特定任务的效果来评价自动文摘系统的性能,如对于信息检索任务而言,可以对比采用摘要进行检索与采用原文进行检索的准确率差异,通过文摘对检索系统的效果来评价文摘系统的性能。
内部评价方法可以按信息的覆盖面和正确率来评价文摘的质量,一般采用将系统结果与“理想摘要”相比较的方法。这种评价方法源于信息抽取技术。在信息抽取评测中,将原文的关键要点抽取出来,然后与人工抽取的内容相比较,计算其召回率(recall)、准确率(precision)、冗余率(overgeneration)和偏差率(fallout)等几个指标。这种内部评价方法存在的主要困难是“理想摘要”的获得问题。
Original url: Access
Created at: 2019-10-07 12:34:00
Category: default
Tags: none
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论