作者 | 陈熹来源 | 早起Python(ID:zaoqi-python)大家好,又到了 Python 办公自动化系列。在之前的自动化系列文章中,我们分别讲过如何使用 Python 将 Word 中表格信息批量提取至 Excel,也讲过如何将多个 Excel 表格汇总至 Word,今天继续讲解如何将文字从 PPT 中提取出来并写入 Word,主要将涉及如何使用python-pptx和python-docx交互操作 word 和 ppt 文件!本文依旧来源于真实的办公自动化需求!
需求说明
有一份如图所示的 ppt,包含了 Python 的介绍。现在需要将 PPT 中的文字都提取出来并写入 Word 中,如下图:
代码实际上非常简单,基于python-pptx和python-docx两个模块即可,核心代码只有 6 行。但需要先熟悉 PPT 和 Word 两种文件的格式,可通过下面的图解对 Word 结构有个直观认识。
不考虑表格图片等情况,一个纯文字组成的 Word 文档由文档document-段落 paragraph-文字块 run 三级结构组成。再看一下 ppt 结构组成,会较 Word 复杂许多。当然这也跟 PPT 的高度自定义拓展性有关。
简单来说,一个 PPT 文件为 presentation,基本的结构为展示文件 presentation-幻灯片页 slide-形状 shape组成,形状就需要区分开,是包含文本的形状还是不包含文本的形状(纯图片等)。如果是包含文本的形状,则可以获取内部的文本框,一个文本框又可以看作是一个小的 word 文档,包含段落 paragraph-文字块 run。有了以上的知识铺垫就可以写代码了。
首先导入需要的模块:
from pptx import Presentation
from docx import Document****
需要注意的是,安装的时候是python-docx和python-pptx,但实际运用都是 pptx 和 docx。两个模块的相似点如下:
现在导入 pptx 文件,创建 Word 文件:
wordfile = Document()
# 给定ppt文件所在的路径
filepath = r'xxxxxxxx'
pptx = Presentation(filepath)
接着遍历 ppt,将文字写入 word。
# 遍历ppt文件的所有幻灯片页
for slide in pptx.slides:
# 遍历幻灯片页的所有形状
for shape in slide.shapes:
# 判断形状是否含有文本框,如果含有则顺序运行代码
if shape.has_text_frame:
# 获取文本框
text_frame = shape.text_frame
# 遍历文本框中的所有段落
for paragraph in text_frame.paragraphs:
# 将文本框中的段落文字写入word中
wordfile.add_paragraph(paragraph.text
遍历 ppt 到段落就写入 Word,而非遍历到底直到文字块才写入,因为段落更符合阅读习惯,一般遍历到文字块是需要对特定的字段词块进行操作才进行,最后记得保存 Word 文件。
save_path = r'xxxxxxxx'
wordfile.save(save_path)
这是经过一定改编的真实案例,可见 Python 自动化办公确实能够帮助我们解放自己的双手,不过在写自动化脚本之前也要掌握原理,明确思路再进行!如果对本文的代码和数据感兴趣可以在后台回复自动化获取,最后还是希望大家能够理解 Python 办公自动化的一个核心就是批量操作-解放双手,让复杂的工作自动化!
原网址: 访问
创建于: 2024-03-07 16:14:01
目录: default
标签: 无
未标明原创文章均为采集,版权归作者所有,转载无需和我联系,请注明原出处,南摩阿彌陀佛,知识,不只知道,要得到
java windows火焰图_mob64ca12ec8020的技术博客_51CTO博客 - 在windows下不可行,不知道作者是怎样搞的 监听SpringBoot 服务启动成功事件并打印信息_监听springboot启动完毕-CSDN博客 SpringBoot中就绪探针和存活探针_management.endpoint.health.probes.enabled-CSDN博客 u2u转换板 - 嘉立创EDA开源硬件平台 Spring Boot 项目的轻量级 HTTP 客户端 retrofit 框架,快来试试它!_Java精选-CSDN博客 手把手教你打造一套最牛的知识笔记管理系统! - 知乎 - 想法有重合-理论可参考 安宇雨 闲鱼 机械键盘 客制化 开贴记录 文本 linux 使用find命令查找包含某字符串的文件_beijihukk的博客-CSDN博客_find 查找字符串 ---- mac 也适用 安宇雨 打字音 记录集合 B站 bilibili 自行搭建 开坑 真正的客制化 安宇雨 黑苹果开坑 查找工具包maven pom 引用地 工具网站 Dantelis 介绍的玩轴入坑攻略 --- 关于轴的一些说法 --- 非官方 ---- 心得而已 --- 长期开坑更新 [本人问题][新开坑位]关于自动化测试的工具与平台应用 机械键盘 开团 网站记录 -- 能做一个收集的程序就好了 不过现在没时间 -- 信息大多是在群里发的 - 你要让垃圾佬 都去一个地方看难度也是很大的 精神支柱 [超级前台]sprinbboot maven superdesk-app 记录 [信息有用] [环境准备] [基本完成] [sebp/elk] 给已创建的Docker容器增加新的端口映射 - qq_30599553的博客 - CSDN博客 [正在研究] Elasticsearch, Logstash, Kibana (ELK) Docker image documentation elasticsearch centos 安装记录 及 启动手记 正式服务器 39 elasticsearch 问题合集 不断更新 6.1.1 | 6.5.1 两个版本 博客程序 - 测试 - bug记录 等等问题 laravel的启动过程解析 - lpfuture - 博客园 OAuth2 Server PHP 用 Laravel 搭建带 OAuth2 验证的 RESTful 服务 | Laravel China 社区 - 高品质的 Laravel 和 PHP 开发者社区 利用Laravel 搭建oauth2 API接口 附 Unauthenticated 解决办法 - 煮茶的博客 - SegmentFault 思否 使用 OAuth2-Server-php 搭建 OAuth2 Server - 午时的海 - 博客园 基于PHP构建OAuth 2.0 服务端 认证平台 - Endv - 博客园 Laravel 的 Artisan 命令行工具 Laravel 的文件系统和云存储功能集成 浅谈Chromium中的设计模式--终--Observer模式 浅谈Chromium中的设计模式--二--pre/post和Delegate模式 浅谈Chromium中的设计模式--一--Chromium中模块分层和进程模型 DeepMind 4 Hacking Yourself README.md update 20211011
Laravel China 简书 知乎 博客园 CSDN博客 开源中国 Go Further Ryan是菜鸟 | LNMP技术栈笔记 云栖社区-阿里云 Netflix技术博客 Techie Delight Linkedin技术博客 Dropbox技术博客 Facebook技术博客 淘宝中间件团队 美团技术博客 360技术博客 古巷博客 - 一个专注于分享的不正常博客 软件测试知识传播 - 测试窝 有赞技术团队 阮一峰 语雀 静觅丨崔庆才的个人博客 软件测试从业者综合能力提升 - isTester IBM Java 开发 使用开放 Java 生态系统开发现代应用程序 pengdai 一个强大的博主 HTML5资源教程 | 分享HTML5开发资源和开发教程 蘑菇博客 - 专注于技术分享的博客平台 个人博客-leapMie 流星007 CSDN博客 - 舍其小伙伴 稀土掘金 Go 技术论坛 | Golang / Go 语言中国知识社区
最新评论