当前位置：首页 > 办公技巧 > 正文

word办公技巧典型案例(python自动化办公-docx模块操作Word文档的简单案列)

叁碗诸角
办公技巧
2023-07-07 05:58:03
0

前言

前段时间有小伙伴问二狗,怎么把一个Word文档的题库,写一个python脚本提取到Excel里 .由于数据全是选择题,且文本很有规律,不是很复杂.所以今天二狗就通过本篇文章来分享下二狗的思路和代码.

word文档数据

提取为Excel的格式

编程环境

1.文中电脑操作系统:win10

2.文中所使用的python模块:

(1).os (python自带模块,不需要pip安装)

(2).re (python自带模块,不需要pip安装)

(3).docx (第三方模块,需要pip安装)

安装命令:pip install -i https://
pypi.tuna.tsinghua.edu.cn/simple python-docx

注意:我们这次要用到的第三方库，就是专门为docx格式的word文档而生的。如果你手头需要处理的是doc格式的word文档，你可以打开word，将其另存为 docx的格式。【注意word 97以上版本支持存储docx文件】

(4).openpyxl (第三方模块,需要pip安装)

安装命令:pip install -i https://
pypi.tuna.tsinghua.edu.cn/simple openpyxl

3.文中数据源文件:选择题.docx(如果需要,请后台私信)

4.文中所使用的IDE:VSCODE(安装Jupyter插件)

文档数据结构剖析及代码思路

文档结构

(1)提取答案:由于答案是红色标记的,我们可以读取每一段落的样式,红色的段落就是答案.

分题

(2)分题:这个稍微有点复杂,二狗通过处理每一题前面的题号,来进行的,具体详见代码.

一行2选项

(3)一行2选项:通过split来分割,具体详见代码.

代码拆检

import osimport re import docximport openpyxl

now_path = os.getcwd() # 获取当前ipynb文件的路径doc_file = '选择题.docx' # 要提取的doc文件名excel_file = '选择题.xlsx' # 保存为Excel的文件名wb = openpyxl.Workbook() # 实例化Excel对象ws = wb.active # 创建Excel活动表格tab_head = ['序号','题目','选项1','选项2','选项3','选项4','答案'] #定义Excel表头ws.append(tab_head) #表头写入Excelstart_flag = True # 设置开始状态content_list=[] #初始化内容列表

def jion_path(file_path,file_name): ''' 功能:拼接文件路径 :param file_path: 固定参数，定义拼接的文件路径 :param file_name: 固定参数，定义拼接的文件名称 :return:返回拼接好的文件路径 ''' return os.path.join(file_path,file_name)

这里二狗定义了一个无聊的函数

doc = docx.Document( jion_path(file_path=now_path,file_name=doc_file)).paragraphs # 读取word文档.doc文件如是.docx文件需把文件另存为.doc文件

读取docx文档,得到一个段落列表.

段落列表

for content in filter(lambda x: bool(x.text) ,doc[1:]): #遍历段落列表 row = content.text.strip('试题') #去除每一题的'试题'2字 row_list = re.split(r'^d W',row) # 正则切割段落文本

doc[1:] 从第二行开始读取,不读取第一行的大标题

filter(lambda x: bool(x.text) ,doc[1:])这里是过滤为空值的段落.

过滤效果

没有过滤的效果可以看见明显空值

strip和正则切割后的效果

if row_list[1:]:#判断切割后的列表的第一个元素,是否有值 Ture为题目 False为答案选项 if start_flag: # 判断是否为第一行 content_list = row_list[1:] # 如果是第一行就题目添加进空列表content_list start_flag = False # 重制start_flag为False else: # 如果不是第一行 content_list = answer #把answer答案列表添加进content_list content_list.insert(0,number) # content_list列表里第一个位置插入序号 ws.append(content_list) # 把content_list列表写入Excel里 number = 1 #更新下一题的序号 content_list=[] # 重置content_list列表为空,准备添加下一题 content_list = row_list[1:] # 把题目添加进空列表content_list else:# 这里利用python的切片机制 row_list里只有一个元素时 row_list[1:]切片会返回 row_list = [i.strip() for i in re.split(r's{4}',row_list[0]) if i ] # 处理一行2答案选项的情况 content_list = row_list # 把ABCD选项文本添加进content_list

超过列表长度的切片方法会返回空列表

处理一行2个答案选项的效果

if row_list[1:] 超过列表长度的切片方法会返回空列表不会抛出异常

for run in content.runs: #遍历每个段落的文本样式找的为红色的答案 answer_color = str(run.font.color.rgb) # 获取每个段落的字体颜色 if answer_color == 'FF0000' : # 判断此段落的文字是否为红色 answer = re.findall(r'[A-D]{1}',run.text)#提取答案项对应的字母 break # 停止遍历每个段落的文本样式

找到答案项

此处的break只打破for run in content.runs的循环

else: # for content in filter(lambda x: bool(x.text) ,doc[1:]) 循环结束时content_list = answer #把answer答案列表添加进content_list content_list.insert(0,number) # content_list列表里第一个位置插入序号 ws.append(content_list) # 最后一题写入EXcel里 wb.save(jion_path(now_path,excel_file))# 保存文件

因为二狗写的脚本,是通过处理下一题时来保存的上一题 ,所以最后一题的保存是要单独处理一下.

完整代码

import osimport re import docximport openpyxlnow_path = os.getcwd() # 获取当前ipynb文件的路径doc_file = '选择题.docx' # 要提取的doc文件名excel_file = '选择题.xlsx' # 保存为Excel的文件名wb = openpyxl.Workbook() # 实例化Excel对象ws = wb.active # 创建Excel活动表格tab_head = ['序号','题目','选项1','选项2','选项3','选项4','答案'] #定义Excel表头ws.append(tab_head) #表头写入Excelstart_flag = True # 设置开始状态content_list=[] #初始化内容列表def jion_path(file_path,file_name): ''' 功能:拼接文件路径 :param file_path: 固定参数，定义拼接的文件路径 :param file_name: 固定参数，定义拼接的文件名称 :return:返回拼接好的文件路径 ''' return os.path.join(file_path,file_name)doc = docx.Document( jion_path(file_path=now_path,file_name=doc_file)).paragraphs # 读取word文档.doc文件如是.docx文件需把文件另存为.doc文件number= 1 #初始化序号for content in filter(lambda x: bool(x.text) ,doc[1:]): #遍历段落列表 row = content.text.strip('试题') #去除每一题的'试题'2字 row_list = re.split(r'^d W',row) # 正则切割段落文本 if row_list[1:]:#判断切割后的列表的第一个元素,是否有值 Ture为题目 False为答案选项 if start_flag: # 判断是否为第一行 content_list = row_list[1:] # 如果是第一行就题目添加进空列表content_list start_flag = False # 重制start_flag为False else: # 如果不是第一行 content_list = answer #把answer答案列表添加进content_list content_list.insert(0,number) # content_list列表里第一个位置插入序号 ws.append(content_list) # 把content_list列表写入Excel里 number = 1 #更新下一题的序号 content_list=[] # 重置content_list列表为空,准备添加下一题 content_list = row_list[1:] # 把题目添加进空列表content_list else:# 这里利用python的切片机制 row_list里只有一个元素时 row_list[1:]切片会返回 row_list = [i.strip() for i in re.split(r's{4}',row_list[0]) if i ] # 处理一行2答案选项的情况 content_list = row_list # 把ABCD选项文本添加进content_list for run in content.runs: #遍历每个段落的文本样式找的为红色的答案 answer_color = str(run.font.color.rgb) # 获取每个段落的字体颜色 if answer_color == 'FF0000' : # 判断此段落的文字是否为红色 answer = re.findall(r'[A-D]{1}',run.text)#提取答案项对应的字母 break # 停止遍历每个段落的文本样式else: # for content in filter(lambda x: bool(x.text) ,doc[1:]) 循环结束时content_list = answer #把answer答案列表添加进content_list content_list.insert(0,number) # content_list列表里第一个位置插入序号 ws.append(content_list) # 最后一题写入EXcel里 wb.save(jion_path(now_path,excel_file))# 保存文件

结语

以上汇报完毕,下篇文章再见.(如需文中数据资料请后台私信)

本文由京廊文化根据互联网搜索查询后整理发布，旨在分享有价值的内容，本站为非营利性网站，不参与任何商业性质行为，文章如有侵权请联系删除，部分文章如未署名作者来源请联系我们及时备注，感谢您的支持。
本文链接： /bangong/4887.html

上一篇
办公室保洁技巧(办公场所怎么消毒？工作时该如何防护？听听疾控专家咋说「坚定必胜信心坚守疫情防线」)

下一篇
行政办公软件使用技巧(行政办公室与党委办公室，应该选哪一个)

word办公技巧典型案例(python自动化办公-docx模块操作Word文档的简单案列)

前言

编程环境

文档数据结构剖析及代码思路

代码拆检

完整代码

结语

网站信息MAX

办公用品名片图片大全（办公用品用什么名字好听）

热门文章

平塘办公用品档案盒厂（档案盒生产厂家批发）

汕尾企业办公用品租赁厂家（汕头办公楼出租）

缓解压力的办公用品清单（缓解压力的礼物）

铁西办公用品（沈阳办公用品店出兑）

办公用品销售管理软件（办公用品管理软件免费版）

汕尾通用办公用品推荐厂家（汕尾日用品批发市场）

湖南品牌办公用品商家排名（湖南办公家具厂家名录）

南昌办公用品（南昌办公用品展会）

阳江全程办公用品定制价格（办公用品生产厂家直销批发联系）

北京办公用品家具（北京办公用品家具城）

最新文章

海南耐用办公用品代理商（海口办公用品批发市场标签）

附近电焊办公用品（附近电焊门市）

广东办公用品租赁方案模板（广东办公用品货源网）

办公用品回收合肥哪里有（合肥二手办公家具回收上门）

哪个网站办公用品便宜好用（哪个网站办公用品便宜好用又实惠）

湖南绿色办公用品价格多少（湖南办公用品批发市场在哪里）

白云区办公用品价格查询（白云区二手办公市场）

苏州环保办公用品定制公司（苏州环保办公用品定制公司地址）

洗手液属于办公用品（洗手液属于办公用品还是劳保用品）

物业公司办公用品算谁的（物业办公用品清单表格）

word办公技巧典型案例(python自动化办公-docx模块操作Word文档的简单案列)

前言

编程环境

文档数据结构剖析及代码思路

代码拆检

完整代码

结语

相关文章

网站信息MAX

办公用品名片图片大全（办公用品用什么名字好听）

热门文章

最新文章