相关文章推荐
大气的苹果  ·  python中urllib.urlretri ...·  2 天前    · 
宽容的苦咖啡  ·  python ...·  2 天前    · 
纯真的冲锋衣  ·  Python pandas ...·  7 月前    · 
豪气的苦瓜  ·  android studio ...·  1 年前    · 

我想写一个程序来获取我的docx文件,迭代它们,并根据标题将每个文件分割成多个单独的文件。在每个docx中都有一些文章,每个文章下面都有一个“标题1”和文本。

因此,如果我原来的file1.docx有4篇文章,我希望它被分成4个单独的文件,每个文件都有标题和文本。

我到了它迭代所有文件的部分,在这个路径中我保存了.docx文件,我可以分别读取标题和文本,但我似乎找不到一种方法来合并所有文件,并将其拆分为单独的文件,每个文件都有标题和文本。我正在使用python docx库。

import glob

from docx import Document

headings = []

texts = []

def iter_headings(paragraphs):

for paragraph in paragraphs:

if paragraph.style.name.startswith('Heading'):

yield paragraph

def iter_text(paragraphs):

for paragraph in paragraphs:

if paragraph.style.name.startswith('Normal'):

yield paragraph

for name in glob.glob('/*.docx'):

document = Document(name)

for heading in iter_headings(document.paragraphs):

headings.append(heading.text)

for paragraph in iter_text(document.paragraphs):

texts.append(paragraph.text)

print(texts)

如何提取每篇文章的文本和标题?

这是python docx提供的XML阅读。红色大括号标记了我要从每个文件中提取的内容。

对于如何用不同的方法实现我想要的目标,或者是否有一种更简单的方法来处理PDF文件,我愿意接受任何其他的建议。

我想写一个程序来获取我的docx文件,迭代它们,并根据标题将每个文件分割成多个单独的文件。在每个docx中都有一些文章,每个文章下面都有一个“标题1”和文本。因此,如果我原来的file1.docx有4篇文章,我希望它被分成4个单独的文件,每个文件都有标题和文本。我到了它迭代所有文件的部分,在这个路径中我保存了.docx文件,我可以分别读取标题和文本,但我似乎找不到一种方法来合并所有文件,并将其拆分...
tar cvf etcbak.tar etc/ 打包一个tar tar xvf etcbak.tar 解开一个tar tar cvzf etcbak.tar.gz etc/ 打包压缩一个 tar tar zxvf etcbak.tar.gz 解压一个tar z:代表的是压缩 c:代表的是打包 x:代表的是解压 v:代表的是过程 f:代...
2、 标题 行只能是字符串类型,最少有2个或以上字段 3、 标题 行上边,或左边可能有任意多个空行 4、 标题 行可能是多行,一个字段可能有N级子字段,可以是任意复杂的数据报表 标题 ,例如财务数据的损益表 5、 标题 行不能独立存在,最少有一个数据行,最少有一个字段不为空 ...
作用:Excel 文件 包含的行数比较多,需要按固定的行数将Excel 分为 若干个Excel 文件 ,并保留 标题 行。 #实现excel表格按行数分 的功能 import openpyxl #填入 文件 名 excel_name_input=input("填写excel 文件 名称,限定为.xlsx格式 ") excel_name_open=excel_name_input+".xlsx" # 读取对应excel 文件 ,应加入错误提示,待优化 workbook=openpyxl.load_workbook(filename=
python - docx 中,可以使用` docx .shared`模块中的`Pt`、`Inch`等单位来设置字体大小和边距等参数,同时也可以使用` docx .enum.text`模块中的`WD_COLOR_INDEX`来设置文字颜色。 下面是一个简单的示例,展示如何在 python - docx 中设置中文字体: ``` python from docx import Document from docx .shared import Pt # 创建一个新的文档 document = Document() # 添加一个段落,并设置字体大小为14磅,字体为"微软雅黑" paragraph = document.add_paragraph("这是一段中文。") paragraph.style.font.name = "微软雅黑" paragraph.style.font.size = Pt(14) # 保存文档 document.save("example. docx ") 上述代码中,我们创建了一个新的文档,并添加了一个段落。然后,我们通过`paragraph.style.font.name`和`paragraph.style.font.size`属性来设置段落中文字的字体和字号。 需要注意的是,如果你的系统中没有安装指定的字体,那么 python - docx 会尝试使用默认字体来显示文本。因此,建议在使用自定义字体时,先确认该字体是否已经安装在你的系统中。