from docx import Document
from docx.oxml.text.paragraph import CT_P
from docx.oxml.table import CT_Tbl
from docx.table import Table
from docx.text.paragraph import Paragraph
path = '1.docx' #文件路径
document = Document(path) #读入文件
document_elm = document.element.body
for child in document_elm.iterchildren():
    if isinstance(child, CT_P):
        print(Paragraph(child, document).text)
    elif isinstance(child, CT_Tbl):
        table = Table(child, document)
        one_table_data = []
        for row in table.rows:  # 读每行
            row_data = []
            for cell in row.cells:  # 读一行中的所有单元格
                c = cell.text
                row_data.append(c)
            one_table_data.append(row_data)  #把每一行存入表
        print(one_table_data)
from docx import Document
path = '1.docx' #文件路径
document = Document(path) #读入文件
paragraphs = document.paragraphs #文件中的段落集合
for para in paragraphs:
	# #查看段落的属性和方法
    # print(dir(para))
    # break
    print(para.text)
    print(para.style.style_id)
    print(para.style.name)
from docx import Document
path = '1.docx' #文件路径
document = Document(path) #读入文件
tables = document.tables  #文件中的表格集合
datas = []
for table in tables:
	# # 查看表格的属性和方法
    # print(dir(table))
    one_table_data = []
    for row in table.rows:   # 读每行
        row_data = []
        for cell in row.cells:  # 读一行中的所有单元格
            c = cell.text
            row_data.append(c)
        one_table_data.append(row_data)  #把每一行存入表
    datas.append(one_table_data)
print(f'有{len(datas)}张表')
print(datas)

doc转docx

pip install pypiwin32
import win32com.client as wc
# doc转docx
word = wc.Dispatch('Word.Application')
# 需要绝对地址,用“\\”或"\",不能用“/”
doc = word.Documents.Open(r"D:\1.doc")
doc.SaveAs(r"D:\1.docx", 12, False, "", True, "", False, False, False, False)
doc.Close()
word.Quit()
                    安装docx模块pip install python-docx按顺序读取表格和段落from docx import Documentfrom docx.oxml.text.paragraph import CT_Pfrom docx.oxml.table import CT_Tblfrom docx.table import Tablefrom docx.text.paragraph import Paragraphpath = '1.docx' #文件路径document = Doc
<meta http-equiv="content-type" content="text/JavaScript;charset=utf-8" />
</head>
<input type="file" id="files" name="file" />读取文件: 
<span class="readButton">
  <button>显示</b
				
python-docx是一个在Python环境下读写word文档的“利器”。在使用前可以通过pip install python-docx命令安装,再通过import docx 引用即可。下面简单介绍一下 python-docx 的基本操作。 1、新建/打开及保存 文档的新建和打开比较简单,只需要用docxDocument类,若指定路径则是打开文档;若没有指定路径则是新建文档。 对文档...