/ / wyodrębnianie danych z plików docx w pythonie [closed] - parsing, python-3.x, docx

wyodrębnianie danych z plików docx w pythonie [closed] - parsing, python-3.x, docx

Chcę wyodrębnić dane z dokumentu tekstowego za pomocą rozszerzenia docx. Ten dokument zawiera tabelę. Chcę pobrać dane z każdej kolumny i wiersza tabeli.

następnie chciałbym przetworzyć dane i wstawić je do pliku Excel w odpowiednich polach.

Czy ktoś może mi przewodnika, jak to zrobić w python.

Używam python3 na Windows 7. (Może również chcesz uruchomić ten kod na Windows Server 2003).

Każda pomoc będzie doceniana.

Dzięki

Odpowiedzi:

3 dla odpowiedzi № 1

Spróbuj czegoś takiego:

import win32com.client as w32c

Word = w32c.Dispatch("Word.Application")
Word.Visible=1
doc=Word.Documents.Open("C:\docx_with_a_table.docx")
tables=doc.Tables
for t_cnt in range(tables.Count):
table=tables[t_cnt]
for r_cnt in range(table.Rows.Count):
row=table.Rows[r_cnt]
for c_cnt in range(row.Cells.Count):
cell=row.Cells[c_cnt]
print(cell.Range.Text)

ALT + F11 i F2 na dokumencie Worda pokażą obiekty VBA ... W Perlu powyższa procedura jest lepiej udokumentowana.

Odczyt i zapis do Excela jest dobrze wspierany przez pakiety Python3 xlrd3 i xlwt3