Chcę wyodrębnić dane z dokumentu tekstowego za pomocą rozszerzenia docx. Ten dokument zawiera tabelę. Chcę pobrać dane z każdej kolumny i wiersza tabeli.
następnie chciałbym przetworzyć dane i wstawić je do pliku Excel w odpowiednich polach.
Czy ktoś może mi przewodnika, jak to zrobić w python.
Używam python3 na Windows 7. (Może również chcesz uruchomić ten kod na Windows Server 2003).
Każda pomoc będzie doceniana.
Dzięki
Odpowiedzi:
3 dla odpowiedzi № 1Spróbuj czegoś takiego:
import win32com.client as w32c
Word = w32c.Dispatch("Word.Application")
Word.Visible=1
doc=Word.Documents.Open("C:\docx_with_a_table.docx")
tables=doc.Tables
for t_cnt in range(tables.Count):
table=tables[t_cnt]
for r_cnt in range(table.Rows.Count):
row=table.Rows[r_cnt]
for c_cnt in range(row.Cells.Count):
cell=row.Cells[c_cnt]
print(cell.Range.Text)
ALT + F11 i F2 na dokumencie Worda pokażą obiekty VBA ... W Perlu powyższa procedura jest lepiej udokumentowana.
Odczyt i zapis do Excela jest dobrze wspierany przez pakiety Python3 xlrd3 i xlwt3