Pomoc w programowaniu, odpowiedzi na pytania / Rozbiór gramatyczny zdania / wyodrębnianie danych z plików docx w pythonie [closed] - parsing, python-3.x, docx

wyodrębnianie danych z plików docx w pythonie [closed] - parsing, python-3.x, docx

Chcę wyodrębnić dane z dokumentu tekstowego za pomocą rozszerzenia docx. Ten dokument zawiera tabelę. Chcę pobrać dane z każdej kolumny i wiersza tabeli.

następnie chciałbym przetworzyć dane i wstawić je do pliku Excel w odpowiednich polach.

Czy ktoś może mi przewodnika, jak to zrobić w python.

Używam python3 na Windows 7. (Może również chcesz uruchomić ten kod na Windows Server 2003).

Każda pomoc będzie doceniana.

Dzięki

Odpowiedzi:

3 dla odpowiedzi № 1

Spróbuj czegoś takiego:

import win32com.client as w32c

Word = w32c.Dispatch("Word.Application")
Word.Visible=1
doc=Word.Documents.Open("C:\docx_with_a_table.docx")
tables=doc.Tables
for t_cnt in range(tables.Count):
table=tables[t_cnt]
for r_cnt in range(table.Rows.Count):
row=table.Rows[r_cnt]
for c_cnt in range(row.Cells.Count):
cell=row.Cells[c_cnt]
print(cell.Range.Text)

ALT + F11 i F2 na dokumencie Worda pokażą obiekty VBA ... W Perlu powyższa procedura jest lepiej udokumentowana.

Odczyt i zapis do Excela jest dobrze wspierany przez pakiety Python3 xlrd3 i xlwt3

Powiązane pytania

Transformacja XSL dla pliku .docx - xslt, ms-word, docx

Funkcja dir zmienia nazwę ścieżki pliku ".docx" - r

Iteruj przez Spis treści w docx przy użyciu python-docx - python, python-docx

Loop Through Folder - Wyodrębnij nagłówek 1 z dokumentów - Wyciąg do nowego dokumentu - python, docx, python-docx

Używanie Pythona-docx do odczytu .docx, zachowywanie znaków specjalnych, punktorów - python, python-docx

Czytanie nagłówka z pliku .docx (Word) w Pythonie docx - python, openxml, python-docx

Dodawanie hiperłącza w MSWord przy użyciu python-docx - python, python-docx

Generowanie XML Word Tables (Python) - python, xml, ms-word

jak wygenerować RGBcolor w formacie RGBColor (0x42, 0x24, 0xE9) - python, html, ms-word, rgb, python-docx

importError: nie można zaimportować nazwy opendocx - python, docx

python-docx, dostęp do akapitu-size - python, ms-word, docx, python-docx

wyodrębnij tekst z .doc (nie docx) - python, doc

python docx.opc.exceptions.PackageNotFoundError: Nie znaleziono pakietu podczas otwierania dokumentu - python, docx

Python Docx Szerokość kolumny tabeli - python, python-3.6, docx, python-docx

Czytanie plików docx, rozpoznawanie i przechowywanie kursywy tekstu - python, string, docx

Używanie Pythona do wyodrębniania obrazów i tekstu z dokumentu tekstowego - python, obraz, słowo ms, wyciąg, pywin32

Jak poprawnie wcię z python-docx? - python-docx

Używanie systemu Linux do rekurencyjnej zmiany nazw plików? - Linux, powłoki, skrypty

podkreśl w OpenXml :: Docx przy użyciu Ruby - html, ruby-on-rails, ruby, openxml, docx

Kiedy otwieram docx w przeglądarce hex, czy ktoś może wyjaśnić, co widzę - binarny, hex, docx