/ / Ako v Pyteone odstránite prvé x bajty z 5 súborov MS Word (.doc), ktoré ste vytvorili vyškrtnutím webovej stránky pomocou bs4? - python, škrabanie webových stránok, ms-word, beautifulsoup, bs4

V systéme Python, ako odstránite prvé x bajty z 5 súborov MS Word (.doc), ktoré ste vytvorili oškrtnutím webových stránok pomocou bs4? - python, škrabanie webových stránok, ms-word, beautifulsoup, bs4

Povedz, že mám priečinok s názvom "Výskum", ktorý má 5Súbory MS Word (esej1, esej2, esej3, esej4, esej5). Chcel by som použiť Python na odstránenie prvých 2000 bajtov (znakov a medzery) každého súboru. Ako to možno urobiť?

Upraviť pre kontext: Urobil som prvý projekt škrabania na web pomocou požiadavky a BeautifulSoup. Súbory som uložil ako "názov článku" + ".doc." Zdá sa, že všetci sa otvárajú slovom, ale majú nad každou esejou (rôzne odkazy a také) 2000 nežiaducich bajtov. Používam program MS Word v systéme Windows 10. Python 3.6.

odpovede:

0 pre odpoveď č. 1
with open ("your file", "rb") as f:
f.seek(2000,1)
data=f.read()
with open ("another file", "w+") as f:
f.write(data)

Toto (myslím) bude čítať dáta z 2000. bitov v súbore a zapísať do iného súboru.

Mal by som vám povedať, že toto odstráni iba surové bajty zo súboru a nie nevyhnutne to, čo sa zobrazí pri otvorení s textovým procesorom.