Pomoc pri programovaní, odpovede na otázky / krajta / Ako v Pyteone odstránite prvé x bajty z 5 súborov MS Word (.doc), ktoré ste vytvorili vyškrtnutím webovej stránky pomocou bs4? - python, škrabanie webových stránok, ms-word, beautifulsoup, bs4

V systéme Python, ako odstránite prvé x bajty z 5 súborov MS Word (.doc), ktoré ste vytvorili oškrtnutím webových stránok pomocou bs4? - python, škrabanie webových stránok, ms-word, beautifulsoup, bs4

Povedz, že mám priečinok s názvom "Výskum", ktorý má 5Súbory MS Word (esej1, esej2, esej3, esej4, esej5). Chcel by som použiť Python na odstránenie prvých 2000 bajtov (znakov a medzery) každého súboru. Ako to možno urobiť?

Upraviť pre kontext: Urobil som prvý projekt škrabania na web pomocou požiadavky a BeautifulSoup. Súbory som uložil ako "názov článku" + ".doc." Zdá sa, že všetci sa otvárajú slovom, ale majú nad každou esejou (rôzne odkazy a také) 2000 nežiaducich bajtov. Používam program MS Word v systéme Windows 10. Python 3.6.

odpovede:

0 pre odpoveď č. 1

with open ("your file", "rb") as f:
f.seek(2000,1)
data=f.read()
with open ("another file", "w+") as f:
f.write(data)

Toto (myslím) bude čítať dáta z 2000. bitov v súbore a zapísať do iného súboru.

Mal by som vám povedať, že toto odstráni iba surové bajty zo súboru a nie nevyhnutne to, čo sa zobrazí pri otvorení s textovým procesorom.

Súvisiace otázky

python škrabanie tým, že získa urls dynamický spôsob - python, web-crawler, web-scraping

Škrabanie webových stránok s python3 & beautifulsoup 4 - python, webové stránky, beautifulsoup, screen-scraping

Screen Scraping webovú stránku založenú na Javascripte v jazyku Python - python, skrátenie obrazovky, beautifulsoup, web-scraping

Python obrazovka oškrabovať celú webovú stránku - python, html, screen-scraping, beautifulsoup

Výber údajov zo zoznamu na základe špecifickej časti reťazca [closed] - python, škrabanie na webe

Generovanie tabuliek XML (Python) - python, xml, ms-word

Ako extrahovať IDy a triedy z webovej stránky pomocou pythonu? - python, html, škrabanie na webe

Ako zrýchliť Beautifulsoup v Pythone? - python, python-2.7, beautifulsoup

Škrábanie obsahu v službe Twitter pomocou programu BeatifulSoup - python, twitter, škrabanie na webe, beautifulsoup

ako odstrániť & zwnj z reťazca v pythone? - python, beautifulsoup, scratching obrazovky

Python 2.7.13 UnicodeEncodeError a špeciálne znaky - python, beautifulsoup, ascii, encode

škrabanie pomocou krásnej polievky - python, python-2.7, web-scraping, html-parsovanie, beautifulsoup

Pre web škrabanie cez Python, kedy by som mal použiť html analyzátor namiesto lxml? Čo je lepšie a prečo? [uzavretý] - python, html, škrabanie na webe, html-parsing, lxml

Python Škrabanie PDF z webovej stránky Prečo sú všetci poškodení a rovnaká veľkosť? - python, pdf, web-scraping, python-žiadosti

Automatické spustenie programu python web-scraping - python, ubuntu, web-scraping

Škrabanie a ukladanie súborov html bez obrázkov v Python - python, škrabanie na webe

Ako skartovať pomocou Pythonu odkaz z html triedy - python, web-scraping

Ako exportovať javascript z html pomocou python [closed] - python, web-scraping

Will Jaunt web škrabka bude schopný škrabanie tejto stránky javascript - java, web-škrabanie

Podávajte štepené HTML dáta ako API pomocou Django Rest Framework - django, rest, web-scraping, django-rest-framework