/ / W Pythonie, w jaki sposób usunąć pierwsze x bajtów 5 plików MS Word (.doc) utworzonych przez skrobanie witryny przy użyciu bs4? - python, web-scraping, ms-word, beautifulsoup, bs4

W Pythonie, w jaki sposób usunąć pierwsze x bajtów 5 plików MS Word (.doc) utworzonych przez skrobanie witryny przy użyciu bs4? - python, web-scraping, ms-word, beautifulsoup, bs4

Załóżmy, że mam folder o nazwie "Badania", który ma 5Pliki MS Word (esej 1, esej 2, esej 3, esej 4, esej5). Chciałbym użyć Pythona do usunięcia pierwszych 2000 bajtów (znaków i spacji) każdego pliku. Jak można to zrobić?

Edytuj w kontekście: Zrobiłem mój pierwszy projekt skrobania stron internetowych za pomocą żądania i BeautifulSoup. Zapisałem pliki jako "nazwa artykułu" + ".doc". Wszystkie wydają się otwierać w słowach, ale mają 2000 niechcianych bajtów nad każdym esejem (różne linki i takie). Używam MS Word w Windows 10. Python 3.6.

Odpowiedzi:

0 dla odpowiedzi № 1
with open ("your file", "rb") as f:
f.seek(2000,1)
data=f.read()
with open ("another file", "w+") as f:
f.write(data)

To (jak sądzę) odczyta dane z 2000-tego bitu w pliku i zapisze go w innym pliku.

Powinienem powiedzieć, że to usunie tylko surowe bajty z pliku, a niekoniecznie to, co jest wyświetlane, gdy otworzysz je za pomocą edytora tekstu.