/ / Wyodrębnianie treści artykułu HTML - alternatywa API Alchemy - html, ekstrakcja treści html, alchemyapi

Wyodrębnianie treści artykułów HTML - Alchemia API alternatywa - html, html-content-extraction, alchemyapi

Prowadziłem wiele badań, aby dowiedzieć sięnajlepszy sposób na kodowanie aplikacji, aby uzyskać główną treść artykułu z prawie każdej strony HTML. Mam program w C, który używa libxml2 do analizowania XML, ale natknąłem się na API Alchemy, które wydaje się robić to, co chcę.

Jednak ma tylko API online i chciałem zachować aplikację w domu bez polegania na połączeniach zewnętrznych.

Czy ktoś ma wskazówki? Liczyłem na alternatywę off-line, która robi to, co Alchemy API może zrobić (płatne / nieopłacone).

Moją alternatywą może być po prostu parsowanie HTML iużyj technik NLP (Natural Language Processing) i innych metod, aby uzyskać dostęp do głównej treści artykułu. Typy stron internetowych, które będą używane, obejmują strony internetowe z sekcją wiadomości lub blogiem.

Odpowiedzi:

4 dla odpowiedzi № 1

dostępnych jest kilka narzędzi open source, które wykonują podobne zadania ekstrakcji artykułów. https://github.com/jiminoc/goose który był open source przez Gravity.com

Posiada informacje na wiki, a także źródło, które można wyświetlić. Istnieją dziesiątki testów jednostkowych, które pokazują tekst wyodrębniony z różnych artykułów.


0 dla odpowiedzi nr 2

AlchemyAPI oferuje także rozwiązanie lokalneże nie musisz uzyskiwać do niego dostępu online. Zazwyczaj nasi klienci, którzy mają rozwiązania lokalne, używają go, jeśli mają specjalne wymagania dotyczące bezpieczeństwa lub opóźnienia. Więcej informacji na temat rozwiązań lokalnych można znaleźć tutaj: http://www.alchemyapi.com/products/on-premise/