/ / रूबी ऑन रेल्स के लिए HTML कनवर्टर का एक अच्छा पीडीएफ क्या है? [बंद] - html, रूबी-ऑन-रेल, रूबी, पीडीएफ, पीडीएफ-टू-html

रूबी ऑन रेल्स के लिए HTML कनवर्टर से अच्छा पीडीएफ क्या है? [बंद] - html, रूबी-ऑन-रेल, रूबी, पीडीएफ, पीडीएफ-टू-html

मैं प्रोग्राम को पीडीएफ को HTML में बदलने की कोशिश कर रहा हूं। अब तक मैं "का उपयोग कर रहा हूं।" pdftohtml लेकिन हमारे उपयोगकर्ता परिणामों से खुश नहीं हैं।

यहाँ मुझे क्या चाहिए:

  • मैं पटरियों पर रूबी का उपयोग कर रहा हूं, लेकिन यूनिक्स पर काम करने वाला कोई भी उपकरण काम करेगा क्योंकि मैं इसे कमांड लाइन से कह सकता हूं। लेकिन निश्चित रूप से एक अच्छा रत्न या प्लगइन सही होगा।

  • मैं इसे खुला स्रोत होना पसंद करता हूं

  • यह सक्षम करने के लिए छवियों को संभालने की जरूरत है

  • अगर जरूरत हो तो छवियों को त्यागने का विकल्प भी अच्छा होगा

  • इसे स्थिर करने की आवश्यकता है

  • इसे html को मूल पीडीएफ के करीब लेआउट के साथ वापस करने की आवश्यकता है (मैंने कोशिश की है) pdftohtml और परिणाम बहुत सारे मामलों में अच्छा नहीं है)

उत्तर:

उत्तर № 1 के लिए 10

यहाँ pdftohtml / xpdf के कुछ और विकल्प दिए गए हैं:

  • Adobe में HTML या पाठ के लिए एक मुफ़्त ऑनलाइन पीडीएफ है रूपांतरण सेवा। दस्तावेज़ को वापस लाने में एक या दो मिनट का समय लग सकता है, लेकिन मुझे संदेह है कि यह विकल्प आपको सर्वोत्तम परिणाम देगा।
  • वहां एक है पीडीएफ़ रीडर माणिक रत्न जो आपको पहुंच प्रदान करेगापीडीएफ फाइल के इंटर्नल। इसमें आपकी ओर से कुछ विकास / विस्तार शामिल होगा, लेकिन आप इसका उपयोग पीडीएफ फाइल को पार्स करने और अच्छा दिखने वाला HTML उत्पन्न करने के लिए कर सकते हैं। यह आसान लग सकता है जब आप जानते हैं कि आपके उपयोगकर्ता किस प्रकार की फ़ाइलों को समय से पहले परिवर्तित कर रहे हैं (जैसे कि वे मानकीकृत रूपों के साथ काम कर रहे हैं)।
  • यदि आप उपयोग करते हैं तो आपके पास अधिक विकल्प हो सकते हैं Ghostscript (मणि यहाँ पाया गया) पीडीएफ को दूसरे प्रारूप में बदलने के लिएप्रथम। मणि एक पीडीएफ फाइल से चित्र (png, jpg, आदि) उत्पन्न कर सकता है लेकिन आपके पास एक पोस्टस्क्रिप्ट फ़ाइल में परिवर्तित करने का सबसे अच्छा भाग्य हो सकता है क्योंकि ऐसा प्रतीत होता है कि एक ज़िपर "पोस्टस्क्रिप्ट-टू- [यहां प्रारूप डालें]" कन्वर्टर्स हैं।

जवाब के लिए 5 № 2

पीडीएफ से HTML रूपांतरण के लिए, PDF2htmlEX एक बहुत अच्छे उपकरण की तरह लगता है (सभी उदाहरणों / नमूनों को देखकर):

https://github.com/coolwanglu/pdf2htmlEX


जवाब के लिए 3 № 3

यदि अन्य सभी विफल हो जाते हैं, तो आप प्रत्येक पृष्ठ को एक छवि में बदल सकते हैं (छवि मैजिक या समान का उपयोग करके) और छवियों को प्रदर्शित कर सकते हैं, एक ला http://books.google.com या http://safari.oreilly.com। यह एक बैंडविड्थ हॉग होगा, लेकिन आपको मूल में निष्ठा मिलेगी।


जवाब के लिए 2 № 4

मैंने एक शोध परियोजना पर काम करते हुए कुछ समय बितायाजिसमें इनपुट के रूप में पीडीएफ लेना शामिल था। जो आप पूछ रहे हैं वह सिर्फ एक बहुत मुश्किल काम है, और कोई भी सॉफ्टवेयर इसे पूरी तरह से नहीं करेगा। जबकि HTML में कुछ संरचना है, जैसे <p>, पीडीएफ विशुद्ध रूप से प्रस्तुतिकरण है। एक HTML दस्तावेज़ कहेगा, "यह एक पैराग्राफ है। यह एक छवि है।" और प्रस्तुति उसी से व्याख्यायित होती है। एक पीडीएफ दस्तावेज़ अनिवार्य रूप से कहेगा: "इस चरित्र को एक्स, वाई पर प्रस्तुत किया जाना चाहिए। इस अगले चॉकर को स्थिति में प्रदान किया जाएगा ..." आदि। इसलिए यहां तक ​​कि पैराग्राफ का निर्माण भी कठिन हो सकता है।

मैं जावा में काम कर रहा था, इसलिए मुझे नहीं लगता किविशिष्ट कार्यक्रम जो मैंने उपयोग किया है वह आपके बहुत काम आएगा। इसके अलावा, मुझे याद है कि कुछ पीडीएफ जनरेटर छोटी छवियों में एक छवि को विभाजित करते हैं और उन्हें एक-दूसरे के बगल में प्रदर्शित करते हैं - यह एक बहुत बड़ा दर्द था।

क्या कोई संभव तरीका है कि आप एक अलग प्रारूप के साथ काम कर सकते हैं, या अपनी अपेक्षाओं को कम कर सकते हैं? आप वेन को जिस छवि का सुझाव देते हैं वह कर सकते हैं, लेकिन तब यह नहीं है वास्तव में HTML (और यह सुलभ नहीं है - क्या यह आपके लिए एक चिंता का विषय है?)। इसके लिए आपको बस कुछ ऐसा होना चाहिए जिसके साथ आप रहते हैं।


जवाब के लिए 0 № 5

पॉपलर या xpdf का उपयोग करने का प्रयास करें। लेकिन यह कुछ जादू और बंधन की जरूरत है।


जवाब के लिए 0 № 6

तुम कोशिश कर सकते हो http://www.pdf-to-html-word.com/pdf-to-html जो वास्तव में अच्छा काम करता है। मैंने इसकी कार्यक्षमता की जाँच के बाद इसके लिए भुगतान किया। आपके पास इसका परीक्षण करने के लिए एक मुफ्त सवारी है। या फिर Acrobat Pro और CSS के साथ HTML के रूप में सहेजें का उपयोग करें। वह भी काम करता है। लेकिन यह फ़ाइलों का एक गुच्छा के साथ करने के लिए ** में एक दर्द है।


उत्तर के लिए 0 № 7

यह कोशिश कर सकते हैं। मैंने pdftohtml उपयोगिता के आसपास रूबी को लपेटने पर पहला कट लिया। रत्न यहां उपलब्ध है: http://gemcutter.org/gems/pdftohtmlr


जवाब के लिए 0 № 8

कुछ समय के लिए pdftohtml का उपयोग करने और html संस्करण के प्रदर्शन परिणामों से असंतुष्ट होने के बाद, मैं या तो Google ऐप्स दस्तावेज़ API या स्क्रिबल API (मेरा पसंदीदा अभी) का उपयोग करने पर विचार कर रहा हूं

http://www.scribd.com/developers/api

अंत में, मैं शायद पीडीऍफ़ फाइल के टेक्स्ट कंटेंट को निकालने के लिए pdftohtml का उपयोग करूँगा और उपयोगकर्ता पृष्ठ पर मूल फ़ाइल को प्रदर्शित करने के लिए एग्रीबॉडी


जवाब के लिए 0 № 9

मैंने केवल एक रूबी रत्न को जारी किया हैखुले कार्यालय के साथ दस्तावेज रहित (पोयॉन्के्रक्टर या जोडॉन्कोडर् के माध्यम से)। यह पीडीएफ़ फ़ाइलों से पाठ डांस छवियों को निकालने के लिए अन्य कुछ लिब्रेरीज़ (pdftools और netpbm) को भी एकीकृत करता है।

आप इसे यहां देख सकते हैं https://github.com/itkin/proselytism.git

अपने स्वयं के कन्वर्टर्स जोड़ने के लिए स्वतंत्र महसूस करें और मुझे कुछ मुद्दों की रिपोर्ट करें