Jak mohu kopírovat text z PDF při zachování formátování?

PDF, všudypřítomný formát dokumentu, je skvělý pro sdílení dokumentů při zachování písem, obrázků a obecného rozvržení mezi platformami. Existuje však snadný způsob, jak zachovat toto formátování při kopírování a vkládání textu z dokumentu?

Dnešní zasedání Otázky a odpovědi nás přichází s laskavým svolením SuperUser - podřízené rozdělení Stack Exchange, které je založeno na komunitě prostřednictvím skupin webových stránek.

Otázka

Čtečka SuperUser Colen hledá způsob, jak extrahovat text z PDF souborů při zachování formátování:

Když zkopíruji text ze souboru PDF do textového editoru, skončí míchán různými způsoby. Formátování jako tučné a kurzíva je ztraceno; přestávky měkké čáry v odstavci textu jsou přeměněny na přestávky na pevných linkách; pomlčky, aby se přerušilo slovo nad dvěma řádky, se zachovaly, i když by neměly být; a jednoduché a dvojité uvozovky jsou nahrazeny? známky.

V ideálním případě bych chtěl být schopen zkopírovat text z PDF a formátovat převést na kódy HTML, "inteligentní uvozovky" převedené na "a" a řádkové přestávky správně provedené. Existuje nějaký způsob, jak to udělat??

Existuje rychlá a snadná cesta pro Colena (a pro ostatní), abychom získali text bez obětování formátování?

Odpověď

Příspěvek SuperUser Frabjous nabízí řešení kombinované s velkou dávkou opatrnosti:

Za prvé, musíte pochopit, co je PDF. Dokumenty PDF jsou navrženy tak, aby napodobovaly vytištěnou stránku a jsou navrženy pouze jako výstupní formát, nikoli jako vstupní formát. PDF je v podstatě mapa obsahující přesné umístění znaků (jednotlivé písmena nebo interpunkce atd.) nebo obrázky. Ve většině případů PDF ani neukládá informace o tom, kde končí jedno slovo a začíná další slovo, mnohem méně věcí, jako jsou mírné přestávky a těžké přestávky pro ukončení odstavců.

(Několik nedávných souborů PDF ukládá nějaké informace o těchto věcech, ale je to nová technologie a měli byste mít štěstí, že takové PDF soubory najdou. Dokonce i když jste to udělali, váš prohlížeč PDF nemusí o tom vědět.)

Každopádně je na vašem softwaru, aby realizoval nějakou "umělou inteligenci", aby získal pouze z umístění jednotlivých znaků, co je to slovo, co je to odstavec a tak dále. Různý software bude dělat to lépe než ostatní, a bude také záviset na tom, jak byl PDF vytvořen. V žádném případě byste nikdy neměli očekávat dokonalé výsledky. Mít výstupní PDF není stejný jako mít zdrojový dokument. Je mnohem lepší, než se to pokusíte.

Standardním řešením vašeho druhu problému je použití programu Adobe Acrobat Professional (drahého, nikoli volného čtecího zařízení), který převede PDF na HTML. Ani to nebude mít dokonalé výsledky.

K dispozici je bezplatný software, který lze použít k extrahování textu z PDF souborů s některými formátování neporušenými, ale opět neočekávejte dokonalé výsledky. Viz např. Kalibr (který může převést na formát RTF), pdftohtml / pdfreflow nebo AbiWord textový procesor (se všemi importovanými / exportovanými pluginy). K dispozici je také plugin importu PDF pro OpenOffice.

Ale prosím, neočekávejte dokonalost s některým z těchto výsledků. Jdeš sem proti obilí. PDF prostě není určen jako editovatelný vstupní formát.

Pokud máte potíže s rozhodnutím, který nástroj je třeba začít, je Calibre opravdovým dokumentem švýcarský armádní nůž. Můžete jej také použít k převodu souborů PDF pro použití ve vaší čtečce ebook a uspořádání knihovny ebook / dokumentů.

Musíte něco přidat k vysvětlení? Vypadněte v komentářích. Chcete se dozvědět více odpovědí od ostatních uživatelů technologie Stack Exchange? Podívejte se na celý diskusní příspěvek zde.