Domovská » jak » Jak převést soubor PDF na upravitelný text pomocí příkazového řádku v systému Linux

    Jak převést soubor PDF na upravitelný text pomocí příkazového řádku v systému Linux

    Existují různé důvody, proč můžete převést soubor PDF do upravitelného textu. Možná budete muset revidovat starý dokument a vše, co máte, je jeho verze PDF. Převod souborů PDF v systému Windows je snadný, ale co když používáte systém Linux?

    Bez obav. Ukážeme vám, jak snadno převést soubory PDF do upravitelného textu pomocí nástroje příkazového řádku s názvem pdftotext, který je součástí balíčku "poppler-utils". Tento nástroj může být již nainstalován. Chcete-li zkontrolovat, zda je v systému nainstalován pdftotext, stiskněte "Ctrl + Alt + T" pro otevření okna terminálu. Na výzvu zadejte následující příkaz a stiskněte klávesu "Enter".

    dpkg -s poppler-utils

    POZNÁMKA: Když řekneme něco napsat v tomto článku a v textu jsou uvozovky, NEVIDÍTE citace, pokud nestanovíme jinak.

    Pokud není soubor pdftotext nainstalován, zadejte na výzvu následující příkaz a stiskněte "Enter".

    sudo apt-get nainstalovat poppler-utils

    Zadejte své heslo po výzvě a stiskněte "Enter".

    V balíčku poppler-utils je k dispozici několik nástrojů pro konverzi PDF do různých formátů, manipulaci se soubory PDF a extrahování informací ze souborů.

    Následuje základní příkaz pro konverzi souboru PDF do upravitelného textového souboru. Stisknutím klávesy Ctrl + Alt + T otevřete okno Terminál, zadejte příkaz na výzvu a stiskněte klávesu Enter..

    pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Změňte cestu ke každému souboru tak, aby odpovídala umístění a názvu původního souboru PDF a kam chcete uložit výsledný textový soubor. Změňte také názvy souborů tak, aby odpovídaly názvům souborů.

    Textový soubor je vytvořen a lze ho otevřít stejně, jako byste otevřeli libovolný jiný textový soubor v systému Linux.

    Převedený text může mít přestávky v řádcích na místech, která nechcete. Po každém řádku textu v souboru PDF se vkládají řádky.

    Rozvržení dokumentu (záhlaví, zápatí, stránkování atd.) Můžete zachovat z původního souboru PDF v převedeném textovém souboru pomocí příznaku "-layout".

    pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Chcete-li převést rozsah stránek pouze v souboru PDF, použijte příznaky "-f" a "-l" (malá písmena "L") pro zadání první a poslední stránky v rozsahu, který chcete převést.

    pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Chcete-li převést soubor PDF, který je chráněn a šifrovaný heslem vlastníka, použijte příznak "-opw" (první znak ve vlajce je malé písmeno "O", nikoli nula).

    pdftotext -opw 'heslo' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt

    Změňte "heslo" na heslo použité k ochraně původního převedeného souboru PDF. Ujistěte se, že existují jednoduché uvozovky, nikoliv dvojité, kolem "hesla".

    Pokud je soubor PDF chráněn a šifrován heslem uživatele, použijte příznak "-upw" namísto příznaku "-opw". Zbytek příkazu je stejný.

    Můžete také zadat typ znaku konce řádku, který je použit pro převedený text. To je obzvláště užitečné, pokud plánujete přistupovat k souboru v jiném operačním systému, jako je Windows nebo Mac. Chcete-li to provést, použijte příznak "-eol" (prostřední znak ve vlajce je malé písmeno "O", nikoliv nula), za kterým následuje mezera a typ znaku konce řádku, který chcete použít (" unix "," dos "nebo" mac ").

    POZNÁMKA: Pokud nezadáte název souboru pro textový soubor, pdftotext automaticky použije základnu souboru PDF a přidá příponu ".txt". Například "file.pdf" bude převeden na "file.txt". Pokud je textový soubor zadán jako "-", převedený text je odeslán do stdout, což znamená, že text je zobrazen v okně Terminál a není uložen do souboru.

    Chcete-li zavřít okno Terminál, klepněte na tlačítko "X" v levém horním rohu.

    Další informace o příkazu pdftotext zadejte příkaz "man page pdftotext" na výzvu v okně Terminál.