Domovská » Software ke stažení zdarma » Výpis textu ze souborů PDF a obrázků

    Výpis textu ze souborů PDF a obrázků

    Máte dokument PDF, ze kterého chcete extrahovat celý text? Co obrazové soubory naskenovaného dokumentu, který chcete převést na upravitelný text? To jsou některé z nejčastějších problémů, které jsem viděl na pracovišti při práci se soubory.

    V tomto článku budu hovořit o několika různých způsobech, jak se můžete pokusit extrahovat text z PDF nebo z obrázku. Výsledky extrakce se budou lišit v závislosti na typu a kvalitě textu v PDF nebo obrázku. Výsledky se také budou lišit v závislosti na používaném nástroji, takže je nejlepší vyzkoušet si co nejvíce níže uvedených možností..

    Extrahovat text z obrázku nebo PDF

    Nejjednodušší a nejrychlejší způsob, jak začít, je vyzkoušet službu online extrakce textu ve formátu PDF. Ty jsou obvykle zdarma a mohou vám poskytnout přesně to, co hledáte, aniž byste museli na počítač instalovat cokoliv. Zde jsou dva, které jsem použil s velmi dobrými až vynikajícími výsledky:

    ExtractPDF

    ExtractPDF je bezplatný nástroj pro uchopení obrázků, textu a písem z PDF souboru. Jediným omezením je, že maximální velikost souboru PDF je 10 MB. To je trochu malé; takže pokud máte větší soubor, zkuste některé z dalších metod níže. Vyberte soubor a klepněte na tlačítko Poslat soubor tlačítko. Výsledky jsou obvykle velmi rychlé a po kliknutí na kartu Text by se měl zobrazit náhled textu.

    Je to také pěkná přidaná výhoda, že výpisy z PDF souboru také, jen v případě, že potřebujete ty! Celkově lze říci, on-line nástroj funguje skvěle, ale já jsem narazil na pár PDF dokumentů, které mi vtipné výstup. Text je extrahován v pořádku, ale z nějakého důvodu bude mít za každým slovem konec řádku! Není to velký problém pro krátký soubor PDF, ale určitě problém pro soubory se spoustou textu. Pokud k tomu dojde, zkuste další nástroj.

    Online OCR

    Online OCR obvykle inklinoval pracovat pro dokumenty, které nebyly konvertovány správně s ExtractPDF, takže je to dobrý nápad vyzkoušet obě služby a zjistit, které z nich vám dávají lepší výstup. Online OCR má také některé hezčí funkce, které mohou být užitečné pro každého, kdo má velký soubor PDF, který potřebuje pouze převést text na několik stránek, nikoli celý dokument..

    První věc, kterou chcete udělat, je vytvořit si účet zdarma. Je to trochu otravné, ale pokud nevytvoříte bezplatný účet, převede váš dokument PDF pouze částečně a ne celý dokument. Místo toho, abyste mohli nahrát pouze 5 MB dokument, můžete nahrát až 100 MB na jeden soubor s účtem.

    Nejprve vyberte jazyk a poté vyberte typ výstupních formátů, které chcete pro převedený soubor použít. Máte několik možností a můžete si vybrat více než jednu, pokud chcete. Pod Vícestránkový dokument, můžete vybrat Čísla stránek a pak vyberte pouze stránky, které chcete převést. Poté vyberte soubor a klepněte na tlačítko Konvertovat!

    Po konverzi budete převedeni do sekce Dokumenty (pokud jste přihlášeni), kde uvidíte, kolik dostupných volných stránek máte a odkazy ke stažení převedených souborů. Vypadá to, že máte denně pouze 25 stránek zdarma, takže pokud potřebujete více, musíte buď počkat nebo koupit více stránek..

    Online OCR udělal skvělou práci konverze mých PDF, protože byl schopen udržet aktuální rozložení textu. V mém testu jsem vzal dokument Word, který používal kulky, různé velikosti písma atd. A převedl jej na PDF. Pak jsem použil Online OCR, aby byl převeden zpět do formátu Word a byl přibližně 95% stejný jako originál. To je pro mě docela působivé.

    Navíc, pokud hledáte převést obrázek na text, pak Online OCR to může udělat stejně snadno jako extrahování textu ze souborů PDF.

    Online OCR zdarma

    Vzhledem k tomu, že mluvili o obrazu do textu OCR, dovolte mi zmínit další dobré webové stránky, které fungují opravdu dobře na snímcích. Bezplatné online OCR bylo velmi dobré a velmi přesné při extrahování textu z mých testovacích obrázků. Vzal jsem pár fotek z mého iPhone stránek z knih, letáků, atd. A byl jsem překvapen, jak dobře byl schopen text převést.

    Vyberte soubor a klepněte na tlačítko Nahrát. Na další obrazovce je několik možností a náhled obrázku. Můžete oříznout, pokud nechcete OCR celou věc. Pak stačí kliknout na tlačítko OCR a převedený text se zobrazí pod náhledem obrázku. Nemá také žádná omezení, což je opravdu pěkné.

    Kromě on-line služeb, tam jsou dva freeware převodníky PDF chci zmínit v případě, že potřebujete software běžící lokálně na vašem počítači provádět konverze. S online službami budete vždy potřebovat připojení k internetu a to nemusí být možné pro každého. Všiml jsem si však, že kvalita konverzí z freewarových programů byla podstatně horší než kvalita webových stránek.

    A-PDF Text Extractor

    A-PDF Text Extractor je freeware, který dělá docela dobrou práci extrahování textu z PDF souborů. Jakmile jej stáhnete a nainstalujete, klepněte na tlačítko Otevřít a vyberte soubor PDF. Poté spusťte proces kliknutím na příkaz Extrahovat text.

    Bude vás požádat o umístění pro uložení textového výstupního souboru a pak se začne extrahovat. Můžete také kliknout na Volba tlačítko, které umožňuje vybrat pouze určité stránky, které se mají extrahovat, a typ extrakce. Druhá možnost je zajímavá, protože text vyextrahuje v různých rozloženích a stojí za to vyzkoušet všechny tři, abyste zjistili, který z nich vám dává nejlepší výkon.

    PDF2Text Pilot

    PDF2Text Pilot dělá ok práci extrahování textu. Nemá žádné možnosti; stačí přidat soubory nebo složky, převést a doufat v nejlepší. Na některých dokumentech PDF to fungovalo dobře, ale pro většinu z nich bylo mnoho problémů.

    Stačí kliknout na tlačítko Přidat soubory a poté na tlačítko Konvertovat. Po dokončení konverze otevřete soubor klepnutím na tlačítko Procházet. Počet kilometrů se bude lišit pomocí tohoto programu, takže nečekejte mnoho.

    Také stojí za zmínku, že pokud jste ve firemním prostředí, nebo můžete dostat ruce na kopii Adobe Acrobat z práce, pak můžete opravdu získat mnohem lepší výsledky. Acrobat samozřejmě není volný, ale má možnosti převést PDF do formátu Word, Excel a HTML. To také dělá nejlepší práci udržení struktury původního dokumentu a konverzi složitého textu.