Jak extrahovat text a obrázky snadno ze souborů MS Office
Můžeme narazit na potřebu extrahovat obrázky nebo text ze souboru MS Word nebo MS Powerpoint. Obvykle to může zahrnovat ruční kopírování a vkládání, jednu stránku najednou a mega-velké soubory..
Máme jednoduchý trik, který vám pomůže extrahovat obrázky a text ze souborů nového formátu tj. DOCX, PPTX, XLSX, zatímco se soubory staršího formátu, tj. DOC, PPT, XLS, vše, co potřebujete, je svobodný software vám pomůže rychle a snadno extrahovat obrázky.
Poznámka: Pro demonstraci tohoto příspěvku budeme používat pouze soubor MS Word. Proces je stejný pro soubory MS Powerpoint a MS Excel.
Tento článek popisuje:
- Jak extrahovat obrázky a text z DOCX, PPTX, XLXS souborů
- Jak extrahovat obrázky z jednoho souboru DOC, PPT nebo XLS
- Jak extrahovat obrázky z více souborů DOC, PPT nebo XLS
- Jak extrahovat obrázky pomocí “Uložit jako webovou stránku” metoda
- Jak extrahovat prostý text místo XML
Jak extrahovat obrázky a text z DOCX, PPTX, XLXS souborů
Před provedením kroků otevřete složku obsahující soubory. klikněte Organizovat> Složka a Možnosti hledání> Zobrazit a zrušte zaškrtnutí Skrýt přípony známých typů souborů. Nyní můžete vidět příponu souboru s každým názvem souboru.
-
Vyhledejte a vyberte soubor, ze kterého chcete extrahovat obrázky a text (poznámka: je lepší vytvořit kopii uvedeného souboru). V tomto příkladu je pojmenován cílový soubor Sample File.docx.
-
lis F2 přejmenovat soubor a nahradit název přípony .zip.
-
Zobrazí se varování, které potvrdí změnu přípony souboru. Klikněte na Ano.
-
Klikněte pravým tlačítkem myši na soubor ZIP a klikněte na Extrahovat soubory.
-
Vyhledejte a otevřete složku obsahující extrahovaná data a otevřete slovo.
-
V něm uvidíte několik složek a XML souborů. V médií sloľku najdete extrahované obrázky. Chcete-li zobrazit text, který chcete zrušit, otevřete soubor document.xml soubor s Poznámkový blok nebo Poznámkový blok XML.
Zde je to, co najdete v médií složky.
Jak extrahovat obrázky z jednoho souboru DOC, PPT nebo XLS
Pokud chcete extrahovat obrázky ze souborů MS Office s starších formátů, výše uvedená metoda nebude s obrázky pracovat. K tomuto účelu potřebujete bezplatný nástroj nazvaný Průvodce extrakcí Office Image Extraction. Nástroj pracuje se soubory MS Office až do roku 2012 a pracuje s jedním nebo více soubory MS Office najednou.
-
Stáhnout a Nainstalujte Průvodce extrakcí Office Image Extraction.
-
Vyberte dokument, ze kterého chcete extrahovat obrázky (pro tento příklad to děláme do složky, kterou jsem pojmenoval) Ch1.doc) a vyberte výstupní složku. Můžete se rozhodnout, že složka bude vytvořena pro umístění všech vašich výstupních obrázků zaškrtnutím této možnosti Vytvořte zde složku. Až budete hotovi, klikněte další.
-
Klikněte na Start zahájit proces.
-
Po dokončení procesu extrakce klikněte na Kliknutím sem otevřete cílovou složku a otevře se výstupní složka.
-
Jak můžete vidět níže, program vytvořil a Ch1 složky.
-
Uvnitř složky jsou extrahované obrázky.
Jak extrahovat obrázky z více souborů DOC, PPT nebo XLS
-
Pro extrahování obrázků z více souborů formátu DOC, PPT nebo XLS zaškrtněte políčko Dávkový režim možnost vlevo dole.
-
Klikněte na Přidat soubory a pak vybrat soubory, ze kterých chcete extrahovat obrázky. Podrž Ctrl pro výběr více souborů najednou. Po výběru souborů klepněte na tlačítko další.
-
Klikněte na Start.
-
Po dokončení procesu vyhledejte a otevřete výstupní složka. Zde uvidíte dvou složek s původními názvy souborů. otevřeno Tyto složky zobrazují extrahované obrázky z původních souborů MS Office.
Jak extrahovat obrázky metodou "Uložit jako webovou stránku"
Tam je další metoda, která bude pracovat s oběma novější a starší Soubory MS Office.
-
Otevřete soubor DOCX nebo XLSX a klikněte na Soubor> Uložit jako> Počítač> Prohlížeč a uložit soubor jako Webová stránka.
-
Lokalizovat složku s názvem souboru jste uložili webovou stránku dovnitř Zde se zobrazí všechny obrázky extrahované ze souboru.
Jak extrahovat Plaintext místo XML
-
Otevřete soubor DOCX a klikněte na Soubor> Uložit jako> Počítač> Prohlížeč. Zvolte pro uložení souboru jako Prostý text (u souborů XLSX jej uložte jako Text (oddělený tabulátorem)).
-
Lokalizovat a otevřeno soubor s názvem, který jste pouľili pro jeho uloľení. Tento textový soubor bude obsahovat pouze text z původního souboru bez formátování.
Pokud znáte jakoukoliv jinou metodu nebo nástroj pro extrahování obrázků ze souborů MS Office, uveďte prosím připomínky sekce.