Jak extrahovat text z obrázků pomocí příkazového řádku
Stačí si přečíst obrázek a vytáhnout text sami. Ale dynamicky tahání textu z fotografie je trochu tvrdší a naštěstí, imgclip nabízí poměrně jednoduché řešení.
Tento nástroj příkazového řádku běží v terminálu pro Mac, Windows a Linux. To prostě vezme argument pro obrazový soubor spolu s jazykem, pak vrátí text zkopírovány do schránky.
Můžete instalovat celou knihovnu pomocí npm a je to docela jednoduchá instalace. Jedná se o to pouze několik KB a přichází se souborem JS, který můžete procházet na GitHub.
Imgclip používá Tesseract.js knihovna pro automatizaci zpracování obrazu a tažení textu přes OCR. Je to jedna z nejvýkonnějších knihoven OCR a je to zcela otevřený zdroj, stejně jako imgclip.
Myslím, že jsem velmi ohromen kvalitou a rychlostí tohoto nástroje. Opravdu to funguje vytáhněte přesný text a je to jeden z nejjednodušších nástrojů.
Příkaz imgclip by měl být běžet přímo v terminálu, následuje relativní cesta k obrázku. Můžete také přidat čtyři možnosti na konci přizpůsobit výstup.
-h
,--Pomoc
: vydává informace o použití-PROTI
,--verze
: vydává číslo verze-Já
,--lang
: Výstupem je jazyk textu na obrázku-str
,--vytisknout
: vytiskne text v obrázku (místo kopírování do schránky)
Od tohoto psaní, Tesseract podporuje 65 jazyků s více na cestě. Kód, který připojíte k --lang
tag by měl být jakýkoliv kód používaný v těchto souborech Tesseract.
Například, -l eng
vyhledá obrázek Anglický text, zatímco -l jpn
vyhledá Japonský text a můžete dokonce spustit -l jpn_vert
něco hledat vertikálně orientovaný japonský text.
Protože imgclip spoléhá na Tesseract, máte v zásadě k dispozici celou knihovnu.
Na začít, navštivte stránku GitHub a stáhněte si kopii lokálně, nebo ji nainstalujte do určitého adresáře přes npm. Poté můžete nástroj spustit v terminálu jako aplikaci analyzovat jakýkoliv obrázek, který chcete.
Vidět imgclip v akci, podívejte se na toto krátké video vytvořené jako imgclip demo.