Tesseract.js Přenese obraz OCR překlad do prohlížečů

Překlad OCR stále není dokonalý, ale v posledních letech se dramaticky zlepšil. Vedoucí cesta je Tesseract překladatelský stroj v současné době otevřeno C++.

I když se jedná o neuvěřitelnou knihovnu, je to omezeno na software. Naštěstí někdo udělal port Tesseractu do JavaScriptu, který se nazývá Tesseract.js. To podporuje až 60 jazyků a i když to určitě není dokonalé, dělá to dobře.

Instalace a nastavení je hračkou, kde můžete cílový libovolný prvek obrázku na stránce a spusťte Tesseract.recognize () funkce. To může mít jakýkoliv typ obrázku a automaticky komprimovat a překládat přímo v prohlížeči.

Můžete získat mnohem složitější, ale krása je jak můžete spustit OCR s jedním řádkem kódu.

Pokud chcete vidět živé demo, podívejte se na vstupní stránku Tesseract.js. To funguje přímo v prohlížeči, kde můžete přetažením naskenovaného obrázku textu získáte automatický překlad OCR.

Tento příklad si můžete také stáhnout lokálně přes stránku GitHub nebo si můžete vytvořit vlastní aplikaci včetně skriptu Tesseract.js přímo z CDN.

Nejjednodušší příklad kódu vypadá následovně myImage je přímý odkaz na prvek obrázku HTML:

 Tesseract.recognize (myImage) .then (funkce (výsledek) console.log (výsledek));

Ať tak či onak, tato knihovna je tak užitečná, abyste se mohli pohybovat s OCR na webu. Je to zdaleka dokonalé, ale je to také nejlepší zdroj pro webové vývojáře, kteří chtějí dynamickou funkčnost OCR uvnitř stránky.

Chcete-li se dozvědět více, navštivte stránku Tesseract.js GitHub, kde si můžete prohlédnout živé demo a procházet online dokumentací.