Scan en OCR

Goeie middag

Waarskynlik het ons almal die taak gekry wanneer u 'n vraestel in elektroniese vorm moet vertaal. Dit is veral nodig vir diegene wat studeer, werk met dokumentasie, tekste vertaal deur elektroniese woordeboeke te gebruik, ens.

In hierdie artikel wil ek graag deel van die basiese beginsels van hierdie proses. Oor die algemeen is skandering en teksherkenning redelik tydrowend, aangesien die meeste operasies met die hand gedoen moet word. Ons sal probeer om uit te vind wat, hoe en hoekom.

Nie almal verstaan ​​dadelik een ding nie. Na die skandering (al die lakens op die skandeerder pas), sal u foto's van die formaat BMP, JPG, PNG, GIF (daar is ander formate). So uit hierdie foto moet jy die teks kry - hierdie proses word erkenning genoem. In hierdie volgorde, en sal hieronder aangebied word.

Die inhoud

  • 1. Wat is nodig vir skandering en herkenning?
  • 2. Teks skandering opsies
  • 3. Erkenning van die teks van die dokument
    • 3.1 Teks
    • 3.2 Prente
    • 3.3 Tabelle
    • 3.4 Onnodige Items
  • 4. Erkenning van PDF / DJVU lêers
  • 5. Foute kontroleer en stoor werkresultate

1. Wat is nodig vir skandering en herkenning?

1) Skandeerder

Om gedrukte dokumente in teksvorm te vertaal, benodig u eers 'n skandeerder en dus "inheemse" programme en bestuurders wat daarmee saamgegaan het. Met hulle kan jy die dokument skandeer en dit stoor vir verdere verwerking.

Jy kan ander analoge gebruik, maar die sagteware wat by die skandeerder in die kit kom, werk gewoonlik vinniger en het meer opsies.

Afhangende van watter soort skandeerder jy het - die spoed van werk kan aansienlik wissel. Daar is skandeerders wat binne 10 sekondes 'n foto van 'n vel kan kry, daar is een wat dit binne 30 sekondes sal kry. As jy 'n boek op 200-300 velle skandeer, dink ek dit is nie moeilik om te bereken hoeveel keer daar 'n verskil in tyd sal wees nie?

2) Program vir erkenning

In ons artikel sal ek jou die werk wys in een van die beste programme vir die skandering en erken absoluut enige dokumente - ABBYY FineReader. omdat Die program word betaal, dan sal ek dadelik 'n skakel aan die ander gee - die gratis analoog van die Cunei-vorm. True, ek sal dit nie vergelyk nie, aangesien FineReader in alle opsigte wen, beveel ek aan om dit alles te probeer.

ABBYY FineReader 11

Amptelike webwerf: //www.abbyy.ru/

Een van die beste programme van sy soort. Dit is ontwerp om die teks in die prent te herken. Bou baie opsies en funksies. Dit kan 'n klomp lettertipes ontleed, selfs handgeskrewe weergawes ondersteun (alhoewel ek dit nie persoonlik probeer het nie, dink ek dit is goed om die handgeskrewe weergawe skaars te herken, tensy jy 'n perfekte kalligrafiese handskrif het). Meer inligting oor die werk met haar sal hieronder bespreek word. Ons let ook daarop dat die artikel die werk in program 11 weergawes dek.

As 'n reël verskil verskillende weergawes van ABBYY FineReader nie baie van mekaar nie. Jy kan dit maklik in die ander doen. Die belangrikste verskille kan wees in die gerief, spoed van die program en sy vermoëns. Byvoorbeeld, vroeër weergawes weier om 'n PDF-dokument en DJVU oop te maak ...

3) Dokumente om te scan

Ja, so hier, het ek besluit om die dokumente in 'n aparte kolom uit te haal. Skandeer in die meeste gevalle enige handboeke, koerante, artikels, tydskrifte, ens daardie boeke en die literatuur wat in aanvraag is. Waarop lei ek? Uit persoonlike ervaring kan ek soveel sê wat jy wil skandeer - kan al op die internet wees! Hoeveel keer het ek persoonlik tyd bespaar toe ek een boek of een wat reeds op die netwerk geskandeer is, gevind het. Ek moes net die teks in die dokument kopieer en daarmee voortgaan.

Vanuit hierdie eenvoudige raad - maak seker of iemand dit reeds gescan het voordat jy iets skandering en jy hoef nie jou tyd te mors nie.

2. Teks skandering opsies

Hier sal ek nie oor jou bestuurders vir die skandeerder praat nie, die programme wat daarmee gepaard gegaan het, want alle skandeerdermodelle is anders. Sagteware is ook oral anders en raai en selfs duideliker hoe om die operasie uit te voer, is onrealisties.

Maar alle skandeerders het dieselfde instellings wat die spoed en kwaliteit van u werk kan beïnvloed. Hier oor hulle sal ek net hier praat. Ek sal in volgorde lys.

1) Scan kwaliteit - DPI

Stel eers die skanderingskwaliteit in die opsies nie laer as 300 dpi nie. Dit is raadsaam om selfs 'n bietjie meer te plaas, indien moontlik. Hoe hoër die DPI aanwyser is, hoe duideliker sal jou prentjie uitkom, en dus sal verdere verwerking vinniger plaasvind. Daarbenewens hoe hoër die kwaliteit van die scan - hoe minder foute moet jy later regstel.

Die beste opsie bied gewoonlik 300-400 DPI.

2) chromatisiteit

Hierdie parameter het grootliks invloed op die skanderingstyd (DPI beïnvloed terselfdertyd ook, maar dit is so sterk en slegs wanneer die gebruiker hoë waardes stel).

Gewoonlik is daar drie maniere:

- swart en wit (ideaal vir gewone teks);

- grys (geskik vir teks met tabelle en prente);

- kleur (vir kleur tydskrifte, boeke, in die algemeen, dokumente, waar kleur belangrik is).

Gewoonlik hang die skanderingstyd af van die keuse van kleur. Na alles, as jy 'n groot dokument het, sal selfs die ekstra 5-10 sekondes op die bladsy as geheel 'n ordentlike tyd tot gevolg hê ...

3) Foto's

U kan die dokument nie net deur skandering kry nie, maar ook deur 'n prentjie daarvan te maak. As 'n reël, in hierdie geval sal jy nog ander probleme hê: beeldvervorming, vervaging. As gevolg hiervan kan die verdere verwerking en verwerking van die ontvangde teks langer vereis word. Persoonlik beveel ek nie aan om kameras vir hierdie besigheid te gebruik nie.

Dit is belangrik om daarop te let dat nie elke sodanige dokument erken sal word nie omdat skandeer kwaliteit kan hy baie laag wees ...

3. Erkenning van die teks van die dokument

Ons aanvaar dat die gekeurde bladsye wat u gekontroleer het, ontvang is. Mees dikwels is hulle formate: tif, bmb, jpg, png. In die algemeen, vir ABBYY FineReader - dit is nie baie belangrik nie ...

Nadat die foto in ABBYY FineReader oopgemaak is, begin die program as 'n reël op die masjien om areas te identifiseer en dit te herken. Maar soms doen sy dit verkeerd. Hiervoor beskou ons die keuse van die gewenste areas met die hand.

Dit is belangrik! Nie almal verstaan ​​dadelik dat nadat u 'n dokument in die program oopgemaak het nie, die brondokument aan die linkerkant in die venster vertoon word waarin u verskillende areas verlig. Nadat u op die "erkenning" knoppie gekliek het, sal die program in die venster aan die regterkant u die voltooide teks bring. Na erkenning, terloops, is dit raadsaam om die teks vir foute in dieselfde FineReader na te gaan.

3.1 Teks

Hierdie area word gebruik om teks te verlig. Prente en tabelle moet daarvan uitgesluit word. Skaars en ongewone lettertipes moet handmatig ingevoer word ...

Om 'n teksarea te kies, let op die paneel bo-aan die FineReader. Daar is 'n knoppie "T" (sien. Die kiekie hieronder, die muiswyser is net op hierdie knoppie). Klik daarop, en kies dan die netjies reghoekige area waarin die teks geleë is. Terloops, in sommige gevalle moet jy teksblokke van 2-3 skep, en soms 10-12 per bladsy, want Teksformatering kan anders wees en kies nie die hele gebied met een reghoek nie.

Dit is belangrik om daarop te let dat beelde nie in die teksarea val nie! In die toekoms sal dit jou baie spaar ...

3.2 Prente

Gebruik om beelde en gebiede wat moeilik is om te herken weens swak gehalte of ongewone font, uit te lig.

In die kiekie hieronder, is die muiswyser op die knoppie wat gebruik word om die "prentjie" -gebied te kies. Terloops, absoluut enige deel van die bladsy kan in hierdie gebied gekies word, en FineReader sal dit dan in die dokument as 'n normale prentjie plaas. dit wil sê net "dom" sal kopieer ...

Tipies, hierdie gebied word gebruik om swak geskaafde tabelle uit te lig, om nie-standaard teks en lettertipe, die beelde self, uit te lig.

3.3 Tabelle

Die kiekie hieronder wys die knoppie om die tabelle uit te lig. Oor die algemeen gebruik ek dit selde baie selde. Die feit is dat jy gereeld elke lyn op die tafel moet teken en wys wat en hoe die program. As die tafel klein is en nie baie goeie gehalte nie, beveel ek aan om die "prentjie" -gebied vir hierdie doeleindes te gebruik. Daardeur bespaar baie tyd, en dan kan jy vinnig 'n tafel in Word maak op grond van 'n prentjie.

3.4 Onnodige Items

Dit is belangrik om daarop te let. Soms is daar onnodige elemente op die bladsy wat dit moeilik maak om die teks te herken, of nie toelaat dat u die gewenste gebied glad nie kies nie. Hulle kan verwyder word met die "uitveër" glad nie.

Om dit te doen, gaan na die beeldbewerkingsmodus.

Kies die uitveërhulpmiddel en kies die ongewenste area. Dit sal uitgevee word en in sy plek sal 'n wit vel papier wees.

Terloops, ek beveel aan om hierdie opsie so dikwels as moontlik aan u te gebruik. Probeer al die teksareas wat jy gekies het, waar jy nie 'n stukkie teks nodig het nie, of daar is onnodige punte, blurriness, distorsions - verwyder met 'n uitveër. Danksy hierdie erkenning sal vinniger wees!

4. Erkenning van PDF / DJVU lêers

Oor die algemeen sal hierdie erkenningsformaat nie anders as die ander wees nie - dit wil sê Jy kan daarmee saamwerk, net soos met prente. Die enigste ding wat die program nie te oud moet wees nie, as u nie PDF / DJVU-lêers oopmaak nie - werk die weergawe op na 11.

'N bietjie raad. Na die opening van die dokument in FineReader - sal dit outomaties begin om die dokument te herken. Dikwels in PDF / DJVU lêers, is 'n spesifieke gedeelte van die bladsy nie nodig nie dwarsdeur die hele dokument! Om so 'n gebied op alle bladsye te verwyder, doen die volgende:

1. Gaan na die bewerkingsafdeling.

2. Aktiveer die opsie "snoei".

3. Kies die area wat jy nodig het op alle bladsye.

4. Klik op aansoeke vir alle bladsye en sny.

5. Foute kontroleer en stoor werkresultate

Dit blyk dat daar dalk probleme kan wees wanneer al die areas gekies is, dan herken - neem dit en stoor dit ... Dit was nie daar nie!

Eerstens moet ons die dokument nagaan!

Om dit na erkenning in die venster regs te aktiveer, sal daar 'n "check" knoppie wees, sien die skermkiekie hieronder. Nadat u dit gekliek het, sal die FineReader-program u outomaties wys die gebiede waar die program foute het en dit kan nie een of ander simbool betroubaar bepaal nie. U sal slegs moet kies, of u stem saam met die mening van die program, of vul u karakter in.

Terloops, in die helfte van die gevalle, ongeveer, sal die program jou 'n reggemaakte regte woord bied - jy moet net die muis gebruik om die opsie wat jy wil te kies.

Tweedens, na die kontrole moet u die formaat kies waarin u die resultaat van u werk stoor.

Hier gee FineReader jou 'n beurt tot die uiterste: jy kan die inligting in Word een-tot-een eenvoudig oordra, en jy kan dit in een van die dosyne formate stoor. Maar ek wil graag nog 'n belangrike aspek uitlig. In watter formaat u ook al kies, is dit belangriker om die tipe kopie te kies! Oorweeg die interessantste opsies ...

Presiese afskrif

Alle areas wat u op die bladsy gekies het in die erkende dokument, sal presies ooreenstem met die brondokument. 'N Baie gerieflike opsie wanneer dit belangrik is dat jy nie teksformatering verloor nie. Terloops, die lettertipes sal ook baie ooreenstem met die oorspronklike. Ek beveel aan met hierdie opsie om die dokument na Woord oor te dra, om verder daar te gaan werk.

Bewerkbare kopie

Hierdie opsie is goed omdat jy 'n reeds geformateerde weergawe van die teks kry. dit wil sê Indentasie van die "kilometer", wat in die oorspronklike dokument gewees het - jy sal nie ontmoet nie. Nuttige opsie wanneer u die inligting aansienlik sal verander.

True, moet jy nie kies of dit belangrik is om die styl van die ontwerp, lettertipes, insekte te behou nie. Soms, as die erkenning nie baie suksesvol is nie, kan u dokument 'skeef' as gevolg van die veranderde formatering. In hierdie geval is dit raadsaam om 'n presiese kopie te kies.

Vlakte teks

'N opsie vir diegene wat net die teks van die bladsy nodig het sonder al die ander. Geskik vir dokumente sonder foto's en tabelle.

Dit sluit die dokument skandering en erkenning artikel. Ek hoop dat met die hulp van hierdie eenvoudige wenke u probleme kan oplos ...

Sterkte!

Kyk na die video: OCR Indexing for Document Scanning (April 2024).