Abbyy & ocr technieken

Over Elveo b.v. Uw partner bij het in de praktijk brengen van document automatisering; Meer dan 20 jaar ervaring in scanning en herkenning; Gespecialiseerd in optimaliseren van werkprocessen met behulp van digitalisering.

Al vanaf 1989 een van de grootste producenten op OCR gebied Over Abbyy Abbyy Finereader Flexicapture Recognition Server

OCR (Optical Character Recognition) ICR (handprint recognition) OMR (checkmark recognition) Barcodes recognition Document conversion with accurate layout retrieval PDF conversion (in and out) with advanced security & accessibility support Fixed and semi-structured forms and documents capture Documents classification ABBYY FineReader Engine: een breed scala aan toepassingseigenschappen

Stap 1. Scanning, Image Laden, Pre-Processing en aanpassen Compenseren van imagefouten en het beter leesbaar maken van het document geschikt voor automatische OCR Stap 2. Document Layout Analysis Detectie van documentsecties, analyze layout en het vinden van barcodes Stap 3. Character Recognition Automatische herkenning van karakters, toepassen van geselecteerde taalherkenning , bibliotheken en andere settings Stap 4. Verificatie door Operators (optioneel) Handmatige validatie van mogelijk fout herkende karakters en woorden Stap 5. Document Synthese en Export Generen van het output document in gewenst formaat ABBYY OCR Processing

Stap 1. Image Laden, Pre-Processing en aanpassen Intelligente filtering van de achtergrond ‘ Adaptive’ Binarisatie OCR Processing Steps Algemene binarisatie op image niveau leidt niet tot een optimaal OCR resultaat

Stap 1. Image Laden, Pre-Processing en aanpassen Compensatie van scanfouten Automatisch rechtzetten naar correcte positionering Corrigeren teksregels Gecontroleerde “de-speckle” (wegpoetsen vervuilende pixels) ABBYY OCR Processing Steps

Stap 2. Document Layout Analyse Document Layout Analyse

Stap 3. Karakter herkenning Na de lijn detectie volgt de herkenning van karakters met verschillende `classifiers´ OCR Processing Steps Raster classifier Contour classifier

Document Analyse (DA) maakt het verschil ABBYY FlexiCapture Engine DA met behoud van de Layout (FineReader) “ Eigen factuur DA Logic” (FlexiLayout)

ABBYY Terminologie & Document Types Vaste structuren : Vragenlijsten, enquetes, multiple choice testen, vaak handgeschreven Identieke layout Semi-gestructureerd: Facturen, prijslijsten, paspoorten, vrachtbrieven, inkoop orders Gelijke data maar andere layouts Ongestructureerd: Contracten, brieven, artikelen Ongestrucureerde inhoud en verschillende layouts

OCR Technieken OCR – Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift

De standaard mogelijkheden Volledige tekst herkenning Classificeren Index velden en/of vaste data gegevens uitlichten, Redactioneel (b.v. anonimiseren van correspondentie) Routeren van poststukken Automatisch archiveren Hergebruik van teksten Image Rotatie

Volledige tekst herkenning ALLE text op de pagina Inclusief: Image Pre-processing Document Analyse/Zone herkenning Data extractie Export naar PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel, PowerPoint and DBF

Classificeren De Software herkent de dokument soorten Scan batches van gemengde documenten

Ondersteuning Image processing Gebruik van OCR techniek om archiefstructuren vast te leggen Bijvoorbeeld door barcodes, zone herkenning of combinatie van factoren.

Semi gestructureerde formulieren

Ongestructureerde documenten Vastleggen: Datum Afzender Contactpersoon

Techniek: Hoe accuraat Of liever, hoe bepaal je de accuratesse Dokumentsoort accuratesse Veld/Zone locatie accuratesse Datasoort accuratesse Woord accuratesse Karakter/cijfer accuratesse Bedenk dat fouten niet altijd zichtbaar zijn en bepaal daarom van tevoren de invloed van mogelijke herkenningsfouten.

OCR Moderne OCR technologie behaalt: 98-99% accuratesse bij machinefonts 90-95% accuratesse bij handschriften Nut van OCR wordt bepaald door het percentage herkende karakters alsmede het percentage fouten daarin Controleren en corrigeren van OCR-fouten kost 10 keer zo veel tijd als data entry van niet herkende karakters.

Waarderingsformule OCR De waardebepaling van OCR op een schaal van 1 – 100. Volgens de formule: P-(10*fout) = waarderingscijfer Bijvoorbeeld: het cijfer voor een systeem dat 90% van de karakters herkend maar daarvan 4% foutief komt neer op 90-(10*4) = 50. Het verhogen van de herkenningsgraad met 5% tot 95% leidt tot een cijfer van 55. (95-(10*4)=55. Het verlagen van het foutpercentage met 2% echter leidt tot een waardering van 70. (90-(10*2)=70.

Pas op, bespreek het totaal Scanner / Input Index gegevens Opslag Zorg van tevoren voor een lijst met prioriteiten.

Abbyy & ocr technieken

More Related Content

Viewers also liked

Abbyy & ocr technieken

Editor's Notes