Over Elveo b.v. Uw partner bij het in de praktijk brengen van document automatisering; Meer dan 20 jaar ervaring in scanning en herkenning; Gespecialiseerd in optimaliseren van werkprocessen met behulp van digitalisering.
Al vanaf 1989 een van de grootste producenten op OCR gebied Over Abbyy Abbyy Finereader Flexicapture Recognition Server
OCR (Optical Character Recognition) ICR (handprint recognition) OMR (checkmark recognition) Barcodes recognition Document conversion with accurate layout retrieval PDF conversion (in and out) with advanced security & accessibility support Fixed and semi-structured forms and documents capture Documents classification ABBYY FineReader Engine: een breed scala aan toepassingseigenschappen
Stap 1. Scanning, Image Laden, Pre-Processing en aanpassen Compenseren van imagefouten en het beter leesbaar maken van het document geschikt voor automatische OCR Stap 2. Document Layout Analysis Detectie van documentsecties, analyze layout en het vinden van barcodes Stap 3. Character Recognition Automatische herkenning van karakters, toepassen van geselecteerde taalherkenning , bibliotheken en andere settings Stap 4. Verificatie door Operators (optioneel) Handmatige validatie van mogelijk fout herkende karakters en woorden Stap 5. Document Synthese en Export Generen van het output document in gewenst formaat ABBYY OCR Processing
Stap 1. Image Laden, Pre-Processing en aanpassen Intelligente filtering van de achtergrond ‘ Adaptive’ Binarisatie OCR Processing Steps Algemene binarisatie op image niveau leidt niet tot een optimaal OCR resultaat
Stap 1. Image Laden, Pre-Processing en aanpassen  Compensatie van scanfouten Automatisch rechtzetten naar correcte  positionering Corrigeren teksregels Gecontroleerde “de-speckle”  (wegpoetsen vervuilende pixels) ABBYY OCR Processing Steps
Stap 2. Document Layout Analyse Document Layout Analyse
Stap 3.  Karakter herkenning Na de lijn detectie volgt de herkenning van karakters met verschillende `classifiers´ OCR Processing Steps Raster classifier Contour classifier
Document Analyse (DA) maakt het verschil ABBYY FlexiCapture Engine DA met behoud van de Layout (FineReader)  “ Eigen factuur DA Logic” (FlexiLayout)
 
ABBYY Terminologie & Document Types Vaste structuren : Vragenlijsten, enquetes, multiple choice testen, vaak handgeschreven   Identieke layout  Semi-gestructureerd: Facturen, prijslijsten, paspoorten, vrachtbrieven, inkoop orders  Gelijke data maar andere layouts Ongestructureerd: Contracten, brieven, artikelen Ongestrucureerde inhoud en verschillende layouts
OCR Technieken OCR – Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
OCR Technieken OCR – Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
OCR Technieken OCR – Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
OCR Technieken OCR – Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
OCR Technieken OCR – Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
De standaard mogelijkheden Volledige tekst herkenning Classificeren Index velden en/of vaste data gegevens uitlichten,  Redactioneel (b.v. anonimiseren van correspondentie) Routeren van poststukken Automatisch archiveren Hergebruik van teksten Image Rotatie
Volledige tekst herkenning ALLE text op de pagina Inclusief: Image Pre-processing Document Analyse/Zone herkenning Data extractie Export naar  PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel, PowerPoint and DBF
Classificeren De Software herkent de dokument soorten Scan batches van gemengde documenten
Ondersteuning Image processing Gebruik van OCR techniek om archiefstructuren vast te leggen Bijvoorbeeld door barcodes, zone herkenning of combinatie van factoren.
Vaste Formulier Verwerking
Semi gestructureerde formulieren
Ongestructureerde documenten Vastleggen: Datum Afzender Contactpersoon
Techniek: Hoe accuraat Of liever, hoe bepaal je de accuratesse Dokumentsoort accuratesse Veld/Zone locatie accuratesse Datasoort accuratesse Woord accuratesse Karakter/cijfer accuratesse Bedenk dat fouten niet altijd zichtbaar zijn en bepaal daarom van tevoren de invloed van mogelijke herkenningsfouten.
OCR Moderne OCR technologie behaalt: 98-99% accuratesse bij machinefonts 90-95% accuratesse bij handschriften Nut van OCR wordt bepaald door het percentage herkende karakters alsmede het percentage fouten daarin Controleren en corrigeren van OCR-fouten kost 10 keer zo veel tijd als data entry van niet herkende karakters.
Waarderingsformule OCR De waardebepaling van OCR op een schaal van 1 – 100. Volgens de formule: P-(10*fout) = waarderingscijfer Bijvoorbeeld: het cijfer voor een systeem dat 90% van de karakters herkend maar daarvan 4% foutief komt neer op 90-(10*4) = 50. Het verhogen van de herkenningsgraad met 5% tot 95% leidt tot een cijfer van 55. (95-(10*4)=55. Het verlagen van het foutpercentage met 2% echter leidt tot een waardering van 70. (90-(10*2)=70.
Pas op, bespreek het totaal Scanner / Input Index gegevens Opslag Zorg van tevoren voor een lijst met prioriteiten.

Abbyy & ocr technieken

  • 1.
  • 2.
    Over Elveo b.v.Uw partner bij het in de praktijk brengen van document automatisering; Meer dan 20 jaar ervaring in scanning en herkenning; Gespecialiseerd in optimaliseren van werkprocessen met behulp van digitalisering.
  • 3.
    Al vanaf 1989een van de grootste producenten op OCR gebied Over Abbyy Abbyy Finereader Flexicapture Recognition Server
  • 4.
    OCR (Optical CharacterRecognition) ICR (handprint recognition) OMR (checkmark recognition) Barcodes recognition Document conversion with accurate layout retrieval PDF conversion (in and out) with advanced security & accessibility support Fixed and semi-structured forms and documents capture Documents classification ABBYY FineReader Engine: een breed scala aan toepassingseigenschappen
  • 5.
    Stap 1. Scanning,Image Laden, Pre-Processing en aanpassen Compenseren van imagefouten en het beter leesbaar maken van het document geschikt voor automatische OCR Stap 2. Document Layout Analysis Detectie van documentsecties, analyze layout en het vinden van barcodes Stap 3. Character Recognition Automatische herkenning van karakters, toepassen van geselecteerde taalherkenning , bibliotheken en andere settings Stap 4. Verificatie door Operators (optioneel) Handmatige validatie van mogelijk fout herkende karakters en woorden Stap 5. Document Synthese en Export Generen van het output document in gewenst formaat ABBYY OCR Processing
  • 6.
    Stap 1. ImageLaden, Pre-Processing en aanpassen Intelligente filtering van de achtergrond ‘ Adaptive’ Binarisatie OCR Processing Steps Algemene binarisatie op image niveau leidt niet tot een optimaal OCR resultaat
  • 7.
    Stap 1. ImageLaden, Pre-Processing en aanpassen Compensatie van scanfouten Automatisch rechtzetten naar correcte positionering Corrigeren teksregels Gecontroleerde “de-speckle” (wegpoetsen vervuilende pixels) ABBYY OCR Processing Steps
  • 8.
    Stap 2. DocumentLayout Analyse Document Layout Analyse
  • 9.
    Stap 3. Karakter herkenning Na de lijn detectie volgt de herkenning van karakters met verschillende `classifiers´ OCR Processing Steps Raster classifier Contour classifier
  • 10.
    Document Analyse (DA)maakt het verschil ABBYY FlexiCapture Engine DA met behoud van de Layout (FineReader) “ Eigen factuur DA Logic” (FlexiLayout)
  • 11.
  • 12.
    ABBYY Terminologie &Document Types Vaste structuren : Vragenlijsten, enquetes, multiple choice testen, vaak handgeschreven Identieke layout Semi-gestructureerd: Facturen, prijslijsten, paspoorten, vrachtbrieven, inkoop orders Gelijke data maar andere layouts Ongestructureerd: Contracten, brieven, artikelen Ongestrucureerde inhoud en verschillende layouts
  • 13.
    OCR Technieken OCR– Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
  • 14.
    OCR Technieken OCR– Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
  • 15.
    OCR Technieken OCR– Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
  • 16.
    OCR Technieken OCR– Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
  • 17.
    OCR Technieken OCR– Optical Character Recognition ICR – Intelligent Character Recognition OMR – Optical Mark Recognition Barcode Handschrift
  • 18.
    De standaard mogelijkhedenVolledige tekst herkenning Classificeren Index velden en/of vaste data gegevens uitlichten, Redactioneel (b.v. anonimiseren van correspondentie) Routeren van poststukken Automatisch archiveren Hergebruik van teksten Image Rotatie
  • 19.
    Volledige tekst herkenningALLE text op de pagina Inclusief: Image Pre-processing Document Analyse/Zone herkenning Data extractie Export naar PDF, PDF/A, XML, HTML, TXT/CSV, Word, Excel, PowerPoint and DBF
  • 20.
    Classificeren De Softwareherkent de dokument soorten Scan batches van gemengde documenten
  • 21.
    Ondersteuning Image processingGebruik van OCR techniek om archiefstructuren vast te leggen Bijvoorbeeld door barcodes, zone herkenning of combinatie van factoren.
  • 22.
  • 23.
  • 24.
    Ongestructureerde documenten Vastleggen:Datum Afzender Contactpersoon
  • 25.
    Techniek: Hoe accuraatOf liever, hoe bepaal je de accuratesse Dokumentsoort accuratesse Veld/Zone locatie accuratesse Datasoort accuratesse Woord accuratesse Karakter/cijfer accuratesse Bedenk dat fouten niet altijd zichtbaar zijn en bepaal daarom van tevoren de invloed van mogelijke herkenningsfouten.
  • 26.
    OCR Moderne OCRtechnologie behaalt: 98-99% accuratesse bij machinefonts 90-95% accuratesse bij handschriften Nut van OCR wordt bepaald door het percentage herkende karakters alsmede het percentage fouten daarin Controleren en corrigeren van OCR-fouten kost 10 keer zo veel tijd als data entry van niet herkende karakters.
  • 27.
    Waarderingsformule OCR Dewaardebepaling van OCR op een schaal van 1 – 100. Volgens de formule: P-(10*fout) = waarderingscijfer Bijvoorbeeld: het cijfer voor een systeem dat 90% van de karakters herkend maar daarvan 4% foutief komt neer op 90-(10*4) = 50. Het verhogen van de herkenningsgraad met 5% tot 95% leidt tot een cijfer van 55. (95-(10*4)=55. Het verlagen van het foutpercentage met 2% echter leidt tot een waardering van 70. (90-(10*2)=70.
  • 28.
    Pas op, bespreekhet totaal Scanner / Input Index gegevens Opslag Zorg van tevoren voor een lijst met prioriteiten.

Editor's Notes

  • #6 Extension: Show Engine Help File or Engine 9 Code samples
  • #9 Extension: Show Engine Help File or Engine 9 Code samples
  • #10 Extension: Show Engine Help File or Engine 9 Code samples
  • #13 Terminology : Semi-structured documents Flexible forms and documents: Data extraction and full text recognition Similar data but different layouts Documents come from different sources Terminology: Structured documents Fixed Forms: Data extraction Identical layout Filled out by hand Terminology: Unstructured documents Text documents Data extraction and full text recognition Unstructured Need indexing, auto classification and archiving
  • #27 Van Buuren Docuemntaire Systemen De kwaliteit van het herkende is per definitie belangrijker. Moderner systemen zullen zonder twijfel gebruik maken van grijs en kleur voor het verhogen van de betrouwbaarheid
  • #28 Van Buuren Docuemntaire Systemen