Skip to content
Snippets Groups Projects
Commit a477d414 authored by Jan Wille's avatar Jan Wille
Browse files

subsection Tesseract

parent bf1b1452
Branches
No related tags found
No related merge requests found
...@@ -13,3 +13,4 @@ Otsu ...@@ -13,3 +13,4 @@ Otsu
Binarisierungsschritte Binarisierungsschritte
Kernelgröße Kernelgröße
Gemorphtes Gemorphtes
pytesseract
...@@ -15,3 +15,6 @@ ...@@ -15,3 +15,6 @@
{"rule":"GERMAN_SPELLER_RULE","sentence":"^\\QDiese sind in der Funktion preprocessing.morphologic_close() implementiert.\\E$"} {"rule":"GERMAN_SPELLER_RULE","sentence":"^\\QDiese sind in der Funktion preprocessing.morphologic_close() implementiert.\\E$"}
{"rule":"DE_AGREEMENT","sentence":"^\\QZuerst wird eine Closing Operation mit einem Rechteck-Kernel angewandt.\\E$"} {"rule":"DE_AGREEMENT","sentence":"^\\QZuerst wird eine Closing Operation mit einem Rechteck-Kernel angewandt.\\E$"}
{"rule":"DE_CASE","sentence":"^\\Q[Konturen im binarisierten Bild] [Konturen übertragen auf das originale Bild] Im Bild gefundene Konturen\\E$"} {"rule":"DE_CASE","sentence":"^\\Q[Konturen im binarisierten Bild] [Konturen übertragen auf das originale Bild] Im Bild gefundene Konturen\\E$"}
{"rule":"GERMAN_SPELLER_RULE","sentence":"^\\QDie Kommunikation mit der Bibliothek ist in die Datei src/tesseract.py ausgelagert.\\E$"}
{"rule":"GERMAN_SPELLER_RULE","sentence":"^\\QDort steht die Funktion tesseract.read_text_in_image() zur Verfügung, die ein Bild akzeptiert und den gefundenen Text zurückgibt.\\E$"}
{"rule":"GERMAN_SPELLER_RULE","sentence":"^\\QAlle Funktionalitäten hierfür sind in die Datei src/findcodes.py ausgelagert.\\E$"}
No preview for this file type
...@@ -262,7 +262,23 @@ ...@@ -262,7 +262,23 @@
\subsection{Übergabe an Tesseract} \label{sub: call tesseract} \subsection{Übergabe an Tesseract} \label{sub: call tesseract}
\subsection{Textanalyse des Ergebnisses} Für die eigentliche Texterkennung wird eine weite Software namens \emph{Tesseract} verwendet. Für diese gibt es eine
Python-Wrapper-Bibliothek namens \lstinline{pytesseract}, welche die Verwendung stark vereinfacht.
Die Kommunikation mit der Bibliothek ist in die Datei \lstinline{src/tesseract.py} ausgelagert. Dort steht die Funktion
\lstinline{tesseract.read_text_in_image()} zur Verfügung, die ein Bild akzeptiert und den gefundenen Text zurückgibt. Diese wird für
jeden Bildausschnitt aufgerufen.
\subsection{Textanalyse des Ergebnisses} \label{sub: textanalyse}
Der von Tesseract gefundene Text wird zum Abschluss analysiert und mit der Liste an gültigen Codes verglichen. Dadruch werden
weiter Beschriftungen oder Hersteller-Logos herausgefiltert.
Alle Funktionalitäten hierfür sind in die Datei \lstinline{src/findcodes.py} ausgelagert. Hier ist ein regulärer Ausdruck definiert,
welcher die Voraussetzung, das gültige Codes mit 2-3 Großbuchstaben beginnen und darauf 5-9 Ziffern folgen, abbildet. Dies wir mit dem
übergebenen Text verglichen und Code-Kandidaten ermittelt. Alle Kandidaten werden mit der Liste von bekanntem Code verglichen und die
gültigen Codes zurückgegeben.
\section{Automatisiertes Testen} \label{sec: testing} \section{Automatisiertes Testen} \label{sec: testing}
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment