subsection Tesseract

a477d414 · Jan Wille · bf1b1452 · a477d414 · a477d414 · a477d414
Commit a477d414 authored 3 years ago by Jan Wille
--- a/.vscode/ltex.dictionary.de-DE.txt
+++ b/.vscode/ltex.dictionary.de-DE.txt
@@ -13,3 +13,4 @@ Otsu
 Binarisierungsschritte
 Kernelgröße
 Gemorphtes
+pytesseract
--- a/.vscode/ltex.hiddenFalsePositives.de-DE.txt
+++ b/.vscode/ltex.hiddenFalsePositives.de-DE.txt
@@ -15,3 +15,6 @@
 {"rule":"GERMAN_SPELLER_RULE","sentence":"^\\QDiese sind in der Funktion preprocessing.morphologic_close() implementiert.\\E$"}
 {"rule":"DE_AGREEMENT","sentence":"^\\QZuerst wird eine Closing Operation mit einem Rechteck-Kernel angewandt.\\E$"}
 {"rule":"DE_CASE","sentence":"^\\Q[Konturen im binarisierten Bild] [Konturen übertragen auf das originale Bild] Im Bild gefundene Konturen\\E$"}
+{"rule":"GERMAN_SPELLER_RULE","sentence":"^\\QDie Kommunikation mit der Bibliothek ist in die Datei src/tesseract.py ausgelagert.\\E$"}
+{"rule":"GERMAN_SPELLER_RULE","sentence":"^\\QDort steht die Funktion tesseract.read_text_in_image() zur Verfügung, die ein Bild akzeptiert und den gefundenen Text zurückgibt.\\E$"}
+{"rule":"GERMAN_SPELLER_RULE","sentence":"^\\QAlle Funktionalitäten hierfür sind in die Datei src/findcodes.py ausgelagert.\\E$"}
--- a/Praxisbericht.pdf
+++ b/Praxisbericht.pdf
--- a/Praxisbericht.tex
+++ b/Praxisbericht.tex
@@ -262,7 +262,23 @@
 			\subsection{Übergabe an Tesseract} \label{sub: call tesseract}
-			\subsection{Textanalyse des Ergebnisses}
+				Für die eigentliche Texterkennung wird eine weite Software namens \emph{Tesseract} verwendet. Für diese gibt es eine
+				Python-Wrapper-Bibliothek namens \lstinline{pytesseract}, welche die Verwendung stark vereinfacht.
+				Die Kommunikation mit der Bibliothek ist in die Datei \lstinline{src/tesseract.py} ausgelagert. Dort steht die Funktion
+				\lstinline{tesseract.read_text_in_image()} zur Verfügung, die ein Bild akzeptiert und den gefundenen Text zurückgibt. Diese wird für
+				jeden Bildausschnitt aufgerufen.
+			\subsection{Textanalyse des Ergebnisses} \label{sub: textanalyse}
+				Der von Tesseract gefundene Text wird zum Abschluss analysiert und mit der Liste an gültigen Codes verglichen. Dadruch werden
+				weiter Beschriftungen oder Hersteller-Logos herausgefiltert.
+				Alle Funktionalitäten hierfür sind in die Datei \lstinline{src/findcodes.py} ausgelagert. Hier ist ein regulärer Ausdruck definiert,
+				welcher die Voraussetzung, das gültige Codes mit 2-3 Großbuchstaben beginnen und darauf 5-9 Ziffern folgen, abbildet. Dies wir mit dem
+				übergebenen Text verglichen und Code-Kandidaten ermittelt. Alle Kandidaten werden mit der Liste von bekanntem Code verglichen und die
+				gültigen Codes zurückgegeben.
 		\section{Automatisiertes Testen} \label{sec: testing}