Tato disertační práce se zabývá využitím samoučících funkcí v oblasti
rozpoznávání ručně psaného písma se zaměřením na rozpoznávání textu v českém
jazyce s diakritikou. Teorie navrženého řešení vychází z oblasti neuronových sítí,
konkrétně konvoluční neuronové sítě Neocognitron.
V úvodní části je zpracována problematika volby vhodné neuronové sítě pro
účel daný tématem disertační práce. V dalších krocích se disertační práce zabývá
analýzou konvoluční neuronové sítě Neocognitron, která je předpokladem pro její
úspěšnou implementaci do algoritmů v navrženém systému. Výstupy z provedené
analýzy slouží také pro proces optimalizace, který spočívá v nalezení řešení pro
problematickou oblast rozpoznávání textu v českém jazyce, kterou je bezesporu
diakritika.
V experimentální části disertační práce byly nejdříve vytvořeny algoritmy
ve skriptovacím prostředí Matlab, pracující s neuronovými sítěmi, za účelem jejich
snadného testování a prezentace výsledků. Po otestování a výběru neuronové sítě
pro další práci na sadě znaků, získaných z databáze MNIST z národního institutu
pro standardy a technologie v USA, bylo přistoupeno k vytvoření vlastní databáze
znaků české abecedy, včetně diakritiky. Za tímto účelem byl proveden sběr za
pomoci vytvořených standardizovaných formulářů. Dalším krokem byla
implementace navržených algoritmů do výsledného systému, obsahujícím
komponentu inteligentního preprocesingu pro eliminaci negativního vlivu
diakritiky na rozpoznávání v jazyce C#, a otestování tohoto systému na základě,
dílčích, k tomu vytvořených, testovacích aplikacích.
Anotace v angličtině
This thesis is focused on using self-learning functions in field of handwritten
text recognition with focusing on recognition of text in czech language with
diacritics. Principle of designed solution is based on neural networks field,
specifically convolution neural network Neocognitron.
In the first part is analysis of the problem of choosing the appropriate neural
network Neocognitron, which assumption for its successful implementation in the
designed system. Outputs from performed analysis are also used for optimalization
process, which is based on searching solution for problematic recognition of
diacritics in text.
In the experimental part of this dissertation were created algorithms in the
scripting environment Matlab working with neural networks for easy testing and
presenting results. After testing and choosing suitable neural network for following
work based on testing on the set of letters gathered from MNIST database from
National Institute for Standards and Technologies in the USA was performed data
collection using standardized forms to create own database of czech alphabet letters
with diacritics. Next step was implementation of designed algorithms to the final
system, containing component of intelligent preprocessing for elimination of
negative effect caused by diacritics on recognition in C# language. This system was
finally tested on testing apps created only for testing purposes.
Klíčová slova
-
Klíčová slova v angličtině
-
Rozsah průvodní práce
154
Jazyk
CZ
Anotace
Tato disertační práce se zabývá využitím samoučících funkcí v oblasti
rozpoznávání ručně psaného písma se zaměřením na rozpoznávání textu v českém
jazyce s diakritikou. Teorie navrženého řešení vychází z oblasti neuronových sítí,
konkrétně konvoluční neuronové sítě Neocognitron.
V úvodní části je zpracována problematika volby vhodné neuronové sítě pro
účel daný tématem disertační práce. V dalších krocích se disertační práce zabývá
analýzou konvoluční neuronové sítě Neocognitron, která je předpokladem pro její
úspěšnou implementaci do algoritmů v navrženém systému. Výstupy z provedené
analýzy slouží také pro proces optimalizace, který spočívá v nalezení řešení pro
problematickou oblast rozpoznávání textu v českém jazyce, kterou je bezesporu
diakritika.
V experimentální části disertační práce byly nejdříve vytvořeny algoritmy
ve skriptovacím prostředí Matlab, pracující s neuronovými sítěmi, za účelem jejich
snadného testování a prezentace výsledků. Po otestování a výběru neuronové sítě
pro další práci na sadě znaků, získaných z databáze MNIST z národního institutu
pro standardy a technologie v USA, bylo přistoupeno k vytvoření vlastní databáze
znaků české abecedy, včetně diakritiky. Za tímto účelem byl proveden sběr za
pomoci vytvořených standardizovaných formulářů. Dalším krokem byla
implementace navržených algoritmů do výsledného systému, obsahujícím
komponentu inteligentního preprocesingu pro eliminaci negativního vlivu
diakritiky na rozpoznávání v jazyce C#, a otestování tohoto systému na základě,
dílčích, k tomu vytvořených, testovacích aplikacích.
Anotace v angličtině
This thesis is focused on using self-learning functions in field of handwritten
text recognition with focusing on recognition of text in czech language with
diacritics. Principle of designed solution is based on neural networks field,
specifically convolution neural network Neocognitron.
In the first part is analysis of the problem of choosing the appropriate neural
network Neocognitron, which assumption for its successful implementation in the
designed system. Outputs from performed analysis are also used for optimalization
process, which is based on searching solution for problematic recognition of
diacritics in text.
In the experimental part of this dissertation were created algorithms in the
scripting environment Matlab working with neural networks for easy testing and
presenting results. After testing and choosing suitable neural network for following
work based on testing on the set of letters gathered from MNIST database from
National Institute for Standards and Technologies in the USA was performed data
collection using standardized forms to create own database of czech alphabet letters
with diacritics. Next step was implementation of designed algorithms to the final
system, containing component of intelligent preprocessing for elimination of
negative effect caused by diacritics on recognition in C# language. This system was
finally tested on testing apps created only for testing purposes.