Technologie skenování a vytěžování dat z dokumentů se v současné době stává stále významnějším ICT prvkem v oblasti řízení business procesů v soukromých společnostech, i státních institucích. V současné době je na světovém trhu několik technologií, které jsou schopny vytěžovat jakékoli strukturované, polo-strukturované i nestrukturované dokumenty. V rámci této práce využívám technologii IBM Datacap Taskmaster Capture,na které demonstruji ukázkový projekt pro středně velkou společnost, která řeší problém zpracování příchozích faktur a interních dodacích listů v rámci oblastních poboček.
První kapitola této práce se zabývá obecně problematikou Enterprise Content Managementu a představuje komponentu Capture a její možnosti. Druhá kapitola představuje nejznámější a významné technologie, které se v současné době vyskytují na světovém trhu. Třetí kapitola detailně popisuje architekturu a funkci systému IBM Datacap Taskmaster Capture. Čtvrtá kapitola charakterizuje požadavky na software, který by měl být schopen provozu v cloudovém modelu SaaS. Pátá kapitola diskutuje požadavky stanovené ve čtvrté kapitole v souvislosti s nasazením systému IBM Datacap Taskmaster Capture v modelu SaaS. Zároveň navrhuje možnou architekturu nasazení systému. Šestá kapitola se zabývá sběrem a analýzou požadavků na digitalizaci faktur a dodacích listů v rámci společnosti a na základě těchto požadavků popisuje návrh aplikace, která tyto požadavky řeší. V rámci této kapitoly je rovněž popsána samotná realizace této aplikace. Poslední sedmá kapitola znázorňuje výsledky funkčního a výkonového testování, které bylo provedeno na navržené aplikaci. Funkční testování je provedeno na základě definovaných testovacích scénářů, které jsou sestaveny na základě případů užití. Aplikace splňuje stanovené případy užití. V rámci výkonového testování jsou testovány části systému, které nevyžadují uživatelskou interakci, vyjma procesu skenování. Pro test jsou použity tři různá rozlišení dokumentů a pro každý rozlišení je změřen čas zpracování v rámci kroku procesu. Zároveň je vyhodnocena úspěšnost vytěžení údajů v závislosti na zvoleném rozlišení dokumentu. Z výsledků vyplývá, že nejlepších výsledků lze dosáhnout při použití rozlišení 300 DPI. V závěru práce jsou diskutovány dosažené výsledky a navrženy další vývojové směry aplikace.
Anotace v angličtině
Document capture is currently becoming more and more important ICT component in the management of the business processes in the private companies and in public institutions. Currently the world market offers several technologies that are capable of processing any structured, semi-structured and unstructured document. In this thesis I use and present the IBM Datacap Taskmaster Capture technology and demonstrates its possibilities on a sample project for a mid-sized company that solves the problem of processing incoming invoices and internal delivery notes between branch offices.
The first chapter of this thesis depicts the Enterprise Content Management in general and presents the Capture component and its possibilities. The second chapter introduces well-known and important technologies that currently exist in the world market. The third chapter describes in detail the architecture and functioning of the IBM Datacap Taskmaster Capture. The fourth chapter describes the requirements for a software which should be able to run in the SaaS cloud model. The fifth chapter discusses the requirements specified in the fourth chapter in the context of the deployment of IBM Datacap Taskmaster Capture in the SaaS model and also proposes a possible deployment architecture. The sixth chapter describes collection and analysis of requirements for the document capture of incoming invoices and delivery notes between the branch offices. This chapter also presents the application design based on the analyzed requirements and describes the application implementation itself. The last, seventh chapter shows the results of functional and performance testing conducted on the proposed application. The achieved results and proposal for further development directions are discussed in the conclusion.
Klíčová slova
Digitalizace a vytěžování dokumentů, IBM Datacap Taskmaster Capture, SaaS
Klíčová slova v angličtině
Document capture, IBM Datacap Taskmaster Capture, SaaS
Rozsah průvodní práce
100 s. (107053 znaků)
Jazyk
AN
Anotace
Technologie skenování a vytěžování dat z dokumentů se v současné době stává stále významnějším ICT prvkem v oblasti řízení business procesů v soukromých společnostech, i státních institucích. V současné době je na světovém trhu několik technologií, které jsou schopny vytěžovat jakékoli strukturované, polo-strukturované i nestrukturované dokumenty. V rámci této práce využívám technologii IBM Datacap Taskmaster Capture,na které demonstruji ukázkový projekt pro středně velkou společnost, která řeší problém zpracování příchozích faktur a interních dodacích listů v rámci oblastních poboček.
První kapitola této práce se zabývá obecně problematikou Enterprise Content Managementu a představuje komponentu Capture a její možnosti. Druhá kapitola představuje nejznámější a významné technologie, které se v současné době vyskytují na světovém trhu. Třetí kapitola detailně popisuje architekturu a funkci systému IBM Datacap Taskmaster Capture. Čtvrtá kapitola charakterizuje požadavky na software, který by měl být schopen provozu v cloudovém modelu SaaS. Pátá kapitola diskutuje požadavky stanovené ve čtvrté kapitole v souvislosti s nasazením systému IBM Datacap Taskmaster Capture v modelu SaaS. Zároveň navrhuje možnou architekturu nasazení systému. Šestá kapitola se zabývá sběrem a analýzou požadavků na digitalizaci faktur a dodacích listů v rámci společnosti a na základě těchto požadavků popisuje návrh aplikace, která tyto požadavky řeší. V rámci této kapitoly je rovněž popsána samotná realizace této aplikace. Poslední sedmá kapitola znázorňuje výsledky funkčního a výkonového testování, které bylo provedeno na navržené aplikaci. Funkční testování je provedeno na základě definovaných testovacích scénářů, které jsou sestaveny na základě případů užití. Aplikace splňuje stanovené případy užití. V rámci výkonového testování jsou testovány části systému, které nevyžadují uživatelskou interakci, vyjma procesu skenování. Pro test jsou použity tři různá rozlišení dokumentů a pro každý rozlišení je změřen čas zpracování v rámci kroku procesu. Zároveň je vyhodnocena úspěšnost vytěžení údajů v závislosti na zvoleném rozlišení dokumentu. Z výsledků vyplývá, že nejlepších výsledků lze dosáhnout při použití rozlišení 300 DPI. V závěru práce jsou diskutovány dosažené výsledky a navrženy další vývojové směry aplikace.
Anotace v angličtině
Document capture is currently becoming more and more important ICT component in the management of the business processes in the private companies and in public institutions. Currently the world market offers several technologies that are capable of processing any structured, semi-structured and unstructured document. In this thesis I use and present the IBM Datacap Taskmaster Capture technology and demonstrates its possibilities on a sample project for a mid-sized company that solves the problem of processing incoming invoices and internal delivery notes between branch offices.
The first chapter of this thesis depicts the Enterprise Content Management in general and presents the Capture component and its possibilities. The second chapter introduces well-known and important technologies that currently exist in the world market. The third chapter describes in detail the architecture and functioning of the IBM Datacap Taskmaster Capture. The fourth chapter describes the requirements for a software which should be able to run in the SaaS cloud model. The fifth chapter discusses the requirements specified in the fourth chapter in the context of the deployment of IBM Datacap Taskmaster Capture in the SaaS model and also proposes a possible deployment architecture. The sixth chapter describes collection and analysis of requirements for the document capture of incoming invoices and delivery notes between the branch offices. This chapter also presents the application design based on the analyzed requirements and describes the application implementation itself. The last, seventh chapter shows the results of functional and performance testing conducted on the proposed application. The achieved results and proposal for further development directions are discussed in the conclusion.
Klíčová slova
Digitalizace a vytěžování dokumentů, IBM Datacap Taskmaster Capture, SaaS
Klíčová slova v angličtině
Document capture, IBM Datacap Taskmaster Capture, SaaS
Zásady pro vypracování
Vypracujte rešerši na téma Digitalizace dokumentů.
Analyzujte a diskutujte požadavky na digitalizační systém fungující formou SaaS (Software as a Service).
Navrhněte a realizujte aplikace sloužící k digitalizaci a vytěžování strukturovaných a polostrukturovaných dokumentů.
Proveďte funkční a výkonové testování navrhnutých aplikací.
Diskutujte dosažené výsledky a závěry práce.
Naznačte další vývojové směry předloženého řešení.
Zásady pro vypracování
Vypracujte rešerši na téma Digitalizace dokumentů.
Analyzujte a diskutujte požadavky na digitalizační systém fungující formou SaaS (Software as a Service).
Navrhněte a realizujte aplikace sloužící k digitalizaci a vytěžování strukturovaných a polostrukturovaných dokumentů.
Proveďte funkční a výkonové testování navrhnutých aplikací.
Diskutujte dosažené výsledky a závěry práce.
Naznačte další vývojové směry předloženého řešení.
Seznam doporučené literatury
ZHU, Jackie, Ben ANTIN, Moe BRYAN, Patrick CHESNOT, Ben DAVIES, Tom STUART a Michael VAHLAND. Implementing Imaging Solutions With IBM Production Imaging Edition and IBM Datacap Taskmaster Capture. Vervante, 2011, p. IBM Redbooks, SG24-7969-00. ISBN 07-384-3607-0.
IBM CORPORATION. Application Development Guide: using IBM Datacap Taskmaster Capture v8.1. IBM Corp., 2013. Dostupné z: http://www-05.ibm.com/e-business/linkweb/publications/servlet/pbi.wss?PAG=C11&SSN=13L4H0002634086338&TRL=TXT&WRD=&PBL=SC19-3251-05&LST=ALL&RPP=10&submit=Go
KUNSTOVÁ, Renata. Efektivní správa dokumentů: co nabízí Enterprise Content Management. Praha: Grada Publishing, 2009, 204 s. ISBN 978-80-247-3257-2.
FOWLER, Martin. UML distilled: a brief guide to the standard object modeling language. 3rd ed. Boston: Addison-Wesley, c2004, xxx, 175 p. ISBN 978-0321193681.
PATTON, Ron. Software testing. 2nd ed. Indianapolis: Sams Publishing, 2006. ISBN 06-723-2798-8.
Seznam doporučené literatury
ZHU, Jackie, Ben ANTIN, Moe BRYAN, Patrick CHESNOT, Ben DAVIES, Tom STUART a Michael VAHLAND. Implementing Imaging Solutions With IBM Production Imaging Edition and IBM Datacap Taskmaster Capture. Vervante, 2011, p. IBM Redbooks, SG24-7969-00. ISBN 07-384-3607-0.
IBM CORPORATION. Application Development Guide: using IBM Datacap Taskmaster Capture v8.1. IBM Corp., 2013. Dostupné z: http://www-05.ibm.com/e-business/linkweb/publications/servlet/pbi.wss?PAG=C11&SSN=13L4H0002634086338&TRL=TXT&WRD=&PBL=SC19-3251-05&LST=ALL&RPP=10&submit=Go
KUNSTOVÁ, Renata. Efektivní správa dokumentů: co nabízí Enterprise Content Management. Praha: Grada Publishing, 2009, 204 s. ISBN 978-80-247-3257-2.
FOWLER, Martin. UML distilled: a brief guide to the standard object modeling language. 3rd ed. Boston: Addison-Wesley, c2004, xxx, 175 p. ISBN 978-0321193681.
PATTON, Ron. Software testing. 2nd ed. Indianapolis: Sams Publishing, 2006. ISBN 06-723-2798-8.
Přílohy volně vložené
-
Přílohy vázané v práci
grafy, schémata, tabulky
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Student seznámil komisi s obsahem a výsledky své diplomové práce v krátké prezentaci.
Po přečtení posudků vedoucího a oponenta práce následovala diskuze, ve které byly položeny následující dotazy:
Co je to ?restful programming? str. 47, ?Restful api? zkratka str 47, není uvedena v seznamu použitých zkratek, co znamená ?representational state transfer? a jakou má souvislost s řešením diplomanta?
Proč jsou požadavky definované v kapitole 4.4 na str. 41 opět opakovány na str.43. v kapitole 5? A jak jsou tedy relevantní k řešení (např. str. 47, kapitola 5.2.6 HIPPA, FINRA, SOX požadavky, zkratky opět neuvedeny v seznamu použitých) vzhledem k požadavkům definovaným na dokumenty pouze v češtině (tabulka 1, str. 50) a měnu uváděnou pouze v CZK (tabulka 5 na str. 53), a dále požadavky viz. kapitola 6.1.3 na str.58?
Co se stane poté, kdy je scanovaným dokumentům přidělen název tt00001.tif, tt00002.tiff, atd., viz. kapitola 6.2.1 nebo TM000001 až TM000008 viz. kapitola 6.2.3.? Jsou přejmenovány uživatelem, který scan provedl? Jsou uloženy?
Student na položené dotazy odpověděl. Následovalo zkoušení ze tří předmětů.