Tato diplomová práce představuje téma Data Science jako nový fenomén v oblasti počítačového zpracování dat. Hlavním cílem této práce je poskytnout prvotní náhled do problematiky Data Science a v krátkosti představit její dílčí oblasti se zaměřením na Big Data a Machine Learning jako dva pilíře, které hrají v posledních letech primární úlohu v rychle se měnící době, zejména v oblasti informačních technologií, což je odvětví, které zásadním způsobem zasahuje snad už do všech oblastí lidské činnosti.
Teoretická část nejprve podává přehled historie zpracování dat a informací a představuje faktory, které vedly k potřebě nového přístupu ve zpracování dat. Značná část je věnována představení metodik v oblasti zpracování dat. Neodmyslitelnou součástí je samotná definice Data Science a jejich základních komponent, Big Data včetně datového inženýrství a přehled možností a typů analýz dat.
Praktická část popisuje základní koncepty Apache Spark vč. několika možností instalací jako jsou on-premise či in-cloud. Dále se zaměřuje na představení možnosti Apache Spark v rámci jeho základních komponent přímo na reálných případech použití s využitím některých veřejně dostupných datových sad. Součástí práce je sada ukázkových příkladů s funkčními řádky kódů, které demonstrují využití dané technologie.
Anotace v angličtině
This master thesis introduces the topic of Data Science as a new phenomenon in the field of computer data processing. The main objective of this thesis is to provide an initial insight into the area of Data Science and to briefly introduce its sub-areas, focusing on Big Data and Machine Learning as two pillars that have played a primary role in recent years in a rapidly changing era, especially in the field of information technology, an industry that has already fundamentally affected perhaps all areas of human activity.
The theoretical part first gives an overview of the history of data and information processing and presents the factors that led to the need for a new approach in data processing. A significant part is devoted to introducing methodologies in data processing. An essential part is the actual definition of Data Science and its basic components, Big Data including data engineering and a review of the possibilities and types of data analysis.
The practical part describes the basic concepts of Apache Spark including several installation options such as on-premise or in-cloud. It also focuses on presenting the capabilities of Apache Spark within its core components directly on real use cases using some of the publicly available datasets. This paper includes a set of sample examples with working lines of code that demonstrate the use of the technology.
Klíčová slova
Data, Data Science, Data Engineering, Big Data, Machine Learning, Data Mining, Matematika, Statistika, Analýza, DLM, CRISP-DM, DSMM, Apache Spark
Klíčová slova v angličtině
Data, Data Science, Data Engineering, Big Data, Machine Learning, Data Mining, Mathematics, Statistics, Analytics, Analysis, DLM, CRISP-DM, DSMM, Apache Spark
Rozsah průvodní práce
145 s. (233 617 znaků)
Jazyk
CZ
Anotace
Tato diplomová práce představuje téma Data Science jako nový fenomén v oblasti počítačového zpracování dat. Hlavním cílem této práce je poskytnout prvotní náhled do problematiky Data Science a v krátkosti představit její dílčí oblasti se zaměřením na Big Data a Machine Learning jako dva pilíře, které hrají v posledních letech primární úlohu v rychle se měnící době, zejména v oblasti informačních technologií, což je odvětví, které zásadním způsobem zasahuje snad už do všech oblastí lidské činnosti.
Teoretická část nejprve podává přehled historie zpracování dat a informací a představuje faktory, které vedly k potřebě nového přístupu ve zpracování dat. Značná část je věnována představení metodik v oblasti zpracování dat. Neodmyslitelnou součástí je samotná definice Data Science a jejich základních komponent, Big Data včetně datového inženýrství a přehled možností a typů analýz dat.
Praktická část popisuje základní koncepty Apache Spark vč. několika možností instalací jako jsou on-premise či in-cloud. Dále se zaměřuje na představení možnosti Apache Spark v rámci jeho základních komponent přímo na reálných případech použití s využitím některých veřejně dostupných datových sad. Součástí práce je sada ukázkových příkladů s funkčními řádky kódů, které demonstrují využití dané technologie.
Anotace v angličtině
This master thesis introduces the topic of Data Science as a new phenomenon in the field of computer data processing. The main objective of this thesis is to provide an initial insight into the area of Data Science and to briefly introduce its sub-areas, focusing on Big Data and Machine Learning as two pillars that have played a primary role in recent years in a rapidly changing era, especially in the field of information technology, an industry that has already fundamentally affected perhaps all areas of human activity.
The theoretical part first gives an overview of the history of data and information processing and presents the factors that led to the need for a new approach in data processing. A significant part is devoted to introducing methodologies in data processing. An essential part is the actual definition of Data Science and its basic components, Big Data including data engineering and a review of the possibilities and types of data analysis.
The practical part describes the basic concepts of Apache Spark including several installation options such as on-premise or in-cloud. It also focuses on presenting the capabilities of Apache Spark within its core components directly on real use cases using some of the publicly available datasets. This paper includes a set of sample examples with working lines of code that demonstrate the use of the technology.
Klíčová slova
Data, Data Science, Data Engineering, Big Data, Machine Learning, Data Mining, Matematika, Statistika, Analýza, DLM, CRISP-DM, DSMM, Apache Spark
Klíčová slova v angličtině
Data, Data Science, Data Engineering, Big Data, Machine Learning, Data Mining, Mathematics, Statistics, Analytics, Analysis, DLM, CRISP-DM, DSMM, Apache Spark
Zásady pro vypracování
Zpracujte literární rešerši na dané téma.
Proveďte popis základních komponent Data Science.
Popište prostředí Apache Spark pro distribuované výpočty.
Vytvořte funkční sady demonstračních příkladů pro prostředí Apache Spark na různých datasetech.
Proveďte celkové zhodnocení a závěr.
Zásady pro vypracování
Zpracujte literární rešerši na dané téma.
Proveďte popis základních komponent Data Science.
Popište prostředí Apache Spark pro distribuované výpočty.
Vytvořte funkční sady demonstračních příkladů pro prostředí Apache Spark na různých datasetech.
Proveďte celkové zhodnocení a závěr.
Seznam doporučené literatury
Data science & big data analytics: discovering, analyzing, visualizing and presenting data. Indianapolis: Wiley, [2015], xviii, 410 s. ISBN 9781118876138.
GRUS, Joel. Data science from scratch. Sebastopol: O'Reilly, 2015, xvi, 311 s. ISBN 9781491901427.
OJEDA, Tony, Sean Patrick MURPHY, Benjamin BENGFORT a Abhijit DASGUPTA. Practical data science cookbook: 89 hands-on recipes to help you complete real-world data science projects in R and Python. Birmingham: Packt Publishing, 2014, 380 s. ISBN 9781783980246.
MILES, Matthew B., A. M. HUBERMAN a Johnny SALDA\ ΝA. Qualitative data analysis: a methods sourcebook. Fourth edition. Los Angeles: SAGE, [2020], xxi, 380 s. ISBN 9781544371856.
KARAU, Holden, Andy KONWINSKI, Patrick WENDELL a Matei ZAHARIA. Learning Spark. Sebastopol: O'Reilly, 2015, xvi, 256 s. ISBN 9781449358624.
RYZA, Sandy, Uri LASERSON, Sean OWEN a Josh WILLS. Advanced analytics with Spark. Beijing: O'Reilly, 2015, xii, 260 s. ISBN 9781491912768.
DORSEY, Richard. Data analytics. [CreateSpace Independent Publishing Platform], [2017], 67 s. ISBN 9781547089291.
ANKAM, Venkat. Big data analytics: a handy reference guide for data analysts and data scientists to help to obtain value from big data analytics using Spark on Hadoop clusters. Birmingham: Packt, 2016, xv, 300 s. ISBN 9781785884696.
Seznam doporučené literatury
Data science & big data analytics: discovering, analyzing, visualizing and presenting data. Indianapolis: Wiley, [2015], xviii, 410 s. ISBN 9781118876138.
GRUS, Joel. Data science from scratch. Sebastopol: O'Reilly, 2015, xvi, 311 s. ISBN 9781491901427.
OJEDA, Tony, Sean Patrick MURPHY, Benjamin BENGFORT a Abhijit DASGUPTA. Practical data science cookbook: 89 hands-on recipes to help you complete real-world data science projects in R and Python. Birmingham: Packt Publishing, 2014, 380 s. ISBN 9781783980246.
MILES, Matthew B., A. M. HUBERMAN a Johnny SALDA\ ΝA. Qualitative data analysis: a methods sourcebook. Fourth edition. Los Angeles: SAGE, [2020], xxi, 380 s. ISBN 9781544371856.
KARAU, Holden, Andy KONWINSKI, Patrick WENDELL a Matei ZAHARIA. Learning Spark. Sebastopol: O'Reilly, 2015, xvi, 256 s. ISBN 9781449358624.
RYZA, Sandy, Uri LASERSON, Sean OWEN a Josh WILLS. Advanced analytics with Spark. Beijing: O'Reilly, 2015, xii, 260 s. ISBN 9781491912768.
DORSEY, Richard. Data analytics. [CreateSpace Independent Publishing Platform], [2017], 67 s. ISBN 9781547089291.
ANKAM, Venkat. Big data analytics: a handy reference guide for data analysts and data scientists to help to obtain value from big data analytics using Spark on Hadoop clusters. Birmingham: Packt, 2016, xv, 300 s. ISBN 9781785884696.
Přílohy volně vložené
-
Přílohy vázané v práci
-
Převzato z knihovny
Ne
Plný text práce
Přílohy
Posudek(y) oponenta
Hodnocení vedoucího
Záznam průběhu obhajoby
Diplomant odprezentoval před komisí hlavní cíle a výsledky své diplomové práce. Prezentace velmi dobře vystihovala hlavní body práce, jednotlivé snímky prezentace byly graficky i obsahově vyvážené.. Následně byl student seznámen s posudky vedoucího a oponenta diplomové práce. Diplomant postupně odpověděl na otázky oponenta práce.
Komise vznesla k obhajobě následující dotazy:
1) Prof. Šeda: Uplatnil jste ve Vaší práci podmíněnou pravděpodobnost?
2) Prof. Šeda: Proč jste zvolil Poissonovo rozdělení?
3) Prof. Šeda: Implementoval jste ve Vaší práci metodu nejmenších čtverců?
4) Prof. Šeda: S jakým typem dat pracujete ve Vaší práci?
5) Prof. Jašek: Při představení akademiků je třeba uvádět i jejich akademické tituly. Dále je třeba se v diplomové práci vyvarovat pravopisných chyb a překlepů.
6) Prof. Jašek: Ve Vaší práci chybí zmíněný Váš přínos.
Na kladené dotazy diplomant reagoval na velmi dobré úrovni.