Zaawansowana analiza danych w PySpark: metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark

Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje d...

Ausführliche Beschreibung

Gespeichert in:
Bibliographische Detailangaben
Beteiligte Personen: Tandon, Akash (VerfasserIn), Ryza, Sandy (VerfasserIn), Laserson, Uri 1983- (VerfasserIn), Owen, Sean (VerfasserIn), Wills, Josh (VerfasserIn)
Weitere beteiligte Personen: Watrak, Andrzej (ÜbersetzerIn)
Format: Elektronisch E-Book
Sprache:Polnisch
Veröffentlicht: Gliwice Helion [2023]
Ausgabe:[First edition].
Schlagwörter:
Links:https://learning.oreilly.com/library/view/-/9788383220703/?ar
Zusammenfassung:Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych. Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.
Umfang:1 Online-Ressource (192 Seiten) illustrations
ISBN:9788383220703
8383220707