Statistické metody jsou klíčovou součástí datové vědy, přesto jen málo datových vědců má formální statistické školení. Kurzy a knihy o základních statistikách zřídka pokrývají toto téma z pohledu datové vědy. Druhé vydání tohoto oblíbeného průvodce přidává komplexní příklady v Pythonu, poskytuje praktické pokyny pro aplikaci statistických metod na datovou vědu, říká vám, jak se vyhnout jejich zneužití, a dává vám rady, co je důležité a co ne.
Mnoho zdrojů datové vědy zahrnuje statistické metody, ale chybí jim hlubší statistická perspektiva. Pokud znáte programovací jazyky R nebo Python a máte nějaké základy statistiky, tento rychlý přehled překlenuje mezeru v přístupném, čitelném formátu.
S touto knihou se naučíte:
Proč je průzkumná analýza dat klíčovým předběžným krokem ve vědě o datech
Jak může náhodné vzorkování snížit zkreslení a poskytnout datovou sadu vyšší kvality, a to i s velkými daty
Jak principy experimentálního designu poskytují definitivní odpovědi na otázky
Jak používat regresi k odhadu výsledků a detekci anomálií
Klíčové klasifikační techniky pro předpovídání, do kterých kategorií záznam patří
Statistické metody strojového učení, které se „učí“ z dat
Metody učení bez dozoru pro extrakci významu z neoznačených dat
o autorovi
Peter Bruce je zakladatel a hlavní akademický ředitel Institutu pro statistické vzdělávání na Statistics.com, který nabízí asi 80 kurzů statistiky a analytiky, z nichž zhruba polovina je zaměřena na datové vědce.. Je autorem nebo spoluautorem několika knih o statistice a analytice a bakalářský titul získal na Princetonu a magisterské tituly na Harvardu a University of Maryland.
^
Andrew Bruce, hlavní výzkumný pracovník ve společnosti Amazon, má přes 30 let zkušeností ve statistice a datové vědě v akademické sféře, státní správě a podnikání.. Spoluautor knihy Applied Wavelet Analysis with S-PLUS, získal bakalářský titul na Princetonu a doktorát ze statistiky na University of Washington.
^
Peter Gedeck, Senior Data Scientist ve společnosti Collaborative Drug Discovery, se specializuje na vývoj algoritmů strojového učení pro predikci biologických a fyzikálně-chemických vlastností kandidátů na léčiva.. Spoluautor knihy Data Mining for Business Analytics, získal tituly PhD v oboru chemie na Univerzitě Erlangen-Nürnberg v Německu a v oboru matematika na Fernuniversität Hagen v Německu.