Dobre nawyki to jedno, ale skąd brać wiedzę? Jakis książki przeczytać? Najpierw czytać książki czy materiały w Internecie? Poczytać i zapisać się na szkolenia czy odwrotnie? O tym będzie ten fragment bloga.
Zacznijmy od kanonu literatury data science:

  • Trevor Hastie (i inni): An Introduction to Statistical Learning: with Applications in R - ta książka jest dobra na początek (wymaga podstawowej znajomości statystyki, ekonometrii i algebry liniowej), zobacz książkę, książka jest oficjalnie dostępna w wersji PDF
  • Trevor Hastie (i inni): The Elements of Statistical Learning: Data Mining, Inference, and Prediction, książka jest oficjalnie dostępna w wersji PDF. Ta książka jest bardziej techniczna, wymaga pewnego rozeznania w metodach, a notacja jest trudniejsza. Z drugiej strony oferuje dużo więcej niż tylko zapoznanie z metodami + kody do R.


Ci, którzy wybierają ścieżkę Pythona mają wiele darmowych materiałów do nauki tego języka. Na początek niezły kurs Pythona (podręcznik online + wideo) oferuje Google for Education. Kurs kilku podstawowych pakietów do DS (numpy, matplotlib) jest tutaj, ale to nie wszystko. Brakuje np. standardowo używanych pandas czy scikit-learn.