Κόλπα και συμβουλές Pandas |  Pandas Tips για Αναλυτές

Κόλπα και συμβουλές Pandas | Pandas Tips για Αναλυτές

Oktober 1, 2022 0 Von admin

ΣΦΑΙΡΙΚΗ ΕΙΚΟΝΑ

  • Τα Panda παρέχουν εργαλεία και τεχνικές για να διευκολύνουν την ανάλυση δεδομένων στην Python
  • Θα συζητήσουμε συμβουλές και κόλπα που θα σας βοηθήσουν να γίνετε καλύτερος και αποτελεσματικός αναλυτής

Εισαγωγή

Η αποτελεσματικότητα έχει γίνει βασικό συστατικό για την έγκαιρη ολοκλήρωση των εργασιών. Δεν αναμένεται να αφιερώσει κανείς περισσότερο από ένα εύλογο χρονικό διάστημα για να ολοκληρώσει τα πράγματα. Ειδικά όταν η εργασία περιλαμβάνει βασική κωδικοποίηση. Ένας τέτοιος τομέας όπου οι επιστήμονες δεδομένων αναμένεται να είναι οι ταχύτεροι είναι όταν χρησιμοποιούν τη βιβλιοθήκη Pandas στην Python.

Hack των Pandas

Το Pandas είναι ένα πακέτο ανοιχτού κώδικα. Βοηθά στην εκτέλεση ανάλυσης δεδομένων και χειρισμού δεδομένων στη γλώσσα Python. Επιπλέον, μας παρέχει γρήγορες και ευέλικτες δομές δεδομένων που διευκολύνουν την εργασία με Σχεσιακά και δομημένα δεδομένα.

Εάν είστε νέοι στα Panda, προχωρήστε και εγγραφείτε αυτό το δωρεάν μάθημα. Θα σας καθοδηγήσει σε όλα τα μέσα και τα έξω αυτής της υπέροχης βιβλιοθήκης Python. Και σας προετοιμάζει για το ταξίδι ανάλυσης δεδομένων. Αυτό είναι το έκτο μέρος της σειράς hacks, συμβουλές και κόλπα Data Science. Συνιστώ ανεπιφύλακτα να διαβάσετε τα προηγούμενα άρθρα για να γίνετε πιο αποτελεσματικός επιστήμονας δεδομένων ή αναλυτής.

Έχω επίσης μετατρέψει τη μάθησή μου σε δωρεάν μάθημα που μπορείτε να δείτε:

Επίσης, εάν έχετε τις δικές σας εισβολές, συμβουλές και κόλπα Επιστήμης Δεδομένων, μπορείτε να τις μοιραστείτε με την ανοιχτή κοινότητα σε αυτό το αποθετήριο GitHub: Hacks, συμβουλές και κόλπα Data Science στο GitHub.

Πίνακας περιεχομένων

  • Pandas Hack #1 – Επιλογή υπό όρους σειρές
  • Pandas Hack #2 – Binning δεδομένων
  • Pandas Hack #3 – Ομαδοποίηση δεδομένων
  • Pandas Hack #4 – Χαρτογράφηση Pandas
  • Pandas Hack #5 – Μορφοποίηση υπό όρους Pandas DataFrame

Pandas Hack #1 – Επιλογή υπό όρους σειρές

Αρχικά, η εξερεύνηση δεδομένων είναι ένα αναπόσπαστο βήμα για την εύρεση των ιδιοτήτων ενός συνόλου δεδομένων. Τα Panda παρέχουν έναν γρήγορο και εύκολο τρόπο για να εκτελέσετε κάθε είδους ανάλυση. Μια τέτοια σημαντική ανάλυση είναι η υπό όρους επιλογή σειρών ή το φιλτράρισμα των δεδομένων.

Η υπό όρους επιλογή σειρών μπορεί να βασίζεται σε μία μόνο συνθήκη ή πολλαπλές συνθήκες σε μία μόνο πρόταση που χωρίζεται από λογικούς τελεστές.

Για παράδειγμα, αναλαμβάνω ένα σύνολο δεδομένων για την πρόβλεψη δανείου. Μπορείτε να δείτε το σύνολο δεδομένων εδώ.

Θα επιλέξουμε τις σειρές πελατών που δεν έχουν αποφοιτήσει και έχουν εισόδημα μικρότερο από 5400. Ας δούμε πώς θα το κάνουμε.

Σημείωση: Θυμηθείτε να βάλετε καθεμία από τις συνθήκες μέσα στην παρένθεση. Διαφορετικά, θα ρυθμίσετε τον εαυτό σας για ένα σφάλμα.

Δοκιμάστε αυτόν τον κωδικό στο ζωντανό παράθυρο κωδικοποίησης παρακάτω.

Pandas Hack #2 – Binning δεδομένων

Τα δεδομένα μπορεί να είναι 2 τύπων – Συνεχή και κατηγορηματικά ανάλογα με την απαίτηση της ανάλυσής μας. Μερικές φορές δεν απαιτούμε την ακριβή τιμή που υπάρχει στη συνεχή μεταβλητή μας. Αλλά η ομάδα στην οποία ανήκει. Εδώ μπαίνει στο παιχνίδι το Binning.

Για παράδειγμα, έχετε μια συνεχή μεταβλητή στα δεδομένα σας – ηλικία. Αλλά χρειάζεστε μια ηλικιακή ομάδα για την ανάλυσή σας, όπως – παιδί, έφηβος, ενήλικας, ηλικιωμένος. Πράγματι, το Binning είναι τέλειο για να λύσει το πρόβλημά μας εδώ.

Για να εκτελέσουμε binning, χρησιμοποιούμε τη συνάρτηση cut(). Αυτό είναι χρήσιμο για μετάβαση από μια συνεχή μεταβλητή σε μια κατηγορική μεταβλητή.

Ας δούμε το βίντεο για να πάρουμε μια καλύτερη ιδέα!

Pandas Hack #3 – Ομαδοποίηση δεδομένων

Αυτή η λειτουργία εκτελείται συχνά στην καθημερινή ζωή των επιστημόνων δεδομένων και των αναλυτών. Τα Panda παρέχουν μια βασική λειτουργία για την εκτέλεση ομαδοποίησης δεδομένων που είναι Groupby.

Η λειτουργία Groupby περιλαμβάνει τον διαχωρισμό ενός αντικειμένου με βάση ορισμένες συνθήκες, την εφαρμογή μιας συνάρτησης και στη συνέχεια το συνδυασμό των αποτελεσμάτων.

Ας πάρουμε ξανά το σύνολο δεδομένων πρόβλεψης δανείου, ας πούμε ότι θέλω να εξετάσω το μέσο ποσό δανείου που δίνεται σε άτομα από διαφορετικές περιοχές ιδιοκτησίας, όπως Rural, Semiurban και Urban. Αφιερώστε λίγο χρόνο για να κατανοήσετε αυτήν τη δήλωση προβλήματος και σκεφτείτε πώς μπορείτε να τη λύσετε.

Λοιπόν, το pandas groupby μπορεί να λύσει αυτό το πρόβλημα πολύ αποτελεσματικά. Αρχικά χωρίζουμε τα δεδομένα ανάλογα με την περιοχή του ακινήτου. Δεύτερον, εφαρμόζουμε τη συνάρτηση mean() σε κάθε μία από τις κατηγορίες. Τέλος τα συνδυάζουμε όλα μαζί και τα εκτυπώνουμε ως νέο πλαίσιο δεδομένων.

Pandas Hack #4 – Χαρτογράφηση Pandas

Αυτή είναι μια ακόμη σημαντική λειτουργία που παρέχει υψηλή ευελιξία και πρακτικές εφαρμογές.

Το Pandas map() χρησιμοποιείται για την αντιστοίχιση κάθε τιμής σε μια σειρά με κάποια άλλη που βασίζεται σε τιμές σύμφωνα με μια αντιστοιχία εισόδου. Στην πραγματικότητα, αυτή η είσοδος μπορεί να είναι μια σειρά, ένα λεξικό ή ακόμα και μια συνάρτηση.

Ας πάρουμε ένα ενδιαφέρον παράδειγμα. Έχουμε ένα εικονικό σύνολο δεδομένων υπαλλήλων. Αυτό το σύνολο δεδομένων αποτελείται από τις ακόλουθες στήλες – όνομα, ηλικία, επάγγελμα, πόλη. Τώρα θέλετε να προσθέσετε μια άλλη στήλη που να δηλώνει την αντίστοιχη κατάσταση. Πώς θα το έκανες; Εάν το σύνολο δεδομένων κυμαίνεται σε δέκα σειρές, μπορείτε να το κάνετε χειροκίνητα, αλλά τι γίνεται αν έχετε χιλιάδες σειρές; Θα ήταν πολύ πιο συμφέρουσα η χρήση του χάρτη των pandas.

Σημείωση – Ο χάρτης ορίζεται μόνο στη σειρά.

Pandas Hack #5 – Μορφοποίηση υπό όρους Pandas DataFrame

Αυτό είναι ένα από τα αγαπημένα μου Pandas Hacks. Αυτό το hack μου παρέχει τη δύναμη να εντοπίσω οπτικά τα δεδομένα που ακολουθούν μια συγκεκριμένη συνθήκη.

Μπορείτε να χρησιμοποιήσετε την ιδιότητα στυλ Pandas για να εφαρμόσετε μορφοποίηση υπό όρους στο πλαίσιο δεδομένων σας. Στην πραγματικότητα, η μορφοποίηση υπό όρους είναι η λειτουργία κατά την οποία εφαρμόζετε οπτικό στυλ στο πλαίσιο δεδομένων με βάση κάποια συνθήκη.

Ενώ το Pandas παρέχει έναν άφθονο αριθμό λειτουργιών, θα σας δείξω μια απλή εδώ. Για παράδειγμα, έχουμε τα δεδομένα πωλήσεων που αντιστοιχούν σε κάθε έναν από τους αντίστοιχους πωλητές. Θέλω να επισημάνω τις αξίες πωλήσεων ως πράσινες που είναι υψηλότερες από 80.

Σημείωση – Έχουμε εφαρμόσει τη συνάρτηση εφαρμογής χάρτη εδώ, αφού θέλουμε να εφαρμόσουμε τη συνάρτηση στυλ με στοιχεία.

Σημειώσεις τέλους

Συνοψίζοντας, σε αυτό το άρθρο, καλύψαμε επτά χρήσιμα hacks, συμβουλές και κόλπα Panda σε διάφορες μονάδες και λειτουργίες Panda. Ελπίζω αυτά τα hacks να σας βοηθήσουν με τις καθημερινές εξειδικευμένες εργασίες και να σας εξοικονομήσουν πολύ χρόνο. Σε περίπτωση που είστε εντελώς νέοι στο python, συνιστώ ανεπιφύλακτα αυτό το δωρεάν μάθημα-

Ενημερώστε με τα hacks, τις συμβουλές και τα κόλπα της Επιστήμης Δεδομένων στην παρακάτω ενότητα σχολίων!