TOP 10 αποθετήρια GitHub για Data Science Analytics Vidhya

TOP 10 αποθετήρια GitHub για Data Science Analytics Vidhya

September 30, 2022 0 Von admin

Εισαγωγή

Η επιστήμη δεδομένων είναι ένας συνεργατικός επιστημονικός τομέας υπολογιστών που έχει πολλαπλασιαστεί τα τελευταία χρόνια και έχει γίνει η δύναμη πίσω από τις επιχειρηματικές αποφάσεις που λαμβάνουν οι οργανισμοί στη σημερινή εποχή, είτε πρόκειται για νεοσύστατες εταιρείες FAANG είτε για νεοσύστατες επιχειρήσεις σε πρώιμο στάδιο.

Καθώς το πεδίο έχει μεγαλώσει, τόσο αυξάνει ο αριθμός των ατόμων που επιδιώκουν αυτόν τον τομέα και οι πόροι εκμάθησης που είναι διαθέσιμοι στο διαδίκτυο. Ο κορυφαίος πόρος για την εκμάθηση της επιστήμης δεδομένων είναι το GitHub μεταξύ όλων αυτών των πόρων.

Τι είναι το GitHub;

Αποθετήρια GitHub

Όπως είναι η ίδια η λέξη, το GitHub προτείνει έναν κόμβο για πάνω από 73 εκατομμύρια κωδικοποιητές και προγραμματιστές για φιλοξενία και κοινή χρήση κωδικών σε ένα συνεργατικό και συνεργατικό περιβάλλον. Παρέχει πολλά χαρακτηριστικά όπως έλεγχο πρόσβασης, έλεγχο έκδοσης και συνεχή ενοποίηση για κάθε έργο και είναι ο πιο σημαντικός κεντρικός υπολογιστής πηγαίου κώδικα παγκοσμίως με πάνω από 28 εκατομμύρια δημόσια αποθετήρια. Έχω συγκεντρώσει τα 10 κορυφαία αποθετήρια για την εκμάθηση της επιστήμης δεδομένων από αυτά.

Για να μάθετε περισσότερα για το GitHub, διαβάστε εδώ.

Αποθετήρια GitHub

Το Freecodecamp είναι δωρεάν για εκμάθηση διαδικτυακής κοινότητας κωδικοποίησης με ειδικότητα σε διάφορους τομείς. Παρέχει πολλές πιστοποιήσεις σε διαφορετικά προφίλ κωδικών, μεταξύ των οποίων Πιστοποίηση Οπτικοποίησης Δεδομένων, Ανάλυση Δεδομένων με Πιστοποίηση Python και Μηχανική Εκμάθηση με Πιστοποίηση Python. Η κοινότητα Freecodecamp διαθέτει επίσης ένα φόρουμ όπου οι χρήστες μπορούν να λάβουν βοήθεια προγραμματισμού και σχόλια για τα έργα τους. Έχουν επίσης ένα Κανάλι στο Youtube που περιέχει δωρεάν μαθήματα για Python, SQL, Machine Learning και πολλά άλλα.

Αποθετήρια GitHub

Το TensorFlow είναι ένα πλαίσιο ανοιχτού κώδικα για τη Μηχανική μάθηση και την Τεχνητή Νοημοσύνη που αναπτύχθηκε από την Google Brain Team. Το αποθετήριο GitHub περιέχει διάφορους πόρους για να μάθετε και να βελτιώσετε τις δεξιότητες TensorFlow και Machine Learn.

Μπορείτε να μάθετε περισσότερα για το TensorFlow μέσω Οδηγίες TensorFlow. Αυτά τα σεμινάρια είναι γραμμένα σε σημειωματάρια Jupyter και μπορούν να εκτελεστούν απευθείας στο Google Colab χωρίς να απαιτείται ρύθμιση.

Παρέχει επίσης την τελευταία λέξη της τεχνολογίας μοντέλα για τη Μηχανική Μάθηση σε τομείς όπως η όραση υπολογιστών, το NLP και τα συστήματα συστάσεων. Είναι εξαιρετικά βελτιστοποιημένα και αποτελεσματικά στην εργασία που έχουν σχεδιαστεί να κάνουν, γεγονός που τους επιτρέπει να τα χρησιμοποιούν άμεσα και να παράγουν εξαιρετικά ακριβή αποτελέσματα στα σύνολα δεδομένων τους.

Αποθετήρια GitHub

Αυτό το αποθετήριο GitHub περιέχει διάφορους αλγόριθμους κωδικοποιημένους αποκλειστικά σε Python. Επιστρατεύει μια συλλογή κωδικών σε τομείς όπως Μηχανική μάθηση, Νευρωνικά δίκτυα, Ψηφιακή επεξεργασία εικόνας και Computer Vision.

Η υπο-αποθήκη Machine Learning παρέχει κώδικες για διάφορες τεχνικές παλινδρόμησης, όπως η γραμμική και η πολυωνυμική παλινδρόμηση. Συνήθως χρησιμοποιούνται σε προγνωστική ανάλυση για συνεχή δεδομένα και είναι πολύ χρήσιμα για προβλήματα που σχετίζονται με τις τιμές των μετοχών ή την πρόβλεψη των κατοικιών. Περιέχει επίσης μεθόδους ταξινόμησης όπως η λογιστική παλινδρόμηση και το πολυστρωματικό perceptron που χρησιμοποιούνται για την πρόβλεψη δεδομένων που περιέχουν διακριτές τιμές (όπου τα δεδομένα χωρίζονται σε πολλές κλάσεις).

Το αποθετήριο νευρωνικών δικτύων περιέχει κώδικες για backpropagation που ασχολείται με την ενημέρωση βαρών στην αρχιτεκτονική νευρωνικών δικτύων, το Convolutional Neural Network παρέχει στον άνθρωπο τη μηχανή τη δυνατότητα να διακρίνει μεταξύ διαφορετικών κατηγοριών εικόνων. Μία από τις πιο κοινές εφαρμογές της αρχιτεκτονικής του CNN είναι το „oogle Lens“

Το αποθετήριο ψηφιακών εικόνων περιέχει κωδικούς για την ανίχνευση άκρων, όπως τον εντοπισμό άκρων Canny. Αυτοί οι τύποι τεχνικών χρησιμοποιούνται συχνότερα για την απομόνωση των άκρων σε μια σύλληψη περιβάλλοντος. Μία από τις πιο γνωστές εφαρμογές είναι τα αυτόνομα αυτοκίνητα που βασίζονται σε αυτά για τον προσδιορισμό των οδοστρωμάτων.

Το αποθετήριο όρασης υπολογιστή περιέχει κωδικούς για ομαδοποίηση, ένα χαρακτηριστικό του CCNN που χρησιμοποιείται για την εξαγωγή των χαρακτηριστικών με την υψηλότερη βαθμολογία σε μια εικόνα για ταξινόμηση.

Καταπληκτική εκμάθηση μηχανών |  Αποθετήρια GitHub

Το παραπάνω αποθετήριο GitHub παρέχει μια οργανωμένη λίστα βιβλιοθηκών μηχανικής εκμάθησης, πλαισίων και εργαλείων σε όλες σχεδόν τις διαθέσιμες γλώσσες. Καθώς το μεγαλύτερο μέρος της ανάπτυξης της Μηχανικής Μάθησης γίνεται σε Python, οι επαγγελματίες χωρίς Python ως υπόβαθρο μπορεί να δυσκολεύονται να προσαρμοστούν σε αυτήν. Έτσι, αυτό καθιστά αυτό το αποθετήριο ακόμη πιο πολύτιμο, καθώς υπερβαίνει όλες τις γλώσσες και προωθεί ένα συλλογικό περιβάλλον ανάπτυξης για τη Μηχανική Μάθηση.

Στην python, οι βιβλιοθήκες παρέχονται στους ακόλουθους τομείς:

Περαιτέρω επεξεργασία, οι βιβλιοθήκες Computer vision περιλαμβάνουν scikit-image, scikit-opt, face_recognition, νευρωνικό όνειρο και πολλά άλλα, οι βιβλιοθήκες NLP περιλαμβάνουν CLTK και NLTK που μας βοηθούν να δημιουργήσουμε μοντέλα που είναι ικανά να κατανοούν δεδομένα ανθρώπινης γλώσσας, βιβλιοθήκες μηχανικής μάθησης περιλαμβάνουν scikit Learn , μοτίβο και προφήτης που αναπτύχθηκε από το Facebook και είναι ένα από τα καλύτερα μοντέλα για την πρόβλεψη δεδομένων χρονοσειρών, οι βιβλιοθήκες οπτικοποίησης δεδομένων και ανάλυσης περιλαμβάνουν panda, numpy και πολλά άλλα που είναι πραγματικά χρήσιμα στη μοντελοποίηση και τη μετατροπή των συνόλων δεδομένων μας και, τέλος, οι βιβλιοθήκες νευρωνικών δικτύων περιλαμβάνουν neural_talk, nn_builder που μπορεί να δημιουργήσει νευρωνικά δίκτυα σε μία γραμμή!!.

I-Python |  Αποθετήρια GitHub

Το παραπάνω αποθετήριο περιέχει σημειωματάρια python για σχεδόν κάθε πτυχή της μηχανικής εκμάθησης, της μηχανικής δεδομένων και της αύξησης δεδομένων. Διαθέτει σημειωματάρια python για την επιστήμη δεδομένων για βιβλιοθήκες και πλαίσια Deep Learning (TensorFlow, Theano, Caffe, Keras), scikit-learn, σημειωματάρια μεγάλων δεδομένων στο Spark, Hadoop MapReduce, HDFS, σημειωματάρια οπτικοποίησης δεδομένων στο matplotlib και σημειωματάρια μετασχηματισμού δεδομένων σε panda. NumPy, SciPy.

Ανάμεσά τους, μια από τις πιο δημοφιλείς βιβλιοθήκες είναι scikit-μαθαίνω που περιέχει σημειωματάρια για διάφορους αλγόριθμους μηχανικής μάθησης, όπως K-Nearest Neighbors, Support Vector Machines, Random Forest, K-Means και ανάλυση κύριων στοιχείων.

Μέσα από pandas i-notebooks μπορεί κανείς να μάθει τεχνικές όπως ευρετηρίαση δεδομένων, ένωση συγχώνευσης, συνάθροιση και συμπλήρωση τιμών που λείπουν. Όλα αυτά υπάγονται στον καθαρισμό και την προετοιμασία δεδομένων και είναι το πιο σημαντικό μέρος του αγωγού ανάλυσης δεδομένων. Στην πραγματικότητα, χωρίς τον καθαρισμό και την επαύξηση δεδομένων, κανένας όγκος ανάλυσης από διαφορετικούς αλγόριθμους δεν θα απέφερε πολύτιμα ή λογικά αποτελέσματα.

Διά μέσου Σημειωματάρια Matplotlib Οι άνθρωποι μπορούν να μάθουν για τη δημιουργία φιλικών προς τον χρήστη ραβδόγραμμα και γραφήματα που είναι πραγματικά χρήσιμα για την απεικόνιση των αποτελεσμάτων της ανάλυσης με φιλικό προς τον χρήστη τρόπο.

Μηχανική Μάθηση |  Αποθετήρια GitHub

Αυτό το αποθετήριο περιέχει περιπτώσεις των πιο χρησιμοποιούμενων και ευρέως χρησιμοποιούμενων κωδίκων μηχανικής εκμάθησης και αλγορίθμων που υλοποιούνται με χρήση Python που εξηγούνται μαζί με τα μαθηματικά και τη λογική που λειτουργούν πίσω από αυτά. Επίσης, κάθε αλγόριθμος επεξηγείται μέσα από το αλληλεπιδραστικό περιβάλλον του σημειωματάριου Jupyter. Οι κωδικοί δεν εκτελούνται μόνο σε ένα σετ εκπαίδευσης για ανάλυση δεδομένων, αλλά επίσης εξηγούνται τα μαθηματικά, γεγονός που το καθιστά έναν από τους καλύτερους πόρους για την ενίσχυση των βασικών γνώσεων.

Για εποπτευόμενη μάθηση Παρέχει βοήθεια για τεχνικές παλινδρόμησης και ταξινόμησης εξηγώντας τα μαθηματικά πίσω από τη γραμμική παλινδρόμηση, την λογιστική παλινδρόμηση παρέχοντας τον κωδικό για αυτήν και εκτελώντας τον στο σημειωματάριο Jupyter.

Για μάθηση χωρίς επίβλεψη, παρέχει κώδικες για ομαδοποίηση που χρησιμοποιείται σε προβλήματα όπως η τμηματοποίηση πελατών. Κατά τη ομαδοποίηση, χωρίζουμε τα παραδείγματα εκπαίδευσης σε διαφορετικά συμπλέγματα με βάση στήλες δεδομένων των οποίων οι θρύλοι δεν είναι γνωστοί σε εμάς.

Για νευρικό σύστημα Παρέχει μια εξήγηση για το πολυστρωματικό perceptron, τη λειτουργία των συναρτήσεων ενεργοποίησης, τις συναρτήσεις κόστους, τις συναρτήσεις απώλειας και την βαθμιδωτή κάθοδο.

Φοβερή Επιστήμη Δεδομένων

Αυτό το αποθετήριο GitHub είναι πολύ σημαντικό για όσους θέλουν να κατανοήσουν τα βασικά της επιστήμης δεδομένων και της Μηχανικής Μάθησης. Σας απομακρύνει από το να απαντήσετε στις στοιχειώδεις ερωτήσεις σας, όπως „“hat is data science“““““γιατί πρέπει να το χρησιμοποιήσουμε““““δεν είναι οι εφαρμογές του““και σας φέρνει σε μια θέση όπου θα είστε καλά γνώστες βασικά στοιχεία της επιστήμης δεδομένων.

Περιέχει επίσης μια επιμέλεια κατάλογος του ΜMOOC’s που είναι κατά τη γνώμη μου ένας από τους καλύτερους τρόπους για να αποκτήσει κανείς γνώσεις σε αυτόν τον τομέα.

Περιέχει επίσης πολλά σεμινάρια και δωρεάν μαθήματα για να ξεκινήσετε το ταξίδι επιστήμης δεδομένων.

Περιέχει επίσης μια λίστα με βιβλιοθήκες που χρησιμοποιούνται για βαθιά μάθηση, μηχανική μάθηση, tensorflow, Σκληρός που χρησιμοποιούνται εκτενώς σε κάθε κώδικα που θα συναντούσατε στην επιστήμη δεδομένων.

Επίσης, μπορείτε να βρείτε κορυφαία περιοδικά, δημοσιεύσεις και περιοδικά σχετικά με την επιστήμη των δεδομένων και τα Big Data, κάτι που είναι πραγματικά χρήσιμο για να παραμείνετε ενημερωμένοι με τις τελευταίες εξελίξεις στον τομέα.

Για όσους προτιμούν την ακρόαση παρά την ανάγνωση, είστε τυχεροί καθώς περιέχει μια αποκλειστική λίστα podcast και Κανάλια YouTube σε διάφορα θέματα επιστήμης δεδομένων, όπως η τεχνητή νοημοσύνη, τα μεγάλα δεδομένα και η μηχανική δεδομένων.

Μπορείτε επίσης να παρακολουθήσετε την ανάγνωση των πιο δημοφιλών βιβλία σχετικά με την επιστήμη των δεδομένων και ανταλλάξτε τις ιδέες σας και ακολουθήστε τις πιο σημαντικές bloggers.

Όπως υποδηλώνει το όνομα, το deep learning drizzle είναι ένα αποθετήριο GitHub αφιερωμένο σε αλγόριθμους βαθιάς μάθησης. Παρέχει πόρους όπως διαφάνειες διαλέξεων από τα πιο σημαντικά πανεπιστήμια του κόσμου και τις διαλέξεις τους στο YouTube σε διάφορους τομείς όπως:

Βαθιά νευρωνικά δίκτυα

Βασικές αρχές μηχανικής μάθησης

Επεξεργασία Φυσικής Γλώσσας

Βελτιστοποίηση για Μηχανική Μάθηση

Γενική Μηχανική Μάθηση

Σύγχρονο Computer Vision και πολλά άλλα.

Αυτοί οι πόροι εκτιμώνται ιδιαίτερα και ακολουθούνται από εκατομμύρια ανθρώπους σε όλο τον κόσμο. Ως εκ τούτου, είναι βέβαιο ότι θα σας παρέχουν εκτεταμένη γνώση της αρχιτεκτονικής βαθιάς νευρώνων και της μηχανικής μάθησης γενικά.

Ένα από τα κύρια μέρη της εκμάθησης οποιουδήποτε τομέα, είτε πρόκειται για επιστήμη δεδομένων, τεχνητή νοημοσύνη ή οποιονδήποτε άλλο, είναι να έχεις πρακτική γνώση, να έχεις πρακτική εμπειρία. Οι περισσότεροι από τους ανθρώπους που σπουδάζουν ή επιδιώκουν τα ενδιαφέροντά τους σε αυτόν τον τομέα συναντούν την ευκαιρία να δημιουργήσουν έργα για την επιστήμη των δεδομένων. Έτσι, αυτό το αποθετήριο σάς παρέχει μια από τις πιο σημαντικές λίστες που περιέχει πάνω από 500 έργα για τη μηχανική μάθηση, το NLP, την τεχνητή νοημοσύνη μαζί με κώδικα. Αυτό είναι πραγματικά χρήσιμο για όσους θέλουν πρακτική γνώση ή θέλουν να δημιουργήσουν έργα για το βιογραφικό τους.

Διαδραστικά εργαλεία

Αυτό το αποθετήριο περιέχει διαδραστικά εργαλεία για βαθιά μάθηση, μηχανική μάθηση μαζί με μια εξήγηση των μαθηματικών πίσω από αυτό. Είναι πραγματικά διαισθητικό και ένας νέος τρόπος για να κατανοήσουμε και να κατανοήσουμε την περίπλοκη φύση αυτών των αλγορίθμων. Η δουλειά τους απεικονίζεται μέσω βίντεο που βοηθούν να δούμε πώς μετατρέπουν και αναλύουν τα δεδομένα σε πραγματικό χρόνο.

Πάρτε για παράδειγμα το Επεξήγηση του CNN, το οποίο είναι μια διαδραστική περιγραφή βίντεο που εξηγεί τη λειτουργία ενός συνελικτικού δικτύου. Και για καθένα από αυτά τα παραδείγματα δίνεται ο κωδικός, το επίσημο έγγραφο επίδειξης.

Μέσα από αυτό το άρθρο, έχουμε ταξιδέψει στον κατάλογο των καλύτερων αποθετηρίων GitHub στο Internet. Από δωρεάν πόρους έως διαδραστικά εργαλεία και από δωρεάν μαθήματα έως φοβερούς κωδικούς, περάσαμε από μια καταπληκτική δουλειά που αναπτύχθηκε και μας παρασχέθηκε για λήψη. Είμαι βέβαιος ότι, ακόμα κι αν κάποιος απορροφήσει ένα μέρος της ποικιλίας αυτών των πόρων, μπορεί να διαπρέψει και να φτάσει νεότερα ύψη στην καριέρα του στην επιστήμη των δεδομένων.

ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΑΝΑΦΟΡΕΣ

Εικόνα 1- https://rb.gy/9zxi9v

Εικόνα 2- https://rb.gy/cwjc93

Εικόνα 3- https://rb.gy/x1h5s9

Εικόνα 4- https://rb.gy/ecgxcf

Εικόνα 5- https://rb.gy/qccyul

Εικόνα 6- https://rb.gy/29ihlg

Εικόνα 7- https://rb.gy/rnbhvt

Εικόνα 8- https://rb.gy/x9vmlq

Εικόνα 9- https://rb.gy/shm6ln