Δημοσιεύουμε τρία διαχρονικά σύνολα δεδομένων προτάσεων κριτικής Yelp με πάνω από 2,5 εκατομμύρια μοναδικές κριτικές.

Δημοσιεύουμε τρία διαχρονικά σύνολα δεδομένων προτάσεων κριτικής Yelp με πάνω από 2,5 εκατομμύρια μοναδικές κριτικές.

Januar 7, 2023 0 Von admin

Από τους Ryan Amos, Roland Maio και Prateek Mittal

Οι διαδικτυακές κριτικές αποτελούν σημαντική πηγή πληροφόρησης των καταναλωτών, διαδραματίζουν σημαντικό ρόλο στην προστασία των καταναλωτών και έχουν ουσιαστικό αντίκτυπο στα οικονομικά αποτελέσματα των επιχειρήσεων. Ορισμένες από αυτές τις κριτικές μπορεί να είναι προβληματικές. για παράδειγμα, κριτικές με κίνητρα, κριτικές με σύγκρουση συμφερόντων, άσχετες κριτικές και εντελώς κατασκευασμένες κριτικές. Για την αντιμετώπιση αυτού του προβλήματος, πολλές πλατφόρμες κριτικών αναπτύσσουν συστήματα για να προσδιορίζουν ποιες αξιολογήσεις θα εμφανίζονται στους χρήστες. Λίγα είναι γνωστά για το πώς αυτές οι προτάσεις κριτικών στο διαδίκτυο αλλάζουν με την πάροδο του χρόνου.

Παρουσιάζουμε ένα νέο σύνολο δεδομένων με κριτικές Yelp για να μελετήσουμε αυτές τις αλλαγές, τις οποίες ονομάζουμε αναταξινόμηση. Η μελέτη της επαναταξινόμησης μπορεί να βοηθήσει στην κατανόηση της εγκυρότητας της προηγούμενης εργασίας που εξαρτάται από τις ετικέτες του Yelp, να αξιολογήσει τον υπάρχοντα ταξινομητή και να ρίξει φως στην αρκετά αδιαφανή διαδικασία της σύστασης αναθεώρησης.

Επισκόπηση δεδομένων

Τα δεδομένα μας προέρχονται από το Yelp μεταξύ 2020 και 2021 και περιέχουν κριτικές που το Yelp ταξινομεί ως „Συνιστάται“ και „Μη συνιστώμενο“, με συνολικά 2,2 εκατομμύρια κριτικές που περιγράφονται σε 12,5 εκατομμύρια σημεία δεδομένων. Η απελευθέρωση δεδομένων αποτελείται από τρία σύνολα δεδομένων: ένα μικρό σύνολο δεδομένων με διάρκεια οκτώ ετών (όταν συνδυάζεται με προηγούμενη εργασία), ένα μεγάλο σύνολο δεδομένων που συγκεντρώνεται στην περιοχή του Σικάγο και ένα μεγάλο σύνολο δεδομένων που κατανέμεται στις ΗΠΑ και διαστρωματώνεται με βάση την πυκνότητα του πληθυσμού και το εισόδημα των νοικοκυριών.

Τα δεδομένα είναι ψευδώνυμα για την προστασία του απορρήτου του αναθεωρητή και τις αναλύσεις στην αντίστοιχη εργασία μας μπορεί να αναπαραχθεί με τα ψευδώνυμα στοιχεία.

Απόκτηση πρόσβασης

Επισκεφτείτε τον ιστότοπό μας για περισσότερες πληροφορίες σχετικά με το αίτημα πρόσβασης:

https://sites.google.com/princeton.edu/longitudinal-review-data