Conrad Karlberg. Ανάλυση παλινδρόμησης στο Microsoft Excel

Σε προηγούμενες σημειώσεις, το αντικείμενο της ανάλυσης έγινε συχνά μια ξεχωριστή αριθμητική μεταβλητή, για παράδειγμα, η κερδοφορία των αμοιβαίων κεφαλαίων, ο χρόνος φόρτωσης μιας ιστοσελίδας ή ο όγκος κατανάλωσης αναψυκτικών. Σε αυτήν και στις παρακάτω σημειώσεις, θα εξετάσουμε μεθόδους για την πρόβλεψη των τιμών μίας αριθμητικής μεταβλητής ανάλογα με τις τιμές μιας ή περισσοτέρων άλλων αριθμητικών μεταβλητών.

Το υλικό θα απεικονισθεί με ένα εγκάρσιο παράδειγμα. Πρόβλεψη πωλήσεων σε κατάστημα ειδών ένδυσης.Η αλυσίδα καταστημάτων έκπτωσης Sunflowers επεκτείνεται συνεχώς εδώ και 25 χρόνια. Ωστόσο, η εταιρεία αυτή τη στιγμή δεν έχει συστηματική προσέγγιση για την επιλογή νέων καταστημάτων. Ο τόπος όπου η εταιρεία πρόκειται να ανοίξει ένα νέο κατάστημα καθορίζεται βάσει υποκειμενικών εκτιμήσεων. Τα κριτήρια επιλογής είναι ευνοϊκές συνθήκες ενοικίασης ή παραστάσεις του διαχειριστή σχετικά με την ιδανική τοποθεσία του καταστήματος. Φανταστείτε ότι είστε ο επικεφαλής των ειδικών σχεδίων και του τμήματος σχεδιασμού. Σας δόθηκε η εντολή να αναπτύξετε ένα στρατηγικό σχέδιο για το άνοιγμα νέων καταστημάτων. Το σχέδιο αυτό θα πρέπει να περιλαμβάνει πρόβλεψη για ετήσιες πωλήσεις σε νεοαποκτηθέντα καταστήματα. Πιστεύετε ότι η περιοχή πωλήσεων σχετίζεται άμεσα με τον όγκο των εσόδων και θέλετε να λάβετε υπόψη αυτό το γεγονός στη διαδικασία λήψης αποφάσεων. Πώς να αναπτύξετε ένα στατιστικό μοντέλο για να προβλέψετε ετήσιες πωλήσεις με βάση το μέγεθος ενός νέου καταστήματος;

Συνήθως, η ανάλυση παλινδρόμησης χρησιμοποιείται για την πρόβλεψη μεταβλητών τιμών. Ο σκοπός του είναι να αναπτύξει ένα στατιστικό μοντέλο που επιτρέπει την πρόβλεψη των τιμών της εξαρτώμενης μεταβλητής ή απόκρισης από τις τιμές μιας τουλάχιστον ανεξάρτητης ή επεξηγηματικής μεταβλητής. Σε αυτή τη σημείωση, θα εξετάσουμε μια απλή γραμμική παλινδρόμηση - μια στατιστική μέθοδος που σας επιτρέπει να προβλέψετε τις τιμές της εξαρτημένης μεταβλητής Υ   με τιμές μιας ανεξάρτητης μεταβλητής Χ. Οι επόμενες σημειώσεις περιγράφουν ένα μοντέλο πολλαπλής παλινδρόμησης που έχει σχεδιαστεί για να προβλέψει τις τιμές μιας ανεξάρτητης μεταβλητής. Υ   από τις τιμές πολλών εξαρτημένων μεταβλητών ( Χ1, Χ2, ..., Χκ).

Λήψη σημείωσης σε μορφή ή, παραδείγματα σε μορφή

Τύποι μοντέλων παλινδρόμησης

όπου ρ 1   - συντελεστής αυτοσυσχέτισης · εάν ρ 1   \u003d 0 (χωρίς αυτοσυσχέτιση), Δ   ≈ 2; εάν ρ 1   ≈ 1 (θετική αυτοσυσχέτιση), Δ   ≈ 0; εάν ρ 1   \u003d -1 (αρνητική αυτοσυσχέτιση), Δ ≈ 4.

Στην πράξη, η εφαρμογή του κριτηρίου Durbin-Watson βασίζεται στη σύγκριση του Δ   με κρίσιμες θεωρητικές τιμές d L   και d U   για ένα δεδομένο αριθμό παρατηρήσεων n, ο αριθμός των ανεξάρτητων μεταβλητών του μοντέλου k   (για απλή γραμμική παλινδρόμηση k   \u003d 1) και το επίπεδο σημασίας α. Αν Δ< d L , η υπόθεση της ανεξαρτησίας των τυχαίων αποκλίσεων απορρίπτεται (συνεπώς, υπάρχει μια θετική αυτοσυσχέτιση). εάν D\u003e d U, η υπόθεση δεν απορρίπτεται (δηλαδή, απουσιάζει η αυτοσυσχέτιση). εάν d L< D < d U Δεν υπάρχουν επαρκείς λόγοι για τη λήψη απόφασης. Όταν υπολογίζεται η τιμή Δ   υπερβαίνει το 2, τότε με d L   και d U   δεν συγκρίνεται ο συντελεστής Δ, και η έκφραση (4- Δ).

Για να υπολογίσουμε τα στατιστικά στοιχεία Durbin-Watson στο Excel, γυρίζουμε στο κάτω πίνακα στο Σχ. 14 Υπόλοιπο απόσυρσης. Ο αριθμητής σε έκφραση (10) υπολογίζεται χρησιμοποιώντας τη συνάρτηση \u003d SUMMKVRAZN (array1; array2) και ο παρονομαστής \u003d SUMMKVRAZN (πίνακας) (Εικ. 16).

Το Σχ. 16. Φόρμες για τον υπολογισμό των στατιστικών του Durbin-Watson

Στο παράδειγμά μας Δ   \u003d 0.883. Το κύριο ερώτημα είναι: ποια αξία των στατιστικών Durbin-Watson θα πρέπει να θεωρηθεί ότι είναι αρκετά μικρή για να καταλήξει στο συμπέρασμα ότι υπάρχει μια θετική αυτοσυσχέτιση; Είναι απαραίτητο να συσχετιστεί η τιμή του D με τις κρίσιμες τιμές ( d Lκαι   d U) ανάλογα με τον αριθμό των παρατηρήσεων n   και το επίπεδο σημασίας α (Σχήμα 17).

Το Σχ. 17. Σημαντικές τιμές των στατιστικών Durbin-Watson (τμήμα του πίνακα)

Έτσι, στο πρόβλημα των πωλήσεων σε ένα κατάστημα που παραδίδει αγαθά στο σπίτι σας, υπάρχει μια ανεξάρτητη μεταβλητή ( k   \u003d 1), 15 παρατηρήσεις ( n   \u003d 15) και το επίπεδο σημαντικότητας α \u003d 0,05. Επομένως d L\u003d 1,08 και δ   U   \u003d 1.36. Δεδομένου ότι Δ = 0,883 < d L\u003d 1,08, υπάρχει θετική αυτοσυσχέτιση μεταξύ των υπολειμμάτων, η μέθοδος των ελαχίστων τετραγώνων δεν μπορεί να εφαρμοστεί.

Δοκιμή υποθέσεων για κλίση και συντελεστή συσχέτισης

Η παραπάνω παλινδρόμηση χρησιμοποιήθηκε αποκλειστικά για την πρόβλεψη. Για τον προσδιορισμό των συντελεστών παλινδρόμησης και την πρόβλεψη της τιμής μιας μεταβλητής Υ   για μια δεδομένη τιμή μιας μεταβλητής Χ   χρησιμοποιήθηκε η μέθοδος των ελάχιστων τετραγώνων. Επιπλέον, εξετάσαμε το τυπικό σφάλμα της εκτίμησης και το μικτό συντελεστή συσχέτισης. Εάν η ανάλυση των υπολειμμάτων επιβεβαιώσει ότι οι συνθήκες εφαρμογής της μεθόδου των ελαχίστων τετραγώνων δεν παραβιάζονται και το απλό μοντέλο γραμμικής παλινδρόμησης είναι επαρκές, βάσει δεδομένων δειγμάτων, μπορεί να υποστηριχθεί ότι υπάρχει μια γραμμική σχέση μεταξύ των μεταβλητών του πληθυσμού.

Εφαρμογήt κριτήριο για κλίση.Ελέγχοντας αν η κλίση του πληθυσμού β 1 είναι ίση με το μηδέν, μπορεί να καθοριστεί εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ των μεταβλητών Χ   και Υ. Αν αυτή η υπόθεση απορριφθεί, μπορεί να υποστηριχθεί ότι μεταξύ μεταβλητών Χ   και Υ   υπάρχει μια γραμμική σχέση. Οι μηδενικές και οι εναλλακτικές υποθέσεις διαμορφώνονται ως εξής: H 0: β 1 \u003d 0 (καμία γραμμική σχέση), H1: β 1 ≠ 0 (υπάρχει γραμμική σχέση). Εξ ορισμού t-στατιστική είναι ίση με τη διαφορά μεταξύ της κλίσης του δείγματος και της υποθετικής τιμής της κλίσης του πληθυσμού διαιρούμενη με το τυπικό σφάλμα της εκτίμησης της κλίσης:

(11) t = (β 1 β 1 ) / S b 1

όπου β 1   Είναι η κλίση της άμεσης παλινδρόμησης σύμφωνα με τα δεδομένα δείγματος, β1 είναι η υποθετική κλίση του άμεσου γενικού πληθυσμού, , και στατιστικά στοιχεία δοκιμών t   έχει tδιανομή με n - 2   βαθμούς ελευθερίας.

Ελέγξτε εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ μεγέθους καταστήματος και ετήσιων πωλήσεων για α \u003d 0,05. t- το κριτήριο εμφανίζεται μαζί με άλλες παραμέτρους κατά τη χρήση Πακέτο ανάλυσης   (επιλογή Η παλινδρόμηση) Τα πλήρη αποτελέσματα του πακέτου ανάλυσης φαίνονται στο Σχ. 4, ένα κομμάτι που σχετίζεται με τα στατιστικά στοιχεία t - στο Σχ. 18.

Το Σχ. 18. Αποτελέσματα εφαρμογής t

Από τον αριθμό των καταστημάτων n   \u003d 14 (βλέπε σχήμα 3), την κρίσιμη τιμή t-στατιστικά σε επίπεδο σημαντικότητας α \u003d 0,05 μπορεί να βρεθεί από τον τύπο: t L   \u003d STUDENT.OBR (0.025; 12) \u003d -2.1788, όπου το 0.025 είναι το ήμισυ του επιπέδου σημαντικότητας και 12 \u003d n – 2; t U   \u003d STUDENT.OBR (0.975, 12) \u003d + 2.1788.

Δεδομένου ότι t-στατιστικά \u003d 10.64\u003e t U   \u003d 2.1788 (Σχήμα 19), η μηδενική υπόθεση H 0   αποκλίνει. Από την άλλη πλευρά σ-τιμή για Χ   \u003d 10.6411, που υπολογίζεται από τον τύπο \u003d 1-STUDENT.DISC (D3; 12; TRUE), είναι περίπου ίσο με το μηδέν, επομένως η υπόθεση H 0   αποκλίνει ξανά. Το γεγονός ότι σ- η τιμή είναι σχεδόν μηδενική, πράγμα που σημαίνει ότι εάν δεν υπήρχε πραγματική γραμμική σχέση μεταξύ του μεγέθους των καταστημάτων και του ετήσιου όγκου πωλήσεων, θα ήταν πρακτικά αδύνατο να το ανιχνεύσουμε χρησιμοποιώντας γραμμική παλινδρόμηση. Συνεπώς, υπάρχει στατιστικά σημαντική γραμμική σχέση μεταξύ των μέσων ετήσιων πωλήσεων στα καταστήματα και του μεγέθους τους.

Το Σχ. 19. Δοκιμή της υπόθεσης για την κλίση του πληθυσμού σε επίπεδο σημασίας 0,05 και 12 βαθμών ελευθερίας

ΕφαρμογήF κριτήριο για κλίση.Μια εναλλακτική προσέγγιση για τη δοκιμή υποθέσεων σχετικά με την κλίση της απλής γραμμικής παλινδρόμησης είναι η χρήση Fκριτήριο. Θυμηθείτε αυτό F-criterion χρησιμοποιείται για να ελέγξει τη σχέση μεταξύ δύο διακυμάνσεων (βλέπε λεπτομέρειες). Κατά τη δοκιμή της υπόθεσης κλίσης, το μέτρο τυχαίων σφαλμάτων είναι η διακύμανση του σφάλματος (το άθροισμα των τετραγώνων σφαλμάτων διαιρούμενο με τον αριθμό βαθμών ελευθερίας), επομένως F- το κριτήριο χρησιμοποιεί τον λόγο διακύμανσης που εξηγείται από την παλινδρόμηση (δηλ. SSRδιαιρούμενο με τον αριθμό των ανεξάρτητων μεταβλητών k), στη διακύμανση των σφαλμάτων ( MSE \u003d SY   Χ 2 ).

Εξ ορισμού F-στατιστικά είναι ίσο με το μέσο τετράγωνο των αποκλίσεων λόγω παλινδρόμησης (MSR) διαιρούμενο με τη διακύμανση του σφάλματος (MSE): F = MSR/ MSEόπου MSR \u003dSSR / k, MSE \u003dSSE/(n- k - 1), k   - ο αριθμός ανεξάρτητων μεταβλητών στο μοντέλο παλινδρόμησης. Δοκιμάστε στατιστικά στοιχεία F   έχει Fδιανομή με k   και n   - k - 1   βαθμούς ελευθερίας.

Για ένα δεδομένο επίπεδο σημασίας α, ο κανόνας απόφασης διατυπώνεται ως εξής: if F\u003e f   UΗ μηδενική υπόθεση απορρίπτεται. διαφορετικά δεν αποκλίνει. Τα αποτελέσματα, που παρουσιάζονται με τη μορφή ενός περιστροφικού πίνακα της ανάλυσης της διακύμανσης, φαίνονται στο Σχ. 20.

Το Σχ. 20. Ανάλυση μεταβλητότητας πίνακα για να ελεγχθεί η υπόθεση της στατιστικής σημασίας του συντελεστή παλινδρόμησης

Ομοίως tκριτήριο F-το κριτήριο εμφανίζεται στον πίνακα όταν χρησιμοποιείται Πακέτο ανάλυσης   (επιλογή Η παλινδρόμηση) Πλήρη αποτελέσματα Πακέτο ανάλυσης   δίδονται στο σχ. 4, ένα τμήμα που σχετίζεται με F-στατιστική - στο σχ. 21.

Το Σχ. 21. Αποτελέσματα εφαρμογής Fκριτήρια που λαμβάνονται χρησιμοποιώντας το πακέτο ανάλυσης Excel

Το στατιστικό στοιχείο F είναι 113,23 και σ- τιμή κοντά στο μηδέν (κελί ΣυνάφειαF) Εάν το επίπεδο σημαντικότητας α είναι 0,05, καθορίστε την κρίσιμη τιμή F-διανομές με έναν και 12 βαθμούς ελευθερίας μπορεί να είναι σύμφωνα με τον τύπο F u   \u003d F. OBD (1-0,05 · 1 · 12) \u003d 4,7472 (Σχήμα 22). Δεδομένου ότι F = 113,23 > F u   \u003d 4.7472, και σ- τιμή κοντά στο 0< 0,05, нулевая гипотеза H 0   αποκλίνει, δηλ. το μέγεθος του καταστήματος συνδέεται στενά με τις ετήσιες πωλήσεις του.

Το Σχ. 22. Έλεγχος της υπόθεσης για την κλίση του πληθυσμού σε επίπεδο σημαντικότητας 0,05, με ένα και 12 βαθμούς ελευθερίας

Το διάστημα εμπιστοσύνης που περιέχει κλίση β 1.   Για να ελεγχθεί η υπόθεση της ύπαρξης γραμμικής σχέσης μεταξύ των μεταβλητών, μπορεί κανείς να κατασκευάσει ένα διάστημα εμπιστοσύνης που περιέχει την κλίση β 1 και να βεβαιωθεί ότι η υποθετική τιμή β 1 \u003d 0 ανήκει σε αυτό το διάστημα. Το κέντρο του διαστήματος εμπιστοσύνης που περιέχει την κλίση β 1 είναι η επιλεκτική κλίση β 1 , και τα όριά του είναι ποσότητες b 1 ±t n –2 S b 1

Όπως φαίνεται στο σχ. 18, β 1 = +1,670, n = 14, S b 1 = 0,157. t 12   \u003d STUDENT.OBR (0.975, 12) \u003d 2.1788. Επομένως b 1 ±t n –2 S b 1 \u003d +1.670 ± 2.1788 * 0.157 \u003d +1.670 ± 0.342, ή + 1.328 ≤ β 1 ≤ + 2.012. Έτσι, η κλίση του πληθυσμού με πιθανότητα 0,95 βρίσκεται στην περιοχή από +1,328 έως +2,012 (δηλαδή από $ 1,328,000 έως $ 2,012,000). Δεδομένου ότι οι τιμές αυτές είναι μεγαλύτερες από το μηδέν, υπάρχει στατιστικά σημαντική γραμμική σχέση μεταξύ των ετήσιων πωλήσεων και της περιοχής αποθεματοποίησης. Αν το διάστημα εμπιστοσύνης ήταν μηδέν, δεν υπήρχε εξάρτηση μεταξύ των μεταβλητών. Επιπλέον, ένα διάστημα εμπιστοσύνης σημαίνει ότι κάθε αύξηση στην αποθήκη κατά 1.000 τετραγωνικά μέτρα. ft οδηγεί σε αύξηση των μέσων πωλήσεων κατά $ 1.328.000 έως $ 2.012.000.

Χρήσηt -criterion για τον συντελεστή συσχέτισης.   εφαρμόστηκε συντελεστής συσχέτισης r, το οποίο είναι ένα μέτρο της σχέσης μεταξύ δύο αριθμητικών μεταβλητών. Μπορεί να χρησιμοποιηθεί για να προσδιοριστεί εάν υπάρχει στατιστικά σημαντική σχέση μεταξύ των δύο μεταβλητών. Προσδιορίστε τον συντελεστή συσχέτισης μεταξύ των πληθυσμών και των δύο μεταβλητών με ρ. Οι μηδενικές και οι εναλλακτικές υποθέσεις διατυπώνονται ως εξής: H 0: ρ \u003d 0 (χωρίς συσχέτιση), Η 1: ρ ≠ 0 (υπάρχει συσχέτιση). Ελέγξτε για συσχέτιση:

όπου r = + εάν β 1 > 0, r = – εάν β 1 < 0. Тестовая статистика t   έχει tδιανομή με n - 2   βαθμούς ελευθερίας.

Στο πρόβλημα της αλυσίδας καταστημάτων Sunflowers r 2   \u003d 0,904 και β 1- +1.670 (βλέπε σχήμα 4). Δεδομένου ότι β 1   \u003e 0, ο συντελεστής συσχέτισης μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος είναι r   \u003d + √0.904 \u003d +0.951. Επαληθεύουμε την μηδενική υπόθεση ότι δεν υπάρχει συσχέτιση μεταξύ αυτών των μεταβλητών χρησιμοποιώντας t-στατιστικά:

Σε επίπεδο σημαντικότητας α \u003d 0,05, η μηδενική υπόθεση πρέπει να απορριφθεί, δεδομένου ότι t   \u003d 10.64\u003e 2.1788. Έτσι, μπορεί να υποστηριχθεί ότι υπάρχει στατιστικά σημαντική σχέση μεταξύ των ετήσιων πωλήσεων και του μεγέθους του καταστήματος.

Κατά τη συζήτηση συμπερασμάτων σχετικά με την κλίση του πληθυσμού, τα διαστήματα εμπιστοσύνης και τα κριτήρια για την εξέταση των υποθέσεων είναι εναλλάξιμα εργαλεία. Ωστόσο, ο υπολογισμός του διαστήματος εμπιστοσύνης που περιέχει τον συντελεστή συσχέτισης είναι δυσκολότερος, δεδομένου ότι η μορφή της κατανομής των στατιστικών στοιχείων του δείγματος r   εξαρτάται από τον πραγματικό συντελεστή συσχέτισης.

Εκτίμηση της μαθηματικής προσδοκίας και πρόβλεψη των μεμονωμένων τιμών

Αυτή η ενότητα περιγράφει μεθόδους για την αξιολόγηση της μαθηματικής προσδοκίας μιας απάντησης. Υ   και προβλέψεις για μεμονωμένες τιμές Υ   σε δεδομένες τιμές μιας μεταβλητής Χ.

Κατασκευή διαστήματος εμπιστοσύνηςΣτο παράδειγμα 2 (βλέπε παραπάνω Μέθοδος ελαχίστων τετραγώνων) η εξίσωση παλινδρόμησης κατέστησε δυνατή την πρόβλεψη της τιμής της μεταβλητής Υ Χ. Στο πρόβλημα της επιλογής μιας θέσης για ένα κατάστημα λιανικής πώλησης, ο μέσος ετήσιος όγκος πωλήσεων σε ένα τετράγωνο 4000 τ.μ. ft ήταν ίσο με 7.644 εκατομμύρια δολάρια. Ωστόσο, αυτή η εκτίμηση των μαθηματικών προσδοκιών του πληθυσμού είναι ένα σημείο. Για να εκτιμηθεί η μαθηματική προσδοκία του πληθυσμού, προτάθηκε η έννοια του διαστήματος εμπιστοσύνης. Ομοίως, μπορούμε να εισαγάγουμε την ιδέα διάστημα εμπιστοσύνης για απόκριση προσδοκίας   σε μια δεδομένη τιμή μιας μεταβλητής Χ:

όπου , = β 0 + β 1 X i   - η προβλεπόμενη τιμή είναι μεταβλητή Υ   στο Χ = X i, S yx   - τυπικό σφάλμα n   - μέγεθος δείγματος, Χ   i   - καθορισμένη τιμή της μεταβλητής Χ, µ   Υ|   Χ =   Χ   i   - μεταβλητή προσδοκιών Υ   στο Χ = X i, SSX \u003d

Μια ανάλυση του τύπου (13) δείχνει ότι το πλάτος του διαστήματος εμπιστοσύνης εξαρτάται από διάφορους παράγοντες. Για ένα δεδομένο επίπεδο σπουδαιότητας, μια αύξηση στο εύρος των ταλαντώσεων γύρω από την παλινδρομική γραμμή, μετρούμενη με το πρότυπο σφάλμα, οδηγεί σε αύξηση του πλάτους του διαστήματος. Από την άλλη πλευρά, όπως αναμένεται, η αύξηση του μεγέθους του δείγματος συνοδεύεται από τη μείωση του διαστήματος. Επιπλέον, το πλάτος του διαστήματος ποικίλει ανάλογα με τις τιμές. Χ   i. Αν η τιμή της μεταβλητής Υ   προβλεπόμενη για τις ποσότητες Χκοντά στον μέσο όρο , το διάστημα εμπιστοσύνης είναι μικρότερο από ό, τι στην πρόβλεψη της απόκρισης για τιμές μακριά από το μέσο όρο.

Ας υποθέσουμε ότι, επιλέγοντας ένα χώρο για ένα κατάστημα, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τις μέσες ετήσιες πωλήσεις σε όλα τα καταστήματα με έκταση 4000 τετραγωνικών μέτρων. ft:

Κατά συνέπεια, οι μέσες ετήσιες πωλήσεις σε όλα τα καταστήματα με έκταση 4.000 τετραγωνικών μέτρων. ft, με πιθανότητα 95%, βρίσκεται μεταξύ $ 6.971 και $ 8.317 εκατομμυρίων.

Ο υπολογισμός του διαστήματος εμπιστοσύνης για την προβλεπόμενη τιμή.Εκτός από το διάστημα εμπιστοσύνης για το μαθηματικό προσδόκιμο μιας απόκρισης για μια δεδομένη τιμή μιας μεταβλητής ΧΕίναι συχνά απαραίτητο να γνωρίζουμε το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή. Παρά το γεγονός ότι ο τύπος για τον υπολογισμό ενός τέτοιου διαστήματος εμπιστοσύνης είναι πολύ παρόμοιος με τον τύπο (13), αυτό το διάστημα περιέχει την προβλεπόμενη τιμή και όχι την εκτίμηση των παραμέτρων. Προβλεπόμενο διάστημα απόκρισης Υ   Χ =   Xi   σε μια συγκεκριμένη τιμή μιας μεταβλητής Χ   i   που καθορίζεται από τον τύπο:

Ας υποθέσουμε ότι όταν επιλέγουμε μια θέση για ένα κατάστημα λιανικής, θέλουμε να δημιουργήσουμε ένα διάστημα εμπιστοσύνης 95% για τον προβλεπόμενο ετήσιο όγκο πωλήσεων σε ένα κατάστημα με έκταση 4000 τετραγωνικών μέτρων. ft:

Κατά συνέπεια, οι προβλεπόμενες ετήσιες πωλήσεις στο κατάστημα, των οποίων η επιφάνεια είναι 4000 τετραγωνικά μέτρα. ft, με πιθανότητα 95%, κυμαίνεται από $ 5.433 έως $ 9.854 εκατομμύρια.Όπως μπορείτε να δείτε, το διάστημα εμπιστοσύνης για την προβλεπόμενη τιμή απόκρισης είναι πολύ μεγαλύτερο από το διάστημα εμπιστοσύνης για τη μαθηματική του προσδοκία. Αυτό συμβαίνει επειδή η μεταβλητότητα στην πρόβλεψη μεμονωμένων τιμών είναι πολύ μεγαλύτερη από την εκτίμηση της μαθηματικής προσδοκίας.

Καταπακτές και ηθικά ζητήματα που συνδέονται με την υποχώρηση

Δυσκολίες σχετικές με την ανάλυση παλινδρόμησης:

  • Παράβλεψη των συνθηκών εφαρμογής των ελάχιστων τετραγώνων.
  • Εσφαλμένη εκτίμηση των συνθηκών εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Λάθος επιλογή εναλλακτικών μεθόδων εάν παραβιάζονται οι συνθήκες εφαρμογής της μεθόδου των ελαχίστων τετραγώνων.
  • Η χρήση ανάλυσης παλινδρόμησης χωρίς βαθιά γνώση του αντικειμένου της μελέτης.
  • Εξαγωγή της παλινδρόμησης πέρα \u200b\u200bαπό το εύρος της επεξηγηματικής μεταβλητής.
  • Η σύγχυση μεταξύ στατιστικών και αιτιακών σχέσεων.

Η εκτεταμένη χρήση υπολογιστικών φύλλων και λογισμικού στατιστικού υπολογισμού εξάλειψε τα υπολογιστικά προβλήματα που εμπόδισαν τη χρήση της ανάλυσης παλινδρόμησης. Ωστόσο, αυτό οδήγησε στο γεγονός ότι η ανάλυση παλινδρόμησης άρχισε να χρησιμοποιείται από χρήστες που δεν διαθέτουν επαρκή προσόντα και γνώσεις. Πώς γνωρίζουν οι χρήστες εναλλακτικές μέθοδοι, αν πολλοί από αυτούς δεν έχουν καν την παραμικρή ιδέα για τις συνθήκες εφαρμογής της μεθόδου των ελαχίστων τετραγώνων και δεν είναι σε θέση να επαληθεύσουν την εφαρμογή τους;

Ο ερευνητής δεν θα πρέπει να παρασυρθεί με λείανση αριθμών - υπολογίζοντας τη μετατόπιση, την κλίση και το συντελεστή μικτής συσχέτισης. Χρειάζεται βαθύτερη γνώση. Εικονογραφούμε αυτό με ένα κλασικό παράδειγμα που προέρχεται από εγχειρίδια. Ο Anscombe έδειξε ότι και τα τέσσερα σύνολα δεδομένων που φαίνονται στο Σχ. 23, έχουν τις ίδιες παραμέτρους παλινδρόμησης (Εικ. 24).

Το Σχ. 23. Τέσσερα σύνολα τεχνητών δεδομένων

Το Σχ. 24. Ανάλυση παλινδρόμησης τεσσάρων τεχνητών συνόλων δεδομένων. εκτελείται με χρήση Πακέτο ανάλυσης(κάντε κλικ στην εικόνα για μεγέθυνση εικόνας)

Έτσι, από την άποψη της ανάλυσης παλινδρόμησης, όλα αυτά τα σύνολα δεδομένων είναι εντελώς όμοια. Εάν η ανάλυση είχε ολοκληρωθεί γι 'αυτό, θα χάσαμε πολλές χρήσιμες πληροφορίες. Αυτό αποδεικνύεται από τα διαγράμματα διασκορπισμού (Σχήμα 25) και τα υπόλοιπα διαγράμματα (Σχήμα 26) που έχουν κατασκευαστεί για αυτά τα σύνολα δεδομένων.

Το Σχ. 25. Διάγραμμα διασποράς για τέσσερα σύνολα δεδομένων

Τα διαγράμματα διάσπασης και τα υπόλοιπα οικόπεδα υποδεικνύουν ότι τα δεδομένα αυτά διαφέρουν μεταξύ τους. Το μόνο σύνολο που κατανέμεται κατά μήκος μιας ευθείας γραμμής είναι το σύνολο Α. Το γράφημα των υπολειμμάτων που υπολογίζεται από το σύνολο Α δεν έχει κανονικότητα. Αυτό δεν μπορεί να λεχθεί για τα σύνολα Β, Γ και Δ. Το διάγραμμα σκέδασης που κατασκευάζεται από το σετ Β δείχνει ένα προφανές τετραγωνικό μοντέλο. Αυτό το συμπέρασμα επιβεβαιώνεται από ένα παραβολικό σχήμα των υπολειμμάτων. Η συσχέτιση διασποράς και η υπολειμματική γραφική παράσταση δείχνουν ότι το σύνολο δεδομένων Β περιέχει ένα εξάρτημα. Σε αυτή την περίπτωση, είναι απαραίτητο να αποκλείσουμε την απόκλιση από το σύνολο δεδομένων και να επαναλάβουμε την ανάλυση. Μία μέθοδος για την ανίχνευση και την εξάλειψη των ακραίων τιμών από τις παρατηρήσεις ονομάζεται ανάλυση επιπτώσεων. Μετά την εξάλειψη της απόκλισης, το αποτέλεσμα της επαναξιολόγησης του μοντέλου μπορεί να είναι εντελώς διαφορετικό. Το διάγραμμα σκέδασης που κατασκευάστηκε από τα δεδομένα από το σετ D απεικονίζει μία ασυνήθιστη κατάσταση στην οποία το εμπειρικό μοντέλο εξαρτάται σημαντικά από την ατομική απόκριση ( X 8 = 19, Υ 8   \u003d 12,5). Αυτά τα μοντέλα παλινδρόμησης πρέπει να υπολογιστούν με ιδιαίτερη προσοχή. Έτσι, τα διαγράμματα διάσπασης και τα υπολείμματα είναι ένα βασικό εργαλείο για την ανάλυση παλινδρόμησης και πρέπει να αποτελούν αναπόσπαστο τμήμα της. Χωρίς αυτές, η ανάλυση παλινδρόμησης δεν είναι αξιόπιστη.

Το Σχ. 26. Υπολειμματικά οικόπεδα για τέσσερα σύνολα δεδομένων

Πώς να αποφύγετε παγίδες στην ανάλυση παλινδρόμησης:

  • Ανάλυση της πιθανής σχέσης μεταξύ μεταβλητών Χ   και Υ   ξεκινήστε πάντα με την κατασκευή ενός διαγράμματος διασποράς.
  • Πριν ερμηνεύσετε τα αποτελέσματα μιας ανάλυσης παλινδρόμησης, ελέγξτε τις συνθήκες εφαρμογής της.
  • Δημιουργήστε ένα γράφημα της εξάρτησης των υπολειμμάτων σε μια ανεξάρτητη μεταβλητή. Αυτό θα επιτρέψει να προσδιοριστεί πόσο το εμπειρικό μοντέλο ταιριάζει με τα αποτελέσματα παρατήρησης και να ανιχνεύει παραβίαση της σταθερότητας της διακύμανσης.
  • Για να επιβεβαιώσετε την υπόθεση μιας κανονικής κατανομής σφαλμάτων, χρησιμοποιήστε ιστογράμματα, διαγράμματα κορμών και φύλλων, διαγράμματα μπλοκ και κανονικά διαγράμματα κατανομής.
  • Εάν δεν πληρούνται οι προϋποθέσεις εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, χρησιμοποιήστε εναλλακτικές μεθόδους (για παράδειγμα, μοντέλα τετραγωνικής ή πολλαπλής παλινδρόμησης).
  • Εάν πληρούνται οι προϋποθέσεις για τη δυνατότητα εφαρμογής της μεθόδου των ελαχίστων τετραγώνων, είναι αναγκαίο να ελεγχθεί η υπόθεση της στατιστικής σημασίας των συντελεστών παλινδρόμησης και να δημιουργηθούν διαστήματα εμπιστοσύνης που περιέχουν το μαθηματικό προσδόκιμο και την προβλεπόμενη τιμή απόκρισης.
  • Αποφύγετε να προβλέψετε τις τιμές της εξαρτημένης μεταβλητής εκτός του εύρους της ανεξάρτητης μεταβλητής.
  • Λάβετε υπόψη ότι οι στατιστικές εξαρτήσεις δεν είναι πάντα αιτιώδεις. Θυμηθείτε ότι η συσχέτιση μεταξύ των μεταβλητών δεν σημαίνει ότι υπάρχει μια αιτιώδης σχέση μεταξύ τους.

ΠερίληψηΌπως φαίνεται στο μπλοκ διάγραμμα (σχήμα 27), η σημείωση περιγράφει ένα απλό μοντέλο γραμμικής παλινδρόμησης, τις συνθήκες εφαρμογής του και μεθόδους για τον έλεγχο αυτών των συνθηκών. Επανεξέταση t- Κριτήρια για τον έλεγχο της στατιστικής σημασίας της κλίσης της παλινδρόμησης. Χρησιμοποιήθηκε ένα μοντέλο παλινδρόμησης για την πρόβλεψη των τιμών της εξαρτημένης μεταβλητής. Ένα παράδειγμα θεωρείται ότι σχετίζεται με την επιλογή ενός χώρου για ένα κατάστημα λιανικής πώλησης στο οποίο διερευνάται η εξάρτηση των ετήσιων πωλήσεων στην περιοχή του καταστήματος. Οι πληροφορίες που έχετε συγκεντρώσει σας επιτρέπουν να επιλέγετε με μεγαλύτερη ακρίβεια μια θέση για το κατάστημα και να προβλέπετε τις ετήσιες πωλήσεις του. Οι παρακάτω σημειώσεις θα συνεχίσουν τη συζήτηση της ανάλυσης παλινδρόμησης, καθώς και μοντέλα πολλαπλής παλινδρόμησης.

Το Σχ. 27. Δομικό διάγραμμα μιας σημείωσης

Τα υλικά του βιβλίου χρησιμοποιούνται από τον Levin και άλλους. - Μ .: Williams, 2004. 792-872

Εάν η εξαρτημένη μεταβλητή είναι κατηγορηματική, πρέπει να εφαρμοστεί η διοικητική παλινδρόμηση.

  Η αλλαγή στο πραγματικό χαρακτηριστικό y οφείλεται στην μεταβολή του χαρακτηριστικού x. Το μερίδιο της διακύμανσης, που εξηγείται από την παλινδρόμηση, στη συνολική διακύμανση του παραγωγικού χαρακτηριστικού χαρακτηρίζει τον συντελεστή προσδιορισμού του R2. Για μια γραμμική σχέση, ο συντελεστής προσδιορισμού είναι ίσος με το τετράγωνο του συντελεστή συσχέτισης:

R2 \u003d rxy2, όπου rxy είναι ο συντελεστής συσχέτισης.

Για παράδειγμα, η τιμή του R2 \u003d 0.83, σημαίνει ότι σε 83% των περιπτώσεων, οι μεταβολές στο x οδηγούν σε αλλαγή στο y. Με άλλα λόγια, η ακρίβεια της επιλογής της εξίσωσης παλινδρόμησης είναι υψηλή.

Υπολογίζεται για την αξιολόγηση της ποιότητας της επιλογής της εξίσωσης παλινδρόμησης. Για αποδεκτά μοντέλα, θεωρείται ότι ο συντελεστής προσδιορισμού πρέπει να είναι μεγαλύτερος από 50%. Τα μοντέλα με συντελεστή προσδιορισμού άνω του 80% μπορούν να θεωρηθούν αρκετά καλά. Η τιμή του συντελεστή προσδιορισμού R 2 \u003d 1 σημαίνει τη λειτουργική εξάρτηση μεταξύ των μεταβλητών.

Σε περίπτωση μη γραμμική παλινδρόμηση   ο συντελεστής προσδιορισμού υπολογίζεται μέσω αυτού του αριθμομηχανή. Με πολλαπλή παλινδρόμηση, ο συντελεστής προσδιορισμού μπορεί να βρεθεί μέσω της υπηρεσίας πολλαπλής παλινδρόμησης
Γενικά, ο συντελεστής προσδιορισμού προκύπτει από τον τύπο: ή
Κανόνας προσθήκης αποκλίσεων:
,
όπου είναι το συνολικό άθροισμα των τετραγωνικών αποκλίσεων.
  - το άθροισμα των τετραγωνικών αποκλίσεων που οφείλονται στην παλινδρόμηση ("εξηγήθηκε" ή "παράγοντας").
- υπολειπόμενο άθροισμα τετραγωνικών αποκλίσεων.

Αυτή η ηλεκτρονική αριθμομηχανή υπολογίζει συντελεστής προσδιορισμού   και η σημασία του ελέγχεται (Παράδειγμα λύσης).

Οδηγία Αναφέρετε την ποσότητα των ακατέργαστων δεδομένων. Η λύση που προκύπτει αποθηκεύεται σε ένα αρχείο Word. Ένα πρότυπο δημιουργείται επίσης αυτόματα για την επικύρωση της λύσης στο Excel.

Ένας από τους δείκτες που περιγράφουν την ποιότητα του κατασκευαζόμενου μοντέλου στις στατιστικές είναι ο συντελεστής προσδιορισμού (R ^ 2), ο οποίος ονομάζεται επίσης και η τιμή εμπιστοσύνης προσέγγισης. Με αυτό, μπορείτε να καθορίσετε το επίπεδο ακρίβειας της πρόβλεψης. Ας μάθουμε πώς μπορείτε να υπολογίσετε αυτόν τον δείκτη χρησιμοποιώντας διάφορα εργαλεία του Excel.

Ανάλογα με το επίπεδο του συντελεστή προσδιορισμού, είναι συνηθισμένο να διαιρούνται τα μοντέλα σε τρεις ομάδες:

  • 0.8 - 1 - μοντέλο καλής ποιότητας?
  • 0,5 - 0,8 - μοντέλο αποδεκτής ποιότητας.
  • 0 - 0,5 - μοντέλο κακής ποιότητας.

Στην τελευταία περίπτωση, η ποιότητα του μοντέλου δείχνει την αδυναμία χρήσης του για πρόβλεψη.

Η επιλογή του τρόπου υπολογισμού της καθορισμένης τιμής στο Excel εξαρτάται από το αν η παλινδρόμηση είναι γραμμική ή όχι. Στην πρώτη περίπτωση, μπορείτε να χρησιμοποιήσετε τη λειτουργία KVPIRSON, και στη δεύτερη πρέπει να χρησιμοποιήσετε ένα ειδικό εργαλείο από το πακέτο ανάλυσης.

Μέθοδος 1: υπολογισμός του συντελεστή προσδιορισμού για μια γραμμική συνάρτηση

Πρώτα απ 'όλα, θα μάθουμε πώς να βρούμε τον συντελεστή προσδιορισμού για μια γραμμική συνάρτηση. Στην περίπτωση αυτή, ο δείκτης αυτός θα είναι ίσος με το τετράγωνο του συντελεστή συσχέτισης. Θα το υπολογίσουμε χρησιμοποιώντας την ενσωματωμένη λειτουργία Excel με το παράδειγμα ενός συγκεκριμένου πίνακα, ο οποίος δίνεται παρακάτω.


Μέθοδος 2: υπολογισμός του συντελεστή προσδιορισμού σε μη γραμμικές λειτουργίες

Αλλά η παραπάνω επιλογή για τον υπολογισμό της επιθυμητής τιμής μπορεί να εφαρμοστεί μόνο στις γραμμικές λειτουργίες. Τι πρέπει να κάνετε για να το υπολογίσετε σε μια μη γραμμική λειτουργία; Στο Excel υπάρχει μια τέτοια ευκαιρία. Μπορεί να γίνει με το εργαλείο. "Παλινδρόμηση"που αποτελεί μέρος της δέσμης "Ανάλυση δεδομένων".

  1. Αλλά πριν χρησιμοποιήσετε το καθορισμένο εργαλείο, πρέπει να το ενεργοποιήσετε μόνοι σας "Πακέτο ανάλυσης", το οποίο είναι απενεργοποιημένο από προεπιλογή στο Excel. Μετακίνηση στην καρτέλα Αρχείοκαι στη συνέχεια πηγαίνετε στο "Παράμετροι".
  2. Στο παράθυρο που ανοίγει, μεταβείτε στην ενότητα "Πρόσθετα"   με την πλοήγηση στο αριστερό κάθετο μενού. Στο κάτω μέρος του δεξιού παραθύρου του παραθύρου υπάρχει πεδίο "Διαχείριση". Από τη λίστα των υποτομέων που είναι διαθέσιμα εκεί, επιλέξτε το όνομα "Πρόσθετα του Excel ..."και στη συνέχεια κάντε κλικ στο κουμπί "Πήγαινε ..."που βρίσκεται στα δεξιά του πεδίου.
  3. Ανοίγει το παράθυρο των πρόσθετων. Στο κεντρικό τμήμα του υπάρχει μια λίστα με τα διαθέσιμα πρόσθετα. Επιλέξτε το πλαίσιο δίπλα στη θέση. "Πακέτο ανάλυσης". Στη συνέχεια κάντε κλικ στο κουμπί Εντάξει   στη δεξιά πλευρά της διεπαφής παραθύρου.
  4. Πακέτο εργαλείων "Ανάλυση δεδομένων"   στην τρέχουσα περίπτωση του Excel θα ενεργοποιηθεί. Η πρόσβαση σε αυτό βρίσκεται στην κορδέλα στην καρτέλα "Δεδομένα". Μεταβαίνουμε στην καθορισμένη καρτέλα και πατάμε το κουμπί "Ανάλυση δεδομένων"   στην ομάδα ρυθμίσεων "Ανάλυση".
  5. Το παράθυρο είναι ενεργοποιημένο "Ανάλυση δεδομένων"   με μια λίστα εξειδικευμένων εργαλείων επεξεργασίας πληροφοριών. Επιλέξτε στοιχείο από αυτήν τη λίστα "Παλινδρόμηση"   και κάντε κλικ στο κουμπί Εντάξει.
  6. Στη συνέχεια ανοίγει το παράθυρο εργαλείου "Παλινδρόμηση". Το πρώτο μπλοκ των ρυθμίσεων είναι "Δεδομένα εισόδου". Εδώ σε δύο πεδία πρέπει να καθορίσετε τις διευθύνσεις των περιοχών στις οποίες βρίσκονται οι τιμές του επιχειρήματος και της λειτουργίας. Τοποθετήστε το δρομέα στο πεδίο "Διάστημα εισόδου Y"   και επιλέξτε τα περιεχόμενα της στήλης στο φύλλο "Υ". Μετά την εμφάνιση της διεύθυνσης πίνακα στο παράθυρο "Παλινδρόμηση"βάλτε τον κέρσορα στο πεδίο "Διάστημα εισόδου Y"   και να επιλέξετε τα στοιχεία στήλης ακριβώς με τον ίδιο τρόπο "Χ".

    Περί παραμέτρων "Ετικέτα"   και "Constant zero"   μην βάζετε σημαίες. Το πλαίσιο ελέγχου μπορεί να ρυθμιστεί δίπλα στην παράμετρο. "Επίπεδο αξιοπιστίας"   και στο αντίθετο πεδίο, υποδείξτε την επιθυμητή τιμή του αντίστοιχου δείκτη (95% από προεπιλογή).

    Στην ομάδα "Επιλογές εξόδου"   πρέπει να καθορίσετε σε ποια περιοχή θα εμφανιστεί το αποτέλεσμα υπολογισμού. Υπάρχουν τρεις επιλογές:

    • Η περιοχή στο τρέχον φύλλο.
    • Ένα άλλο φύλλο?
    • Ένα άλλο βιβλίο (νέο αρχείο).

    Ας επιλέξουμε την πρώτη επιλογή έτσι ώστε τα δεδομένα πηγής και το αποτέλεσμα να τοποθετηθούν σε ένα φύλλο εργασίας. Βάλουμε τον διακόπτη κοντά στην παράμετρο "Περίοδος εξόδου". Στο πεδίο απέναντι από αυτό το στοιχείο, τοποθετήστε το δρομέα. Κάντε αριστερό κλικ σε ένα κενό στοιχείο στο φύλλο, το οποίο έχει σχεδιαστεί για να γίνει το άνω αριστερό στοιχείο του πίνακα εξόδου υπολογισμού. Η διεύθυνση αυτού του στοιχείου θα πρέπει να εμφανίζεται στο πεδίο παραθύρου "Παλινδρόμηση".

    Ομάδες παραμέτρων "Αριστερά"   και "Κανονική πιθανότητα"   Αγνοήστε, επειδή δεν είναι σημαντικές για την επίλυση της εργασίας. Στη συνέχεια, κάντε κλικ στο κουμπί Εντάξειπου βρίσκεται στην επάνω δεξιά γωνία του παραθύρου "Παλινδρόμηση".

  7. Το πρόγραμμα υπολογίζεται βάσει δεδομένων που έχουν καταχωρηθεί προηγουμένως και εμφανίζει το αποτέλεσμα στο καθορισμένο εύρος. Όπως μπορείτε να δείτε, αυτό το εργαλείο εμφανίζει ένα αρκετά μεγάλο αριθμό αποτελεσμάτων σε διάφορες παραμέτρους σε ένα φύλλο εργασίας. Αλλά στο πλαίσιο του τρέχοντος μαθήματος, μας ενδιαφέρει ο δείκτης "R-τετράγωνο". Σε αυτή την περίπτωση, είναι ίση με 0,947664, η οποία χαρακτηρίζει το επιλεγμένο μοντέλο ως μοντέλο καλής ποιότητας.

Μέθοδος 3: συντελεστής προσδιορισμού της γραμμής τάσης

Εκτός από τις παραπάνω επιλογές, ο συντελεστής προσδιορισμού μπορεί να εμφανιστεί απευθείας για τη γραμμή τάσεων σε ένα γράφημα που είναι χτισμένο σε ένα φύλλο εργασίας του Excel. Θα δούμε πώς μπορεί να γίνει αυτό με ένα συγκεκριμένο παράδειγμα.

  1. Έχουμε ένα γράφημα βασισμένο σε έναν πίνακα των επιχειρημάτων και τιμών λειτουργίας, που χρησιμοποιήθηκε για το προηγούμενο παράδειγμα. Θα δημιουργήσουμε μια γραμμή τάσης σε αυτό. Κάνουμε κλικ σε οποιοδήποτε σημείο της περιοχής κατασκευής στην οποία βρίσκεται το διάγραμμα, με το αριστερό πλήκτρο του ποντικιού. Ταυτόχρονα, εμφανίζεται μια πρόσθετη ομάδα καρτελών στην κορδέλα - "Εργασία με διαγράμματα". Μεταβείτε στην καρτέλα "Διάταξη". Κάντε κλικ στο κουμπί "Γραμμή τάσης"που βρίσκεται στο μπλοκ εργαλείων "Ανάλυση". Εμφανίζεται ένα μενού με επιλογή του τύπου της γραμμής τάσης. Σταματάμε την επιλογή του τύπου που αντιστοιχεί σε μια συγκεκριμένη εργασία. Ας επιλέξουμε μια επιλογή για το παράδειγμά μας Εκθετική προσέγγιση.
  2. Το Excel δημιουργεί μια γραμμή τάσεων με τη μορφή μιας πρόσθετης μαύρης καμπύλης δεξιά στο γράφημα.
  3. Τώρα το καθήκον μας είναι να δείξουμε τον ίδιο τον συντελεστή προσδιορισμού. Κάντε δεξί κλικ στη γραμμή τάσεων. Το μενού περιβάλλοντος είναι ενεργοποιημένο. Σταματάμε την επιλογή σε αυτό στο "Η μορφή της γραμμής τάσης ...".

    Για να εκτελέσετε τη μετάβαση στο παράθυρο μορφής γραμμής τάσης, μπορείτε να εκτελέσετε μια εναλλακτική ενέργεια. Επιλέξτε τη γραμμή τάσεων κάνοντας κλικ σε αυτό με το αριστερό πλήκτρο του ποντικιού. Μετακίνηση στην καρτέλα "Διάταξη". Κάντε κλικ στο κουμπί "Γραμμή τάσης"   σε μπλοκ "Ανάλυση". Στη λίστα που ανοίγει, κάντε κλικ στο τελευταίο στοιχείο της λίστας ενεργειών - "Πρόσθετες παράμετροι της γραμμής τάσης ...".

  4. Μετά από οποιαδήποτε από τις παραπάνω δύο ενέργειες, ένα παράθυρο μορφοποίησης εκκινείται στο οποίο μπορείτε να κάνετε επιπλέον ρυθμίσεις. Συγκεκριμένα, για να ολοκληρώσουμε το έργο μας, είναι απαραίτητο να ελέγξετε το πλαίσιο δίπλα "Βάλτε την τιμή εμπιστοσύνης προσέγγισης (R ^ 2) στο διάγραμμα". Βρίσκεται στο κάτω μέρος του παραθύρου. Δηλαδή, με αυτόν τον τρόπο δίνουμε τη δυνατότητα να εμφανίζουμε τον συντελεστή προσδιορισμού στην περιοχή κατασκευής. Στη συνέχεια, μην ξεχάσετε να κάνετε κλικ στο κουμπί Κλείσιμο   στο κάτω μέρος του τρέχοντος παραθύρου.
  5. Η τιμή της αξιοπιστίας της προσέγγισης, δηλαδή η τιμή του συντελεστή προσδιορισμού, θα εμφανίζεται σε ένα φύλλο στην περιοχή κατασκευής. Στην περίπτωση αυτή, αυτή η τιμή, όπως βλέπουμε, είναι 0.9242, η οποία χαρακτηρίζει την προσέγγιση ως μοντέλο καλής ποιότητας.
  6. Απόλυτα ακριβώς με αυτόν τον τρόπο μπορείτε να ρυθμίσετε την εμφάνιση του συντελεστή προσδιορισμού για οποιοδήποτε άλλο τύπο γραμμής τάσης. Μπορείτε να αλλάξετε τον τύπο της γραμμής τάσης κάνοντας μια μετάβαση από το κουμπί της κορδέλας ή του μενού περιβάλλοντος στο παράθυρο των παραμέτρων της, όπως φαίνεται παραπάνω. Στη συνέχεια, στο ίδιο το παράθυρο στην ομάδα "Οικοδόμηση μιας γραμμής τάσης"   Μπορείτε να μεταβείτε σε άλλο τύπο. Την ίδια στιγμή, μην ξεχάσετε να ελέγξετε, έτσι ώστε περίπου το σημείο "Βάλτε την τιμή εμπιστοσύνης προσέγγισης στο διάγραμμα"   το πλαίσιο ελέγχου ελέγχθηκε. Αφού ολοκληρώσετε τα παραπάνω βήματα, κάντε κλικ στο κουμπί Κλείσιμο   στην κάτω δεξιά γωνία του παραθύρου.
  7. Με τον γραμμικό τύπο, η γραμμή τάσης έχει ήδη μια τιμή εμπιστοσύνης προσέγγισης ίση με 0,9477, η οποία χαρακτηρίζει αυτό το μοντέλο ως ακόμα πιο αξιόπιστη από τη γραμμή τάσεων του εκθετικού τύπου που εξετάστηκε προηγουμένως από εμάς.
  8. Έτσι, η εναλλαγή μεταξύ διαφορετικών τύπων γραμμών τάσης και η σύγκριση των τιμών αξιοπιστίας προσέγγισης (συντελεστής προσδιορισμού), μπορεί κανείς να βρει την επιλογή του οποίου το μοντέλο περιγράφει με ακρίβεια το παρουσιαζόμενο γράφημα. Η επιλογή με τον υψηλότερο συντελεστή προσδιορισμού θα είναι η πιο αξιόπιστη. Με βάση αυτό, μπορείτε να δημιουργήσετε τις πιο ακριβείς προβλέψεις.

    Για παράδειγμα, για την περίπτωσή μας, ήταν πειραματικά δυνατή η διαπίστωση ότι ο πολυωνυμικός τύπος γραμμής τάσης του δεύτερου βαθμού έχει το υψηλότερο επίπεδο εμπιστοσύνης. Ο συντελεστής προσδιορισμού στην περίπτωση αυτή είναι 1. Αυτό υποδηλώνει ότι αυτό το μοντέλο είναι απολύτως αξιόπιστο, πράγμα που σημαίνει την πλήρη εξαίρεση των σφαλμάτων.

    Αλλά ταυτόχρονα, αυτό δεν σημαίνει καθόλου ότι για ένα άλλο γράφημα, αυτός ο τύπος γραμμής τάσης θα είναι επίσης ο πιο αξιόπιστος. Η βέλτιστη επιλογή του τύπου της γραμμής τάσης εξαρτάται από τον τύπο της λειτουργίας βάσει της οποίας κατασκευάστηκε ο χάρτης. Εάν ο χρήστης δεν έχει αρκετές γνώσεις για να εκτιμήσει την καλύτερη δυνατή έκδοση "με το μάτι", τότε ο μόνος τρόπος να προσδιοριστεί η καλύτερη πρόβλεψη είναι να συγκριθούν οι συντελεστές προσδιορισμού, όπως φαίνεται στο παραπάνω παράδειγμα.

Η μέθοδος γραμμικής παλινδρόμησης μας επιτρέπει να περιγράψουμε μια ευθεία γραμμή που ταιριάζει περισσότερο σε μια σειρά από ταξινομημένα ζεύγη (x, y). Η εξίσωση για μια ευθεία γραμμή, γνωστή ως γραμμική εξίσωση, παρουσιάζεται παρακάτω:

ŷ - η αναμενόμενη τιμή του y για μια δεδομένη τιμή του x,

Το x είναι μια ανεξάρτητη μεταβλητή

a - τμήμα στον άξονα y για μια ευθεία γραμμή,

b είναι η κλίση της ευθείας γραμμής.

Στο παρακάτω σχήμα, αυτή η έννοια παρουσιάζεται γραφικά:

Το παραπάνω σχήμα δείχνει τη γραμμή που περιγράφεται από την εξίσωση ŷ \u003d 2 + 0.5x. Το τμήμα γραμμής στον άξονα y είναι το σημείο τομής με τη γραμμή του άξονα y. στην περίπτωσή μας, a \u003d 2. Η κλίση της γραμμής, b, ο λόγος ανόδου της γραμμής με το μήκος της γραμμής, έχει τιμή 0,5. Μια θετική κλίση σημαίνει ότι η γραμμή ανεβαίνει από αριστερά προς τα δεξιά. Εάν b \u003d 0, η γραμμή είναι οριζόντια, πράγμα που σημαίνει ότι δεν υπάρχει σύνδεση μεταξύ εξαρτημένων και ανεξάρτητων μεταβλητών. Με άλλα λόγια, η αλλαγή της τιμής του x δεν επηρεάζει την τιμή του y.

Συχνά σύγχυση ŷ και y. Το γράφημα δείχνει 6 ταξινομημένα ζεύγη σημείων και μία γραμμή, σύμφωνα με αυτή την εξίσωση

Αυτή η εικόνα δείχνει το σημείο που αντιστοιχεί στο διατεταγμένο ζεύγος x \u003d 2 και y \u003d 4. Σημειώστε ότι η αναμενόμενη τιμή του y σύμφωνα με τη γραμμή στο x   \u003d 2 είναι ŷ. Μπορούμε να το επιβεβαιώσουμε χρησιμοποιώντας την ακόλουθη εξίσωση:

ŷ \u003d 2 + 0,5x \u003d 2 + 0,5 (2) \u003d 3.

Η τιμή του y αντιπροσωπεύει το πραγματικό σημείο και η τιμή της y είναι η αναμενόμενη τιμή του y χρησιμοποιώντας μια γραμμική εξίσωση για μια δεδομένη τιμή του x.

Το επόμενο βήμα είναι να προσδιορίσουμε τη γραμμική εξίσωση που ταιριάζει περισσότερο με το σύνολο των ταξινομημένων ζευγών, μιλήσαμε γι 'αυτό στο προηγούμενο άρθρο, όπου προσδιορίσαμε τη μορφή της εξίσωσης από.

Χρησιμοποιώντας το Excel για τον προσδιορισμό της γραμμικής παλινδρόμησης

Για να χρησιμοποιήσετε το εργαλείο ανάλυσης παλινδρόμησης ενσωματωμένο στο Excel, πρέπει να ενεργοποιήσετε το πρόσθετο Πακέτο ανάλυσης. Μπορείτε να το βρείτε κάνοντας κλικ στην καρτέλα Αρχείο -\u003e Επιλογές(2007+), στο παράθυρο διαλόγου που εμφανίζεται ΠαράμετροιExcelμεταβείτε στην καρτέλα Πρόσθετα.Στο πεδίο Διαχείρισηεπιλέξτε ΠρόσθεταExcelκαι κάντε κλικ Πήγαινε.Στο παράθυρο που εμφανίζεται, ελέγξτε το παράθυρο απέναντι Το πακέτο ανάλυσης,κάντε κλικ στο κουμπί Εντάξει

Στην καρτέλα Δεδομέναστην ομάδα Ανάλυσηθα εμφανιστεί ένα νέο κουμπί Ανάλυση δεδομένων.

Για να δείξουμε την εργασία του πρόσθετου, θα χρησιμοποιήσουμε τα δεδομένα όπου ένας άντρας και ένα κορίτσι μοιράζονται ένα τραπέζι στο μπάνιο. Καταχωρίστε τα δεδομένα από το παράδειγμα λουτρών μας στις στήλες Α και Β ενός λευκού φύλλου.

Μεταβείτε στην καρτέλα Δεδομέναστην ομάδα Ανάλυσηκάντε κλικ στο κουμπί Ανάλυση δεδομένων.Στο παράθυρο που εμφανίζεται Ανάλυση δεδομένων   επιλέξτε Η παλινδρόμησηόπως φαίνεται, και κάντε κλικ στο OK.

Ορίστε τις απαιτούμενες παραμέτρους παλινδρόμησης στο παράθυρο Η παλινδρόμησηόπως φαίνεται στην εικόνα:

Πατήστε ΕντάξειΤο παρακάτω σχήμα δείχνει τα αποτελέσματα:

Τα αποτελέσματα αυτά αντιστοιχούν σε αυτά που ελήφθησαν μέσω ανεξάρτητων υπολογισμών στο.

Για στατιστικά μοντέλα, σε πολλές περιπτώσεις είναι απαραίτητο να προσδιοριστεί η ακρίβεια της πρόβλεψης. Αυτό γίνεται χρησιμοποιώντας ειδικούς υπολογισμούς στο Microsoft Excel και θα χρησιμοποιηθεί ο συντελεστής προσδιορισμού. Δηλώνεται ως R ^ 2.

Τα στατιστικά μοντέλα μπορούν να χωριστούν σε ποιοτικά επίπεδα ανάλογα με τον συντελεστή. Από το 0,8 έως το 1 είναι μοντέλα καλής ποιότητας, τα μοντέλα επαρκούς ποιότητας έχουν ένα επίπεδο από 0,5 έως 0,8 και η κακή ποιότητα κυμαίνεται από 0 έως 0,5.

Μέθοδος για τον προσδιορισμό της ακρίβειας χρησιμοποιώντας τη λειτουργία KVPIRSON

Σε μια γραμμική συνάρτηση, ο συντελεστής προσδιορισμού θα είναι ίσος με το τετράγωνο του συντελεστή συσχέτισης. Μπορεί να υπολογιστεί χρησιμοποιώντας μια ειδική λειτουργία. Καταρχήν, δημιουργήστε έναν πίνακα με δεδομένα.

Στη συνέχεια, πρέπει να επιλέξετε τον τόπο όπου θα εμφανιστεί το αποτέλεσμα υπολογισμού και κάντε κλικ στο κουμπί εισαγωγής λειτουργιών.

Μετά από αυτό θα ανοίξει ένα ειδικό παράθυρο. Στην κατηγορία που θέλετε να επιλέξετε "Στατιστικά" και επιλέξτε KVPIRSON. Αυτή η λειτουργία σας επιτρέπει να προσδιορίσετε τον συντελεστή συσχέτισης σε σχέση με τη λειτουργία Pearson, αντίστοιχα, την τετραγωνική τιμή του συντελεστή συσχέτισης \u003d συντελεστή προσδιορισμού.

Αφού επιβεβαιώσετε τη δράση, θα εμφανιστεί ένα παράθυρο στο οποίο θα πρέπει να ορίσετε στα πεδία "Γνωστές τιμές X" και "Γνωστές τιμές Y". Κάντε κλικ στο πεδίο "Γνωστά σημεία Y" με το ποντίκι και επιλέξτε τα δεδομένα της στήλης Υ στο παράθυρο εργασίας. Κάνουμε το ίδιο με το άλλο πεδίο επιλέγοντας τα δεδομένα από τον πίνακα Χ.

Ως αποτέλεσμα αυτών των ενεργειών, θα εμφανιστεί η τιμή του συντελεστή προσδιορισμού στο κελί που είχε προηγουμένως επιλεγεί για την εμφάνιση του αποτελέσματος.

Προσδιορισμός του συντελεστή προσδιορισμού εάν η συνάρτηση δεν είναι γραμμική.

Εάν η λειτουργία είναι μη γραμμική, τότε το εργαλείο του Excel σας επιτρέπει επίσης να υπολογίσετε το συντελεστή χρησιμοποιώντας το εργαλείο Regression. Μπορεί να βρεθεί στο πακέτο ανάλυσης δεδομένων. Αλλά πρώτα πρέπει να ενεργοποιήσετε αυτό το πακέτο πηγαίνοντας στην ενότητα "Αρχείο" και ανοίγοντας "Επιλογές" στη λίστα.

Μετά από αυτό, μπορείτε να δείτε ένα νέο παράθυρο στο οποίο πρέπει να επιλέξετε "Πρόσθετα" στο μενού και στο ειδικό πεδίο για τη διαχείριση πρόσθετων, επιλέξτε "Πρόσθετα του Excel" και πηγαίνετε σε αυτά.

Αφού μεταβείτε στα πρόσθετα του Excel, θα εμφανιστεί ένα νέο παράθυρο. Σε αυτό μπορείτε να δείτε τα πρόσθετα που είναι διαθέσιμα στο χρήστη. Τοποθετούμε ένα τετράγωνο κοντά στο "πακέτο ανάλυσης" και επιβεβαιώνουμε τη δράση.

Μπορείτε να το βρείτε στην ενότητα "Δεδομένα", μετά από την οποία κάνουμε κλικ στην "Ανάλυση δεδομένων" στη δεξιά πλευρά της οθόνης.

Αφού το ανοίξετε, επιλέξτε "Regression" από τη λίστα και επιβεβαιώστε τη δράση.

Μετά από αυτό, θα εμφανιστεί ένα νέο παράθυρο στο οποίο μπορείτε να κάνετε ρυθμίσεις. Τα δεδομένα εισόδου σας επιτρέπουν να ρυθμίσετε την τιμή των διαστημάτων X και Y, αρκεί να επιλέξετε τα αντίστοιχα κελιά των παραδειγμάτων ενός άλλου επιχειρήματος. Στο πεδίο του επιπέδου αξιοπιστίας, μπορείτε να ορίσετε την επιθυμητή ένδειξη. Οι επιλογές εξόδου σάς επιτρέπουν να καθορίσετε πού θα εμφανιστεί το αποτέλεσμα. Για παράδειγμα, αν επιλέξετε να εμφανιστεί το τρέχον φύλλο, πρέπει πρώτα να επιλέξετε το στοιχείο "Interval εξόδου" και να κάνετε κλικ στην περιοχή του κύριου παραθύρου όπου το αποτέλεσμα θα εμφανιστεί στο μέλλον και οι συντεταγμένες κυψελών θα εμφανιστούν στο αντίστοιχο πεδίο. Στο τέλος, επιβεβαιώστε τη δράση.

Το αποτέλεσμα θα εμφανιστεί στο παράθυρο εργασίας. Δεδομένου ότι υπολογίζουμε τον συντελεστή προσδιορισμού, χρειαζόμαστε τον συντελεστή R στα αποτελέσματα. Αν κοιτάξετε την αξία, μπορείτε να δείτε ότι αναφέρεται στην καλύτερη ποιότητα.

Η μέθοδος προσδιορισμού του συντελεστή προσδιορισμού της γραμμής τάσης

Έχοντας δημιουργήσει τον πίνακα με την αντίστοιχη τιμή, δημιουργήστε ένα γράφημα. Για να σχεδιάσετε μια γραμμή τάσεων σε αυτό, θα πρέπει να κάνετε κλικ στο διάγραμμα, δηλαδή στην περιοχή στην οποία κατασκευάζεται η γραμμή. Στη γραμμή εργαλείων παραπάνω, επιλέξτε την ενότητα "Διάταξη" και επιλέξτε "Γραμμή εξέλιξης". Στη συνέχεια, στο πλαίσιο αυτού του παραδείγματος, επιλέξτε "Εκθετική προσέγγιση" στη λίστα.

Η γραμμή τάσης θα εμφανίζεται στο διάγραμμα ως καμπύλη με μαύρο χρώμα.

Για να δείξετε τον συντελεστή προσδιορισμού, πρέπει να κάνετε δεξί κλικ στη μαύρη καμπύλη και να επιλέξετε στη λίστα τη "Μορφή τάσης τάσης".

Στη συνέχεια θα εμφανιστεί ένα νέο παράθυρο. Σε αυτό πρέπει να ελέγξετε το πλαίσιο και να επιλέξετε την επιθυμητή ενέργεια (που εμφανίζεται στο screenshot). Λόγω αυτού, ο συντελεστής θα εμφανίζεται στο διάγραμμα. Μετά από αυτό, κλείστε το παράθυρο.

Αφού κλείσετε το παράθυρο μορφής γραμμής τάσης, στο παράθυρο εργασίας μπορείτε να δείτε την τιμή του συντελεστή προσδιορισμού.

Εάν ο χρήστης χρειάζεται διαφορετικό τύπο γραμμής τάσης, τότε στο παράθυρο "Γραμμή γραμμής τάσης", μπορείτε να το επιλέξετε. Μην ξεχάσετε να το ορίσετε νωρίτερα όταν δημιουργείτε μια γραμμή τάσης στην ενότητα "Διάταξη" ή στο μενού περιβάλλοντος. Επίσης, μην ξεχάσετε να ελέγξετε το πλαίσιο για τη λειτουργία R ^ 2.

Ως αποτέλεσμα, μπορείτε να δείτε την αλλαγή στη γραμμή τάσεων και τον αριθμό εμπιστοσύνης.

Αφού προβάλετε τις διαφορετικές παραλλαγές των γραμμών τάσης, ο χρήστης μπορεί να καθορίσει τον πιο κατάλληλο για τον εαυτό του καθώς ο δείκτης εμπιστοσύνης μπορεί να ποικίλει ανάλογα με την επιλογή της γραμμής. Ο μέγιστος συντελεστής είναι ένας, πράγμα που σημαίνει μέγιστη αξιοπιστία, αλλά αυτή η τιμή δεν μπορεί πάντα να επιτευχθεί.

Έτσι, εξετάστηκαν διάφορες μέθοδοι για τον προσδιορισμό του συντελεστή προσδιορισμού. Ο χρήστης μπορεί να επιλέξει το βέλτιστο για τους στόχους του.

Συνέχιση του θέματος:
Υπολογιστής

Ακολουθεί μια λύση μη αυτόματης (όχι μικροεφαρμογής) δύο προβλημάτων με τη μέθοδο simplex (παρόμοια με την επίλυση μιας μικροεφαρμογής) με λεπτομερείς εξηγήσεις για την κατανόηση του αλγορίθμου για την επίλυση προβλημάτων ...