Regressionsanalyse in Excel-Dekodierindikatoren. Konrad Carlberg. Regressionsanalyse in Microsoft Excel

In den Territorien der Region erhalten Sie Daten für 200x.

Raum der Region. Fisher-Sized-Subsistenzminimum pro Tag von einem in fähigen, reiben. Das durchschnittliche tägliche Gehalt, reiben.,
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Die Aufgabe:

1. Bauen Sie das Korrelationsfeld auf und formulieren Sie eine Hypothese über die Form der Kommunikation.

2. Berechnen Sie die Parameter der Gleichung lineare Regression

4. Geben Sie es mit Hilfe eines durchschnittlichen (allgemeinen) Elastizitätskoeffizienten, einer Vergleichsschätzung der Faktorkommunikationskraft mit dem Ergebnis.

7. Berechnen Sie den projizierten Wert des Ergebnisses, wenn der Faktorwert des Faktors um 10% seines durchschnittlichen Niveaus steigt. Bestimmen Sie das Vertrauensintervall der Prognose für die Bedeutung.

Entscheidung:

Entscheidend diese Aufgabe Mit Excel verwenden.

1. Vergleichen der verfügbaren Daten x und y, z. B. in aufsteigender Reihenfolge des Faktors X, kann man das Vorhandensein von direkten Zusammenhänge zwischen den Anzeichen beobachten, wenn ein Anstieg des durchschnittlichen täglichen Subsistenzminimums das durchschnittliche tägliche Gehalt erhöht. Basierend auf diesem kann davon ausgegangen werden, dass die Beziehung zwischen den Anzeichen gerade ist und durch die direkte Gleichung beschrieben werden kann. Die gleiche Schlussfolgerung wird auf der Grundlage der grafischen Analyse bestätigt.

Um ein Korrelationsfeld zu erstellen, können Sie Excel PPP verwenden. Geben Sie die Quelldaten in der Reihenfolge ein: Erstes x, dann y.

Wählen Sie den Bereich der Zellen mit den Daten aus.

Dann wähle: Einfügen / Punkt-Diagramm / mit Markierungen entdeckt Wie in Abbildung 1 gezeigt.

Abbildung 1 Konstruktionsfeld

Die Analyse des Korrelationsfelds zeigt das Anwesenheit von nahe rechts lineare Abhängigkeit.Da sich Punkte fast in einer geraden Linie befinden.

2. Berechnung der Parameter der linearen Regressionsgleichung
wir verwenden die integrierte statistische Funktion Linol.

Dafür:

1) Öffnen Sie eine vorhandene Datei, die die analysierten Daten enthält;
2) Markieren Sie einen leeren Zellenbereich von 5 × 2 (5 Zeilen, 2 Säulen), um die Ergebnisse der Regressionsstatistiken anzuzeigen.
3) aktivieren. Master der Funktionen.: Wählen Sie im Hauptmenü aus Formeln / Einfügefunktion.
4) Im Fenster Kategorie Sie nehmen StatistischIn der Fensterfunktion - Linol. Klicken Sie auf die Schaltfläche OK Wie in Abbildung 2 gezeigt;

Abbildung 2 Dialogfeld "Master of Function"

5) Füllen Sie die Funktionsargumente aus:

Berühmte Werte von u.

Berühmte Werte von H.

Konstante - ein logischer Wert, der durch das Vorhandensein oder auf das Fehlen eines freien Elements in der Gleichung angegeben ist; Wenn die Konstante \u003d 1 ist, wird dann der freie Begriff auf übliche Weise berechnet, wenn das freie Element 0, dann das freie Element 0 ist;

Statistiken - ein logischer Wert, der angibt, zusätzliche Informationen zur Regressionsanalyse ausgeben oder nicht. Wenn Statistiken \u003d 1, werden zusätzliche Informationen ausgegeben, wenn Statistiken \u003d 0, dann werden nur Schätzungen der Parameter der Gleichung angezeigt.

Klicken Sie auf die Schaltfläche OK;

Abbildung 3 Dialogfeld-Argumente Linen-Funktion

6) Das erste Element der letzten Tabelle erscheint in der linken linken Zelle des ausgewählten Bereichs. Um die gesamte Tabelle anzuzeigen, drücken Sie die Taste und dann auf der Schlüsselkombination ++ .

Weitere Regressionsstatistiken werden in der in der folgenden Regelung angegebenen Reihenfolge angezeigt:

B. Koeffizientwert. Der Wert des Koeffizienten A.
Standardfehler B. Standardfehler A.
Standardfehler y.
F-statistik
Regressionsquadrate

Abbildung 4 Das Ergebnis der Berechnung der Funktion linol

Erhaltene Regressionsstufen:

Wir schließen daraus: Mit einer Erhöhung des durchschnittlichen dauerhaften Subsistenzminimums für 1 RUB. Das durchschnittliche tägliche Gehalt steigt durchschnittlich um 0,92 Rubel.

Dies bedeutet, dass 52% der Lohnschwankungen (Y) durch die Variation des Faktors X - das durchschnittliche dauerhafte dauerhafte Subsistenzminimum erklärt werden, und 48% sind die Wirkung anderer Faktoren, die nicht im Modell enthalten sind.

Gemäß dem berechneten Bestimmungskoeffizienten können Sie den Korrelationskoeffizienten berechnen: .

Die Kommunikation wird in der Nähe geschätzt.

4. Mit Hilfe eines durchschnittlichen (allgemeinen) Elastizitätskoeffizienten definieren wir den Einfluss des Einflusses des Faktors auf das Ergebnis.

Für die Gleichung wird der Direktmedium (allgemeiner) Elastizitätskoeffizient von der Formel bestimmt:

Die Durchschnittswerte werden gefunden, indem Sie den Bereich der Zellen mit den Werten x auswählen und wählen Formeln / AvoSnumn / MitteUnd dasselbe macht mit den Werten von y.

Abbildung 5 Berechnung der mittleren Werte der Funktion und des Arguments

Beim Ändern des Durchschnitts des Pro-Kopf-Subsistenz-Minimums von mindestens 1% des Durchschnittswerts ändert sich der durchschnittliche tägliche Lohn durchschnittlich 0,51%.

Verwenden des Datenanalyse-Tools Regression. Du kannst es bekommen:
- Ergebnisse der Regressionsstatistik,
- Ergebnisse der Dispersionsanalyse,
- Ergebnisse der Vertrauensintervalle,
- Rückstände und Diagramme der Regressionslinie,
- Rückstände und normale Wahrscheinlichkeit.

Vorgehensweise Weiter:

1) Überprüfen Sie den Zugriff auf Paketanalyse. Wählen Sie im Hauptmenü nacheinander aus: Datei / Parameter / Add-In.

2) In der Dropdown-Liste Steuerung Wählen Excel-Add-In und klicken Gehen

3) Im Fenster Überbau Aktivieren Sie das Kontrollkästchen Analysepaket.und dann auf klicken OK.

Wenn ein Analysepaket. fehlt in der Feldliste Erschwingliche Überstände.Drück den Knopf ÜberblickDie Suche ausführen.

Wenn eine Meldung angezeigt wird, dass das Analysepaket nicht auf dem Computer installiert ist, klicken Sie auf JaUm es zu installieren.

4) Wählen Sie im Hauptmenü: Daten- / Datenanalyse / Analysewerkzeuge / Regressionund dann auf klicken OK.

5) Füllen Sie das Dialogfeld Dateneingabe und die Ausgabeparameter aus:

Eingabeintervall y. - Reichweite mit Leistungsdaten;

Eingabeintervall X. - Bereich, der ein Faktorattributdaten enthält;

Stichworte - Kontrollkästchen, das angibt, ob die erste Zeile des Namens der Spalten oder nicht;

Konstant - Null. - Kontrollkästchen, das das Vorhandensein oder Fehlen eines freien Mitglieds in der Gleichung angibt;

Ausgangsintervall - Es reicht aus, um die linke obere Zelle des zukünftigen Bereichs anzuzeigen;

6) Neues Arbeitsblatt - Sie können einen beliebigen Namen eines neuen Blatts einstellen.

Drücken Sie dann die Taste OK.

Abbildung 6 Dialogfeld Eingabewerkzeugparameter Regression

Die Ergebnisse der Regressionsanalyse für diese Aufgaben sind in Fig. 7 dargestellt.

Abbildung 7 Ergebnisanwendung Regressionswerkzeug

5. Wir schätzen die Qualität der Gleichungen mit einem durchschnittlichen Fehler der Annäherung. Wir verwenden die Ergebnisse der in Abbildung 8 dargestellten Regressionsanalyse.

Abbildung 8 Das Ergebnis der Anwendung des Regressionswerkzeugs "Schlussfolgerung des Rückstands"

Bilden neue Tabelle Wie in Abbildung 9 gezeigt. In der Spalte mit Berechnen des relativen Fehlers der Annäherung durch die Formel:

Abbildung 9 Berechnung des durchschnittlichen Näherungsfehlers

Der durchschnittliche Fehler der Annäherung wird von der Formel berechnet:

Die Qualität des aufgebauten Modells wird als gut geschätzt, da es 8 - 10% nicht überschreitet.

6. Von der Tabelle mit Regressionsstatistik (Abbildung 4) schreiben wir den tatsächlichen Wert des Fischer-F-Kriteriums aus:

Soweit mit 5% der Signifikanzhöhe kann der Schluss gezogen werden, dass die Regressionsgleichung abgeschlossen werden kann (Kommunikation ist bewährt).

8. Bewertung. statistische Signifikanz Regressionsparameter mit Hilfe der T-Statistiken des Schülers und durch Berechnen des Konfidenzintervalls jeder der Indikatoren.

Ich leite die Hypothese H 0 auf den statistisch unbedeutenden Differenz der Indikatoren von Null:

.

für die Anzahl der Freiheitsgrade

Abbildung 7 hat die tatsächlichen T-Statistikwerte:

das T-Kriterium für den Korrelationskoeffizienten kann auf zwei Arten berechnet werden:

I Methode:

wo - zufälliger Fehler des Korrelationskoeffizienten.

Wir nehmen Daten, um den Tisch in Abbildung 7 zu berechnen.

Der II-Weg:

Die tatsächlichen T-Statistikwerte überschreiten die Tabellenwerte:

Daher weicht die Hypothese von H 0 ab, dh die Regressionsparameter und der Korrelationskoeffizient unterscheiden sich nicht versehentlich von Null und statistisch signifikant.

Das Vertrauensintervall für den Parameter A ist definiert als

Für den Parameter waren die Grenzen von 95%, wie in Abbildung 7 gezeigt,:

Das Vertrauensintervall für den Regressionskoeffizienten ist definiert als

Für den Regressionskoeffizienten B 95% Grenzen, wie in Abbildung 7 gezeigt, beliefen sich:

Die Analyse der oberen und unteren Grenzen der Vertrauensintervalle führt zu der Schlussfolgerung, dass mit Wahrscheinlichkeit Die Parameter A und B, die in den angegebenen Grenzen enthalten, nehmen Sie keine Nullwerte an, d. H. sind nicht statistisch unbedeutend und unterscheiden sich wesentlich von Null.

7. Die Schätzungen der Regressionsgleichung ermöglichen es, es für die Prognose zu verwenden. Wenn der Prognosewert des Subsistenzminimums sein wird:

Dann wird der Aufwandswert des Subsistenzminimums sein:

Der Prognosefehler berechnet die Formel:

wo

Die Dispersion wird auch mit Excel PPP betrachtet. Dafür:

1) aktivieren Master der Funktionen.: Wählen Sie im Hauptmenü aus Formeln / Einfügefunktion.

3) Füllen Sie den Bereich, der die numerischen Daten des Faktors enthält. Klicken OK.

Abbildung 10 Dispersionsberechnung

Erhielt den Unterschied zwischen der Dispersion

Um die restliche Dispersion um einen Freiheitsgrad zu berechnen, verwenden wir die Ergebnisse der Dispersionsanalyse, wie in Fig. 7 gezeigt.

Vertrauensintervalle der Prognose der einzelnen Werte mit der Wahrscheinlichkeit von 0,95 werden durch den Ausdruck bestimmt:

Das Intervall ist ziemlich breit, hauptsächlich aufgrund des geringen Volumens der Beobachtungen. Im Allgemeinen war die Prognose des durchschnittlichen monatlichen Gehalts zuverlässig.

Die Aufgabenbedingung stammt von: Workshop über Ökonometries: Studien. Handbuch / I.I. ELISEEVA, S.V. Kuryscheva, n.m. Gordenko et al.; Ed. I.i. Elesineeva. - M.: Finanzen und Statistik, 2003. - 192.1.

Regressions- und Korrelationsanalyse - statistische Forschungsmethoden. Dies sind die häufigsten Möglichkeiten, um die Abhängigkeit von Parameter von einem oder mehreren unabhängigen Variablen anzuzeigen.

Nachfolgend zu bestimmten praktischen Beispielen berücksichtigen Sie diese beiden sehr beliebten Analysen im Umweltumfeld. Und geben Sie auch ein Beispiel, um Ergebnisse beim Kombinieren zu erhalten.

Regressionsanalyse in Excel

Zeigt den Effekt einiger Werte (unabhängig, unabhängig) auf der abhängigen Variablen an. Wenn zum Beispiel die Anzahl der wirtschaftlich aktiven Bevölkerung auf der Anzahl der Unternehmen, die Werte von Löhnen usw. abhängt, hängt der Parameter ab. Oder: So beeinflussen man ausländische Investitionen, Energiepreise und andere. Auf der Ebene des BIP.

Das Ergebnis der Analyse ermöglicht es Ihnen, Prioritäten hervorzuheben. Und basierend auf den Hauptfaktoren prognostizieren Sie die Entwicklung von vorrangigen Bereichen, um Managemententscheidungen vorzunehmen.

Regression passiert:

  • linear (y \u003d a + bx);
  • parabolic (y \u003d a + bx + cx 2);
  • exponentiell (y \u003d a * exp (bx));
  • leistung (y \u003d a * x ^ b);
  • hyperbolisch (y \u003d b / x + a);
  • logarithmisch (y \u003d b * 1n (x) + a);
  • anzeige (y \u003d a * b ^ x).

Betrachten Sie das Beispiel regressionsmodell In Excel und Interpretation der Ergebnisse. Nehmen linearer Typ Regression.

Eine Aufgabe. Bei 6 Unternehmen wurden das durchschnittliche monatliche Gehalt und die Anzahl der abosolierten Mitarbeiter analysiert. Es ist notwendig, die Abhängigkeit der Anzahl der absolvierten Mitarbeiter aus dem Durchschnittsgehalt zu ermitteln.

Das lineare Regressionsmodell hat das folgende Formular:

Y \u003d A 0 + A 1 x 1 + ... + A bis X bis.

Wo A die Regressionskoeffizienten, X-Beeinflussungsvariablen, zur Anzahl der Faktoren ist.

In unserem Beispiel, als ob der Indikator für diejenigen, die destillierte Arbeiter sind, sind. Beeinflussungsfaktor - Löhne (x).

Excel verfügt über integrierte Funktionen, mit denen Sie die Parameter des linearen Regressionsmodells berechnen können. Aber schneller wird es ein Add-In "Analysepaket" machen.

Aktivieren Sie ein leistungsfähiges analytisches Werkzeug:

Nach der Aktivierung steht das Add-In auf der Registerkarte Daten zur Verfügung.

Jetzt beschäftigen wir uns direkt mit der direkten Regressionsanalyse.



Achten Sie zunächst auf den R-Quadrat und die Koeffizienten.

R-Quadrat - Bestimmungskoeffizient. In unserem Beispiel - 0,755 oder 75,5%. Dies bedeutet, dass die berechneten Parameter des Modells um 75,5% die Beziehung zwischen den untersuchten Parametern erklären. Je höher der Bestimmungskoeffizient, desto besser ist das Modell. Gut - über 0,8. Schlecht - weniger als 0,5 (eine solche Analyse kann kaum als vernünftig angesehen werden). In unserem Beispiel "nicht schlecht".

Der Koeffizient 64,1428 zeigt, wie y sein wird, wenn alle Variablen in dem unter Berücksichtigen Modell 0 sein werden. Das heißt, andere Faktoren, die nicht im Modell beschrieben werden, werden durch den Wert des analysierenden Parameters beeinflusst.

Der Koeffizient -0,16285 zeigt das Gewicht der Variablen x auf y. Das heißt, der durchschnittliche monatliche Lohn in diesem Modell beeinflusst den Betrag von -0,16285, der mit dem Gewicht zitiert wird (dies ist ein kleiner Einflussgrad). Das Zeichen "-" gibt einen negativen Effekt an: je mehr Gehalt, desto weniger abgeschafft. Was ist richtig.



Korrelationsanalyse in Excel

Die Korrelationsanalyse hilft, festzustellen, ob eine Verbindung zwischen den Indikatoren in einem oder zwei Proben vorliegt. Beispielsweise zwischen der Betriebszeit der Maschine und der Reparaturkosten, des Ausrüstungspreises und der Dauer des Betriebs, des Wachstums und des Gewichts von Kindern usw.

Wenn die Verbindung verfügbar ist, erhöht sich eine Erhöhung eines Parameters (positive Korrelation) oder eine Abnahme in (negativ) eines anderen. Die Korrelationsanalyse hilft der Analyse, zu entscheiden, ob es möglich ist, den möglichen Wert des anderen in der Größe eines Indikators vorherzusagen.

Der Korrelationskoeffizient wird von R. bezeichnet. Variiert von +1 bis -1. Die Klassifizierung von Korrelationsbindungen für verschiedene Kugeln ist unterschiedlich. Wenn der Wert des Linearbeziehungskoeffizienten zwischen den Proben nicht vorhanden ist.

Überlegen Sie, wie mit excel Funds. Finden Sie den Korrelationskoeffizienten.

Um gepaarte Koeffizienten zu finden, wird die CORRELA-Funktion verwendet.

Aufgabe: Bestimmen Sie, ob es eine Beziehung zwischen der Zeit des Betriebs der Drehmaschine und den Kosten des Dienstes gibt.

Wir setzen den Cursor in eine beliebige Zelle und drücken Sie die FX-Taste.

  1. Wählen Sie in der Kategorie "statistisch" die Funktion des Cornel aus.
  2. Argument "Array 1" - der erste Wertebereich - die Betriebszeit der Maschine: A2: A14.
  3. Argument "Array 2" - der zweite Wertebereich - die Reparaturkosten: B2: B14. OK klicken.

Um die Art der Kommunikation zu ermitteln, müssen Sie die absolute Anzahl des Koeffizienten sehen (für jeden Aktivitätsbereich gibt es eine eigene Skala).

Zur Korrelationsanalyse mehrerer Parameter (mehr als 2) ist es bequemer, "Datenanalyse" (Add-On-Analysepaket ") anwenden. Die Liste muss eine Korrelation auswählen und ein Array benennen. Alles.

Die resultierenden Koeffizienten werden in der Korrelationsmatrix angezeigt. So was:

Korrelationsregressionsanalyse

In der Praxis werden diese beiden Techniken oft zusammen verwendet.

Beispiel:


Diese Regressionsanalyse wird auch sichtbar.

Regressionsanalyse in Microsoft Excel - am meisten vollhandbücher Verwenden von MS Excel, um Probleme der Regressionsanalyse auf dem Gebiet der Business Intelligence zu lösen. Konrad Carlberg erläutert erreichbar theoretische Fragen, Kenntnisse, auf deren Hilfe viele Fehler sowohl in der unabhängigen Regressionsanalyse als auch bei der Bewertung der Ergebnisse der von anderen Personen durchgeführt werden. Alles Material, aus einfachen Korrelationen und T-Tests bis hin zu mehreren Kovarianzanalysen, basierend auf echte Beispiele und begleitet detaillierte Beschreibung relevante schrittweise Prozeduren.

Das Buch diskutiert die miteinander verbundenen Funktionen und Widersprüche excel-Funktionen Um mit der Regression zu arbeiten, werden die Konsequenzen der Verwendung jeder ihrer Optionen und jedes Argument in Betracht gezogen und erklärt, wie zuverlässig Regressionsmethoden in verschiedenen Bereichen anwendbar sind, von der medizinischen Forschung bis zur Finanzanalyse.

Konrad Carlberg. Regressionsanalyse in Microsoft Excel. - M.: Dialektik, 2017. - 400 p.

Notiz im Format oder in Format herunterladen

Kapitel 1. Bewertung der Datenvariabilität

Zur Entsorgung von Statistiken gibt es viele Variationsindikatoren (Variabilität). Einer von ihnen ist die Summe der Quadrate der Abweichungen der einzelnen Werte aus dem Durchschnitt. In Excel wird die QuadroLC () -Funktion dafür verwendet. Aber die Dispersion wird häufiger verwendet. Dispersion ist die durchschnittlichen Abweichungenquadrate. Die Dispersion ist unempfindlich gegen die Anzahl der Werte im Testdatensatz (während die Summe der Summe der Abweichungen mit der Anzahl der Messungen wächst).

Das Excel-Programm bietet zwei Funktionen, die die Dispersion zurückgeben: Anzeige () und Anzeige ():

  • Verwenden Sie die Funktion des Displays (), wenn der zu verarbeitende Wert ein allgemeines Set formuliert. Diejenigen. Die im Bereich enthaltenen Werte sind die einzigen Werte, die Sie interessieren.
  • Verwenden Sie die Anzeigefunktion (), wenn der zu verarbeitende Wert eine Probe aus dem Satz von größerem Volume bildet. Es wird angenommen, dass es zusätzliche Werte gibt, deren Dispersion Sie auch bewerten können.

Wenn dieser Wert als der Durchschnittswert oder der Korrelationskoeffizient basierend auf der allgemeinen Bevölkerung berechnet wird, wird er als Parameter bezeichnet. Ein ähnlicher Wert, berechnet auf der Grundlage der Probe, wird Statistik genannt. Abweichungen zählen vom Durchschnitt In diesem Set erhalten Sie die Summe der Quadrate der Abweichungen eines kleineren Werts, als wenn sie von einem anderen Wert gezählt wurden. Eine ähnliche Behauptung gilt für die Dispersion.

Je mehr Abtastung, desto genauer der berechnete Statistikwert. Es gibt jedoch keine Probe mit einem Volumen von weniger als dem Volumen der allgemeinen Bevölkerung, in Bezug auf den Sie sicher sein könnten, dass der Wert der Statistik mit dem Wert des Parameters zusammenfällt.

Angenommen, Sie haben einen Satz von 100 Wachstumswerten, die sich vom Durchschnitt der allgemeinen Bevölkerung unterscheiden, egal wie klein dieser Unterschied ist. Nachdem Sie die Dispersion für die Probe berechnet haben, erhalten Sie etwas von seiner Bedeutung, sagen: 4. Dieser Wert ist kleiner als jeder andere, der erhalten werden kann, was erhalten werden kann, wodurch die Abweichung jedes der 100 Wachstumswerte relativ zu einem anderen Wert berechnet werden kann als der Durchschnitt der Probe in der Anzahl und einem relativ echten durchschnittlichen allgemeinen Aggregat. Daher ist die berechnete Dispersion unterschiedlich und in einer kleineren Seite von der Dispersion, die Sie bekommen würden, wenn Sie irgendwie gelernt und nicht selektiven Mittelwert haben, sondern der Parameter des allgemeinen Aggregats.

Die durchschnittliche Summe der für die Probe definierten Quadrate ergibt die geringere Schätzung der Dispersion der allgemeinen Bevölkerung. Die auf diese Weise berechnete Dispersion wird aufgerufen versetzt Bewertung. Es stellt sich heraus, den Offset auszuschließen und eine unerträgliche Beurteilung zu erhalten, es reicht aus, um die Summe der Abweichungen der Abweichungen zu teilen n.wo n. - Mustergröße und auf n - 1..

Wert n - 1.genannte Menge (Nummer) der Freiheitsgrade. Existieren verschiedene Methoden Die Berechnung dieses Werts, obwohl sie alle entweder einige Nummer von der Mustergröße subtrahieren oder die Anzahl der Kategorien zählen, in denen Beobachtungen fallen.

Die Essenz der Unterschiede zwischen den Funktionen des Displays () und der Anzeige () ist wie folgt:

  • In der Funktion des Displays () ist die Summe der Quadrate in die Anzahl der Beobachtungen unterteilt und stellt daher die vertriebene Auswertung der Dispersion dar, der wahre Durchschnitt.
  • In der Funktion des Displays () ist die Summe der Quadrate in die Anzahl der Beobachtungen von minus 1 unterteilt, d. H. Durch die Anzahl der Freiheitsgrade, die eine genauere, inhaftierende Beurteilung der Dispersion der allgemeinen Bevölkerung ergibt, von der diese Probe abgerufen wurde.

Standardabweichung (deu. standardabweichung, SD) - Es gibt eine quadratische Wurzel der Dispersion:

Der Bau von Abweichungen im Platz übersetzt die Messwaage auf eine andere Metrik, die das Quadrat des Originals: Meter - in Quadratmetern, Dollar in Quadratischen Dollar usw. Die Standardabweichung ist eine Quadratwurzel aus der Dispersion, und daher gibt es uns an die anfänglichen Maßeinheiten zurück. Bequemer.

Es ist häufig notwendig, die Standardabweichung zu berechnen, nachdem die Daten einigen Manipulationen unterzogen wurden. Und obwohl in diesen Fällen die Ergebnisse zweifellos Standardabweichungen sind, werden sie aufgerufen standardfehler. Es gibt mehrere Sorten von Standardfehlern, einschließlich eines Standardmessfehlers, eines Standard-Proportionalitätsfehlers, eines Standard-Durchschnittsfehlers.

Angenommen, Sie haben Daten zum Wachstum von 25 zufällig ausgewählten Erwachsenen in jedem der 50 Staaten gesammelt. Als Nächstes berechnen Sie das durchschnittliche Wachstum von Erwachsenen in jedem Staat. Die erhaltenen 50 mittleren Werte können wiederum als Beobachtungen betrachtet werden. Basierend darauf können Sie ihre Standardabweichung berechnen, was ist standard-mittlerer Fehler. Feige. 1. Ermöglicht das Vergleichen der Verteilung von 1250 Quell-Einzelwerten (Daten zum Wachstum von 25 Männern für jeden der 50 Staaten) mit der Verteilung von durchschnittlichen Sets von 50 Zuständen. Die Formel zur Schätzung des Standardfehlers des Durchschnitts (d. H. Die Standardabweichung der Durchschnittswerte und nicht einzelnen Beobachtungen):

wo ist der Standardfehler des Durchschnitts; s. - Standardabweichung der anfänglichen Beobachtungen; n. - Anzahl der Beobachtungen in der Probe.

Feige. 1. Die Variation von mittleren Werten aus dem Staat, um deutlich weniger Variation der einzelnen Beobachtungsergebnisse anzugeben

In der Statistik gibt es eine Vereinbarung über die Verwendung griechischer und lateinischer Briefe, um statistische Mengen zu bezeichnen. Griechische Briefe werden gemacht, um die Parameter der allgemeinen Bevölkerung, lateinische selektive Statistiken zu benennen. Wenn wir von der Standardabweichung der allgemeinen Bevölkerung sprechen, schreiben wir es als σ; Wenn die Standardabweichung der Probe berücksichtigt wird, verwenden wir die Bezeichnung s. Wie für die Charaktere, um den Durchschnitt zu benennen, stimmen sie nicht so erfolgreich miteinander. Der Durchschnitt der allgemeinen Bevölkerung wird durch den griechischen Buchstaben μ angezeigt. Das X̅-Symbol wird jedoch traditionell verwendet, um das Mustermedium darzustellen.

z-Score. Drückt die Position der Beobachtung in der Verteilung in Einheiten der Standardabweichung aus. Zum Beispiel bedeutet Z \u003d 1,5, dass die Beobachtung von Durchschnitt um 1,5 Standardabweichungen zu großen Werten ist. Begriff z-Score. Wird für einzelne Schätzungen verwendet, d. H. Für Messungen, die einzelnen Elemente der Probe zugeschrieben werden. Für solche Statistiken (zum Beispiel der durchschnittliche Standard) verwenden Sie den Begriff z-Wert:

wenn X̅ der durchschnittliche Abtastwert ist, ist μ der Durchschnittswert des allgemeinen Sets, der Standardfehler des durchschnittlichen Probensatzes:

wobei σ der Standardfehler der allgemeinen Bevölkerung (individuelle Messungen) ist, n. - Mustergröße.

Angenommen, Sie arbeiten als Lehrer in einem Golfclub. Sie hatten lange Zeit, um die Sortiment an Schocks zu messen, und wissen, dass der Durchschnittswert 205 Meter beträgt, und die Standardabweichung beträgt 36 Meter. Sie wurden einem neuen Club angeboten und behauptet, dass es die Entfernung von 10 Metern erhöhen würde. Sie stellen jeden der folgenden 81 Club-Besucher, um einen Teststempel mit einem neuen Schlüssel auszuführen, und schreiben Sie den Trefferbereich auf. Es stellte sich heraus, dass der durchschnittliche Tropfbereich mit einem neuen Schlüssel 215 Meter beträgt. Was ist die Wahrscheinlichkeit, dass der Unterschied von 10 Meter (215 - 205) auf einen außergewöhnlich fehler der Probenahme zurückzuführen ist? Oder auf andere Weise: Was ist die Wahrscheinlichkeit, dass der neue Schlüssel mit einem größeren Test nicht einen Anstieg der Entfernung der Auswirkungen im Vergleich zum bestehenden langfristigen Durchschnitt von 205 Meter zeigt?

Wir können es überprüfen, indem wir den Z-Wert bildet. Standard-mittlerer Fehler:

Dann z-Wert:

Wir müssen die Wahrscheinlichkeit finden, dass der Durchschnitt der Probe von dem Durchschnitt für die allgemeine Bevölkerung um 2,5σ verteidigt wird. Wenn die Wahrscheinlichkeit klein ist, sind die Unterschiede auf den Unfall zurückzuführen, sondern die Qualität des neuen Stocks. In Excel gibt es keine fertige Funktion, um die Wahrscheinlichkeit Z-Wert zu bestimmen. Es ist jedoch möglich, eine Formel \u003d 1-Normen.st.sp. (Z-Wert; Wahrheit) zu verwenden, wobei die Funktion von NORMS.St.SP () den Bereich unter der normalen Kurve links von dem Z zurückgibt -Value (Abb. 2).

Feige. 2. Die Funktion von Normen.st. ASP () gibt den Bereich unter der Kurve links vom Z-Wert zurück; Zum Vergrößern klicken Sie darauf rechtsklick Maus und Select. Bild auf einer neuen Registerkarte öffnen

Das zweite Argument der Funktion von Normen.Spl. () Kann zwei Werte annehmen: Wahrheit - Die Funktion gibt den Bereich unter der Kurve links von dem von dem ersten Argument angegebenen Punkt zurück. FALS - Die Funktion kehrt die Höhe der Kurve an der Stelle des ersten Arguments zurück.

Wenn der Durchschnittswert (μ) und die Standardabweichung (σ) der allgemeinen Bevölkerung nicht bekannt ist, wird der T-Wert verwendet (siehe mehr Details). Die Struktur von Z- und T-Werten unterscheidet sich dadurch, dass die Standardabweichung S, die den T-Wert, die Standardabweichung s, die auf selektiven Ergebnissen erhalten wird, und der nicht bekannte Wert des Parameters der allgemeinen Bevölkerung σ ist benutzt. Die normale Kurve hat eine einzige Form, und die Form der Verteilung von T-Werten variiert in Abhängigkeit von der Anzahl der Grad der Freiheitsfreiheit von DF (aus dem Englischen. freiheitsgrade) Probe ist es darstellt. Die Anzahl der Freiheitsgrade der Probe ist gleich n - 1.wo n. - Mustergröße (Abb. 3).

Feige. 3. Die Form von T-Distributionen, die in Fällen ergeben, in denen der Parameter σ unbekannt ist, unterscheidet sich von der Form der normalen Verteilung

In Excel gibt es zwei Funktionen für die T-Distribution, die auch der Verteilung des Schülers genannt wird: student.rasp () gibt den Wert des Bereichs unter der Kurve links von dem angegebenen T-Wert zurück, und student.rasp. Px () - auf der rechten Seite.

Kapitel 2. Korrelation.

Die Korrelation ist ein Maß für die Beziehung zwischen den Elementen des Satzes von bestelltem Dampf. Die Korrelation ist charakterisiert pearson-Korrelationskoeffizienten- r. Der Koeffizient kann Werte im Bereich von -1,0 bis +1,0 annehmen.

wo S X. und S y. - Standardvariablenabweichungen H. und Y., S xy. - Kovarianz:

In dieser Formel ist die Kovarianz in Standardabweichungen von Variablen unterteilt H. und Y.Dadurch entfernen Sie die Skalierungseffekte, die mit Messeinheiten von Covaria verbunden sind. Excel verwendet eine Correla () -Funktion. Im Titel dieser Funktion gibt es keine Klärelemente von G und B, die in den Namen von Funktionen wie Standardklon (), Teller () oder Kovarianz () verwendet werden. Obwohl das Korrelationsverhältnis der von der verdrängten Bewertung bereitgestellten Probe, aber die Ursache der Verschiebung ist jedoch anders als bei Dispersion oder Standardabweichung.

Abhängig von der Größe des allgemeinen Korrelationskoeffizienten (oft durch den griechischen Buchstaben angegeben) ρ ), Korrelationskoeffizient r. Es ergibt eine verdrängte Bewertung, und der Verschiebungseffekt wird mit einer Abnahme der Probengröße verbessert. Trotzdem versuchen wir nicht, diese Verschiebung auf dieselbe Weise einzustellen, wie zum Beispiel bei der Berechnung der Standardabweichung, wenn nicht die Anzahl der Beobachtungen in die entsprechende Formel ersetzt wurde, sondern die Anzahl der Freiheitsgrade. Tatsächlich hat die Anzahl der zur Berechnung der Kovarianz verwendete Beobachtungen keinen Einfluss auf die Größe.

Der Standardkorrelationskoeffizient ist zur Verwendung mit mit einem linearen Verhältnis verbundenen Variablen bestimmt. Das Vorhandensein von Nichtlinearität und / oder / oder Fehlern in Daten (Emissionen) führt zu einer falschen Berechnung des Korrelationskoeffizienten. Zur Diagnose von Datenproblemen wird empfohlen, Punktdiagramme zu erstellen. Dies ist der einzige Typ der Diagramme in Excel, in denen die horizontale und die vertikalen Achsen als die Achse der Werte behandelt werden. Das lineare Diagramm eines der Spalten definiert, wie die Kategorieachse das Datenbild verzerrt (Abb. 4).

Feige. 4. Regressionslinien scheinen dasselbe, sondern vergleichen ihre Gleichungen unter sich

Beobachtungen, die zum Erstellen eines linearen Diagramms verwendet werden, befinden sich entlang der horizontalen Achse äquidistant. Die Inschriften von Divisionen entlang dieser Achse sind nur Inschriften und nicht numerische Werte.

Trotz der Tatsache, dass die Korrelation oft das Vorhandensein einer kausalen Beziehung bedeutet, kann er nicht als Beweismittel dienen, die es ist. Statistiken werden nicht verwendet, um zu zeigen, dass Theorie wahr oder falsch ist. Um konkurrierende Erklärungen zu Beobachtungsergebnissen zu beseitigen geplante Experimente.. Statistiken werden angezogen, um Informationen zusammenzufassen, die während solcher Experimente gesammelt wurden, sowie eine quantitative Bewertung der Wahrscheinlichkeit, dass die Entscheidung in der bestehenden Evidenzbasis falsch sein kann.

Kapitel 3. Einfache Regression

Wenn zwei Variablen miteinander verbunden sind, dh der Wert des Korrelationskoeffizienten übersteigt, wie 0,5, dann kann in diesem Fall einen unbekannten Wert einer Variablen für den bekannten Wert eines anderen vorhergesagt werden. Für vorhersagende Preiserwerte, basierend auf den in Fig. 1 gezeigten Daten. 5, Sie können jeden von mehreren verwenden mögliche MethodenAber fast sicher verwenden Sie denjenigen nicht, der in Fig. 1 dargestellt ist. 5. Und doch sollten Sie sich damit vertraut machen, da es uns keine andere Methode ermöglicht, die Beziehung zwischen der Korrelation und Prognose eindeutig demonstrieren, wie dieses. In FIG. 5 In der B2-Sortiment: C12 ist eine zufällige Probe von zehn Häusern und bietet Daten auf dem Bereich jedes Hauses (in Quadratfuß) und dem Verkaufspreis.

Feige. 5. Prognose Verkaufspreise bilden eine gerade Linie

Finden Sie die Durchschnittswerte, den Standardabweichungen und den Korrelationskoeffizienten (Bereich A14: C18). Berechnen Sie z-Schätzungen des Bereichs (E2: E12). Zum Beispiel enthält die EZ-Zelle eine Formel: \u003d (B3- $ auf 14 $) / $ bei 15 US-Dollar. Berechnen Sie z-Schätzungen des Prognosepreises (F2: F12). Zum Beispiel enthält die F3-Zelle eine Formel: \u003d YEZ * $ $ 18. Übersetzen Sie Z-Schätzungen in den Preisen in Dollar (H2: H22). In der NZ-Zellformel: \u003d F3 * $ C $ 15 + $ C $ 14.

Bitte beachten Sie: Der projizierte Wert versucht immer, sich in Richtung des Durchschnitts von 0 zu verschieben. Je näher auf Null des Korrelationskoeffizienten ist, desto null ist die projizierte Z-Schätzung. In unserem Beispiel beträgt der Korrelationskoeffizient zwischen dem Bereich und dem Verkaufspreis 0,67, und der Prognosepreis beträgt 1,0 * 0,67, d. H. 0,67. Dies entspricht dem Überschreitungswert über dem Durchschnittswert, der zwei Drittel der Standardabweichung entspricht. Wenn der Korrelationskoeffizient gleich 0,5 betrug, wäre der Prognosepreis 1,0 * 0,5, d. H. 0,5. Dies entspricht dem übermäßigen Wert über dem Durchschnittswert, der nur der Hälfte der Standardabweichung entspricht. Immer wenn der Korrelationskoeffizientenwert von der perfekten, d. H. More -1.0 und weniger als 1.0 sollte die Schätzung der projizierten Variablen näher an seinem Durchschnittswert sein als die Schätzung der Predictor-Variablen (unabhängige) Variable. Dieses Phänomen heißt mittlere Regression oder einfacher Regression.

Excel hat mehrere Funktionen, um die Koeffizienten der Regressionsleitungsgleichung zu bestimmen (in Excel heißt eine Trendlinie) y \u003d.kx. + b.. Zum bestimmen. k. Serviert Funktion.

\u003d Neigung (CEST_NAME_U; CEST_STATIONS_X)

Hier w. - vorhergesagte Variable und h. - Unabhängige Variable. Sie müssen dieser Reihenfolge der Variablen strikt folgen. Die Steigung der Regressionslinie, Korrelationskoeffizient, Standardvariablen und Kovarianzabweichungen sind eng miteinander verbunden (Abb. 6). Die Funktion Segment () gibt einen Wert zurück, der die Regressionslinie auf der vertikalen Achse schneidet:

\u003d Segment (commé_stations_u; commic_stations_x)

Feige. 6. Das Verhältnis zwischen Standardabweichungen wandelt die Kovarianz in den Korrelationskoeffizienten und den Hang der Regressionslinie um

Bitte beachten Sie, dass die Anzahl der X- und Y-Werte, die von der Slope () -Funktion und des Segments (), als Argumente, die gleich sind, dasselbe sein sollten.

In der Regressionsanalyse wird ein weiterer wichtiger Indikator verwendet - R 2 (R-Quadrat) oder der Bestimmungskoeffizient. Es bestimmt, welchen Beitrag zur Gesamtdatenvariabilität von der Abhängigkeit eingeführt wird h. und w.. In Excel gibt es eine Funktion (), die genau die gleichen Argumente wie die CORRELA () -Funktion anzieht.

Auf zwei Variablen mit einem nicht-Null-Korrelationskoeffizienten zwischen ihnen sagen sie, dass sie die Dispersion erklären oder eine erläuterte Dispersion haben. Normalerweise wird die Erläuterung der Dispersion als Prozentsatz ausgedrückt. So R. 2 \u003d 0,81 bedeutet, dass 81% der Dispersion (Scatter) von zwei Variablen erläutert wird. Die restlichen 19% sind auf zufällige Schwankungen zurückzuführen.

Excel hat eine Tendenzfunktion, die Berechnungen vereinfacht. Funktion Trend ():

  • akzeptiert die bekannten Werte h. und bekannte Werte. w.;
  • berechnet die Steigung der Regressionslinie und der Konstante (Segment);
  • gibt Prognosewerte zurück w.definiert auf der Grundlage der Anwenden der Regressionsgleichung an bekannte Werte h. (Abb. 7).

Die Tendenz-Funktion () ist die Funktion des Arrays (wenn Sie zuvor keine solchen Funktionen angetroffen haben, empfehle ich).

Feige. 7. Mit der Trendfunktion () können Sie die Berechnungen im Vergleich zur Verwendung eines Paares Neigungsfunktionen () und ein Segment () beschleunigen

Um die Tendenz-Funktion in der Formel des Arrays in der Zelle in der Zelle G3: G12 einzugeben, wählen Sie den Bereich G3: G12, geben Sie die Trendformel ein (SZ: C12; VZ: B12), drücken Sie die Tasten und halten Sie die Tasten gedrückt Und nur dann drücken Sie die Taste . Bitte beachten Sie, dass die Formel in lockigen Klammern eingeschlossen ist: (und). So informiert Sie Excel Ihnen, dass diese Formel genau als Array-Formel wahrgenommen wird. Geben Sie die Klammern nicht selbst ein: Wenn Sie versuchen, sich selbst als Teil der Formel einzugeben, wird Excel Ihren Eingang als regulärer Textzeichenfolge wahrgenommen.

Die Funktion hat eine Tendenz () Es gibt zwei weitere Argumente: new_name_x.und angelegenheit. Der Erste ermöglicht es Ihnen, eine Prognose für die Zukunft aufzubauen, und der zweite kann die Regressionslinie zwingen, den Ursprung der Koordinate zu durchlaufen (der Wert der Wahrheit sagt Excel, um die berechnete Konstante zu verwenden, der Wert ist eine Lüge - konstant \u003d 0). Mit Excel können Sie eine Regression direkt in das Diagramm ziehen, damit er den Ursprung der Koordinaten durchläuft. Beginnen Sie mit dem Aufbau eines Punktdiagramms, klicken Sie mit der rechten Maustaste auf eine der Data-Serie-Marker. Wählen Sie in der Öffnung kontextmenü Absatz Trendlinie hinzufügen; Wähle eine Option Linear; Wenn nötig, scrollen Sie das Panel nach unten, überprüfen Sie das Kontrollkästchen. Kreuzung einrichten; Stellen Sie sicher, dass das Textfeld auf 0,0 im zugehörigen Textfeld eingestellt ist.

Wenn Sie drei Variablen haben, und Sie möchten die Korrelation zwischen zwei ermitteln und den Einfluss des Dritten entfernen, können Sie verwenden private Korrelation. Angenommen, Sie interessieren sich für das Verhältnis zwischen dem Prozentsatz der Bewohner der Stadt, die College und die Anzahl der Bücher in städtischen Bibliotheken absolviert. Sie haben Daten an 50 Städten gesammelt, aber das Problem ist, dass beide Parameter von dem Wohlergehen der Bewohner einer oder einer anderen Stadt abhängen können. Natürlich ist es sehr schwierig, andere 50 Städte zu wählen, gekennzeichnet durch das gleiche Grad des Wohlstands von Bewohnern.

Die Anwendung statistischer Methoden zur Beseitigung des Einflusss des Wohlfahrtsfaktors auf der finanziellen Unterstützung für Bibliotheken und die Verfügbarkeit von College-Training. Sie könnten eine genauere quantitative Bewertung des Abschlusses zwischen den von Ihnen interessierten Variablen erhalten, nämlich: die Anzahl der Bücher und die Anzahl der Absolventen. Eine solche bedingte Korrelation zwischen zwei Variablen, wenn die Werte anderer Variablen fixiert sind, und wird als private Korrelation bezeichnet. Eine der Methoden seiner Berechnung ist die Verwendung der Gleichung:

Wo r. Cb. . W. - der Korrelationskoeffizient zwischen College-Variablen (College) und Büchern (Bücher) mit der beseitigten Wirkung (Festwert) des variablen Wohlstands (Reichtum); r. Cb. - Korrelationskoeffizient zwischen College- und Buchvariablen; r. Cw. - Korrelationskoeffizient zwischen College-Variablen und Wohlstand; r. Bzw. - Korrelationskoeffizient zwischen Variablen von Büchern und Wohlbefinden.

Andererseits kann die private Korrelation basierend auf der Analyse von Rückständen berechnet werden, d. H. Die Unterschiede zwischen den projizierten Werten und den damit verbundenen Ergebnissen der tatsächlichen Beobachtungen (beide Verfahren werden in Fig. 8) dargestellt. 8).

Feige. 8. Private Korrelation als Korrelation von Rückständen

Verwenden Sie die Berechnung der Korrelationskoeffizientenmatrix (B16: E19), verwenden Sie das Excel-Analysepaket (Menü) Daten –> Analyse –> Datenanalyse). Standardmäßig ist dieses Paket in Excel nicht aktiv. Um es zu installieren, gehen Sie durch das Menü Datei –> Parameter –> Überbau. Geöffnete Fenster im Erdgeschoss. ParameterAufheben Das Feld finden Steuerung, Wählen ÜberbauAufhebenKlicken Gehen. Überprüfen Sie den Häkchen gegenüber dem Überbau Analysepaket.. Klicken Sie auf A. naliza data.Wählen Sie die Option aus Korrelation. Geben Sie als Eintrittsintervall $ B $ 2: $ D $ 13 an, überprüfen Sie das Kontrollkästchen Tags in der ersten Zeichenfolge, Wie das Ausgabeintervall, angeben Sie $ B $ 16: $ E $ 19.

Eine andere Gelegenheit ist, die Halbpartei-Korrelation zu bestimmen. Zum Beispiel erkunden Sie die Auswirkungen des Wachstums und des Gewichts. So haben Sie zwei Prädiktorvariablen - Wachstum und Alter und eine vorhergesagte variable - Gewicht. Sie möchten den Einfluss einer Predictor-Variablen mit einem anderen beseitigen, jedoch nicht für die projizierte Variable:

wobei n Höhe (Höhe), W- Gewicht (Gewicht) und - Alter (Alter) ist; Im Index des Sektorkorrelationskoeffizienten werden runde Klammern verwendet, mit denen er angedeutet ist, deren Effekt davon ausgeschlossen wird, aus welcher Variablen variabel ist. IM dieser Fall Die Bezeichnung W (n.a) zeigt an, dass der Effekt des variablen Alters aus der Wachstumsvariablen entfernt wird, jedoch nicht aus variabler Gewicht.

Es kann den Eindruck suchen, dass die Frage nicht wesentlich signifikant war. Das Wichtigste ist doch das Wichtigste, wie genau die allgemeine Regressionsgleichung genau arbeitet, während das Problem der relativen Beiträge einzelner Variablen der gesamten erläuterten Dispersion sekundär erscheint. Dies ist jedoch nicht der Fall. Sobald Sie anfangen, darüber nachzudenken, ob es sich lohnt, eine Variable in der mehreren Regressionsgleichung zu verwenden, wird das Problem wichtig. Es kann die Beurteilung der Richtigkeit der Wahl des Modells für die Analyse beeinflussen.

Kapitel 4. Funktion linol ()

Die lineare () -Funktion gibt 10 Regressionsstatistik zurück. Die lineare Funktion () ist die Funktion des Arrays. Um es einzugeben, markieren Sie den Bereich, der fünf Zeilen und zwei Spalten enthält, geben Sie die Formel ein und klicken Sie auf (Abb. 9):

Linear (B2: B21; A2: A21; Wahrheit; Wahrheit)

Feige. 9. linene (): a) Markieren Sie den D2: E6-Bereich, B) Geben Sie die Formel wie in der Formel, c) ein.

Die lineare () -Funktion kehrt zurück:

  • regressionskoeffizient (oder Neigung, Zelle D2);
  • schnitt (oder konstant, Zelle E3);
  • standardregressions-Koeffizientenfehler und Konstanten (Bereich D3: E3);
  • r 2 Bestimmungskoeffizient für die Regression (Zelle D4);
  • standardschätzungsfehler (E4-Zelle);
  • F-Kriterium für die vollständige Regression (Zelle D5);
  • die Anzahl der Freiheitsgrade für die Restsumme der Quadrate (Zelle E5);
  • regressionsmenge der Quadrate (Zelle D6);
  • die Restsumme der Quadrate (Zelle E6).

Berücksichtigen Sie jede dieser Statistiken und deren Interaktion.

Standart Fehler In unserem Fall ist dies eine Standardabweichung, die für Probenfehler berechnet wird. Die. Dies ist eine Situation, in der das allgemeine Aggregat eine Statistik hat, und die Probe ist ein anderes. Teilen des Regressionskoeffizienten auf einen Standardfehler, erhalten Sie einen Wert von 2.092 / 0.818 \u003d 2,559. Mit anderen Worten, der Regressionskoeffizient, gleich 2,092, ist für zweieinhalb-halbige Standardfehler Null.

Wenn der Regressionskoeffizient Null ist, ist die beste Schätzung der vorhergesagten Variablen sein Durchschnittswert. Zweieinhalb-halbige Standardfehler sind ein ziemlich großer Wert, und Sie können zuversichtlich glauben, dass der Regressionskoeffizient für die allgemeine Bevölkerung einen Wert ungleich Null hat.

Sie können die Wahrscheinlichkeit bestimmen, einen selektiven Regressionskoeffizienten von 2.092 zu erhalten, wenn der tatsächliche Wert im allgemeinen Set 0,0 mit der Funktion 0,0 beträgt

Student.Sp.ph (T-Kriterium \u003d 2,559; Anzahl der Freiheitsgrade \u003d 18)

Im Allgemeinen ist die Anzahl der Freiheiten \u003d N - K - 1, wobei n die Anzahl der Beobachtungen ist, und K ist die Anzahl der Prädiktorvariablen.

Diese Formel gibt einen Wert von 0,00987 oder abgerundet, 1% zurück. Es informiert uns das Folgende: Wenn der Regressionskoeffizient für die allgemeine Bevölkerung 0% beträgt, dann ist die Wahrscheinlichkeit, eine Probe von 20 Personen zu erhalten, für die der geschätzte Wert des Regressionskoeffizienten 2,092 beträgt, ein bescheidener 1%.

Das F-Kriterium (Zelle D5 in FIG. 9) führt die gleichen Funktionen in Bezug auf die vollständige Regression als das T-Kriterium in Bezug auf den Koeffizienten der einfachen Paarregression durch. Das F-Kriterium wird verwendet, um zu überprüfen, ob der R 2 -E-Bestimmungskoeffizient tatsächlich genug ist, um die Regression einen ausreichend großen Betrag aufweist, mit dem Sie die Hypothese verwerfen können, die in dem allgemeinen Set einen Wert von 0,0 aufweist, was das Fehlen einer Dispersion anzeigt vom Prädiktor und vorhergesagte Variable erläutert. Wenn es nur ein Predictor-Variablen-F-Kriterium gibt, das genau dem quadratischen T-Kriterium entspricht.

Bisher haben wir über Intervallvariablen gelten. Wenn Sie Variablen haben, die mehrere Werte annehmen können, die einfache Namen sind, beispielsweise einen Mann und eine Frau oder Reptilien, Amphibien und Fische, stellen Sie sich in Form eines numerischen Codes vor. Solche Variablen werden nominell bezeichnet.

Statistik R 2. gibt eine quantitative Bewertung des Anteils der erläuterten Dispersion.

Standardauswertungsfehler.In FIG. 4.9 Prepaid-variable Gewichtswerte, die auf der Grundlage seiner Verbindung mit einem variablen Wachstum erhalten werden. Im E2-Bereich: E21 enthält Werte von Überrestanten für variables Gewicht. Genauer gesagt, diese Rückstände rufen Fehler auf - von hier aus und folgen dem Begriff Standardauswertungsfehler.

Feige. 10. Sowohl R 2 als auch der Standardfehler der Schätzung drücken die Genauigkeit der durch Regression erhaltenen Projektionen aus.

Je kleiner der Standard-Schätzfehler ist, desto genauer die Regressionsgleichung und desto engerer Hindernis, was mit der Gleichung erhielt, mit der tatsächlichen Beobachtung, die Sie erwarten. Der Standardauswertungsfehler bietet ein Verfahren zur Quantifizierung dieser Erwartungen. Gewicht 95% der Menschen mit etwas Wachstum werden im Bereich liegen:

(Höhe * 2.092 - 3.591) ± 2,092 * 21.118

F-statistik- Dies ist die Beziehung der Intergroup-Dispersion zur intragroupen Dispersion. Dieser Name wurde von Statistiken von George Snedel zu Ehren von Sir eingeführt, die zu Beginn des 20. Jahrhunderts eine Dispergieranalyse entwickelt hatte (Analyse der Varianz).

Der Bestimmungskoeffizient R 2 drückt den Anteil der Gesamtsumme der mit der Regression verbundenen Quadrate aus. Der Wert (1 - R 2) drückt den Anteil der Gesamtquadrate aus, die den mit den Bilanzen - Prognosefehlern zugeordnet sind. Das F-Kriterium kann unter Verwendung einer linearen Funktion (Zelle F5 in Fig. 11) mit den Summen der Quadrate (Bereich G10: J11) unter Verwendung einer Dispersionsfraktion (G14: J15-Bereich) erhalten werden. Formeln können in der beiliegenden Excel-Datei untersucht werden.

Feige. 11. Berechnung der F-Kriterien

Bei Verwendung von nominalen Variablen wird fiktive Codierung verwendet (Abb. 12). Um Werte zu kodieren, ist es praktisch, die Werte 0 und 1. Die Wahrscheinlichkeit F wird mit der Funktion berechnet:

F.Resp.ph (K2; I2; I3)

Hier gibt die Funktion f.resp.ph () die Wahrscheinlichkeit zurück, ein F-Kriterium zu erhalten, das die zentrale F-Distribution (Abb. 13) für zwei Datensätze mit den Mengen an Freiheitsgrade, gegeben, in Zellen I2 und I3 gegeben Der Wert, der mit dem in C2-Zellen angegebenen Wert übereinstimmt.

Feige. 12. Regressionsanalyse mit fiktiven Variablen

Feige. 13. Zentrale F-Distribution bei λ \u003d 0

Kapitel 5. Mehrere Regression

Wenden Sie sich von einer einfachen Pair-Regression mit einer Predictor-Variablen auf mehrere Regression, Sie fügen eine oder mehrere Prädiktorvariablen hinzu. Halten Sie die Werte von Prädiktorvariablen in benachbarten Säulen, beispielsweise in den Säulen A und B bei zwei Prädiktoren oder A, B und C bei drei Prädiktoren. Bevor Sie eine Formel eingeben, die die lineare () -Funktion enthält, wählen Sie fünf Zeilen und so viele Spalten, wie Predictor-Variablen, plus für die Konstante vorhanden. Im Falle der Regression mit zwei Prädiktorvariablen können Sie die folgende Struktur verwenden:

Linen (A2: A41; B2: C41 ;; Wahrheit)

In ähnlicher Weise, bei drei Variablen:

Linen (A2: A61; B2: D61;; Wahrheit)

Angenommen, Sie möchten die mögliche Auswirkung von Alter und Ernährung auf die Aufrechterhaltung der Lipoproteine \u200b\u200bmit niedriger Dichte untersuchen, die als Verantwortung für die Bildung atherosklerotischer Plaques angesehen werden, die eine Atherotrombarkeit verursachen (Abb. 14).

Feige. vierzehn. Mehrere Regression.

R 2 Mehrere Regression (in der F13-Zelle reflektiert), mehr als R 2 einer einfachen Regression (E4, H4). In der Mehrfachregression werden gleichzeitig mehrere Prädiktorvariablen verwendet. In diesem Fall erhöht sich R 2 fast immer.

Für jeden einfachen lineargleichung Die Regression mit einer Prädiktorvariablen zwischen den projizierten Werten und den Werten der Prädiktorvariablen ist immer die ideale Korrelation, da in dieser Gleichung der Wert des Prädiktors mit einer Konstante multipliziert wird und jeder Arbeitskonstante zugesetzt wird. Dieser Effekt ist in mehrfacher Regression nicht erhalten.

Zeigt die von der linearen () -Funktion zurückgegebenen Ergebnisse für mehrere Regression (Abb. 15) an. Regressionskoeffizienten werden als Teil der von der Funktion von Linien () zurückgegebenen Ergebnissen abgeleitet. in der Reihenfolge des umgekehrten Standorts von Variablen (G-H - I entspricht C-A).

Feige. 15. Die Koeffizienten und ihre Standardfehler werden in angezeigt umgekehrte Reihenfolge ihr Folgende auf dem Arbeitsblatt

Prinzipien und Verfahren, die in der Regressionsanalyse mit einer Prädiktorvariablen verwendet werden, können problemlos an mehrere Prädiktorvariablen berücksichtigt werden. Es stellt sich heraus, dass in dieser Anpassung viel von der Beseitigung der Auswirkung der Prädiktorvariablen aneinander abhängt. Letzteres ist mit den privaten und Halbparteiskorrelationen verbunden (Abb. 16).

Feige. 16. Mehrere Regression kann durch die gepaarte Regression von Rückständen ausgedrückt werden (Formulare, siehe Excel-Datei)

In Excel gibt es Funktionen, die Informationen zu T- und F-Distributionen bereitstellen. Funktionen, deren Namen einen Teil des Empfangs enthalten, z. B. student.rasp () und f.rasp (), nehmen ein T-oder f-Kriterium als Argument ein und senden die Wahrscheinlichkeit, den angegebenen Wert zu beobachten. Funktionen, deren Namen einen Teil des OrP enthalten, z. B. Student. Produktion () und F. produzieren (), nutzen den Wahrscheinlichkeitswert als Argument und geben den Wert des Kriteriums zurück, das der angegebenen Wahrscheinlichkeit entspricht.

Da wir nach kritischen T-Distributionswerten suchen, die die Ränder seiner Schwanzbereiche schneiden, übertragen wir 5% als Argument eines der Funktionen des Schülers. Produktion (), das den Wert dieser Wahrscheinlichkeit entspricht (FIG. . 17, 18).

Feige. 17. Bilateraler T-Test

Feige. 18. Einseitiger T-Test

Durch die Festlegung der Entscheidungsfindung im Falle einer einstündigen Alpha-Region erhöhen Sie die statistische Leistung des Tests. Wenn Sie ein Experiment starten, sind Sie sicher, dass Sie jeden Grund haben, einen positiven (oder negativen) Regressionskoeffizienten zu erwarten, dann sollten Sie einen einzelstündigen Test durchführen. In diesem Fall die Wahrscheinlichkeit, was Sie nehmen richtige LösungAblehnen der Hypothese des Null-Regressionskoeffizienten in der allgemeinen Bevölkerung wird höher sein.

Statistiken bevorzugen den Begriff richttest Anstelle von term. einzeltest. und Begriff nichtrichtungstest Anstelle von term. zwei beschäftigter Test. Die ausgerichteten und freigestellten Bedingungen sind bevorzugt, da sie sich auf die Art der Hypothese konzentrieren, und nicht auf der Art der Verteilungsschwänze.

Annäherung an die Bewertung der Auswirkungen von Prädiktoren basierend auf dem Vergleich der Modelle.In FIG. 19 zeigt die Ergebnisse der Regressionsanalyse, in der der Beitrag der variablen Diät zur Regressionsgleichung getestet wird.

Feige. 19. Vergleich von zwei Modellen durch Überprüfen der Unterschiede in den Ergebnissen

Die Ergebnisse der linearen () -Funktion (Reichweite H2: K6) beziehen sich auf das, was ich das vollständige Modell nenne, in dem die Regression der LDL-Variablen an einer variablen Diät, Alter und HDL durchgeführt wird. Im Bereich von H9: J1z präsentiert Berechnungen, ohne die Diät der Prädiktorvariablen zu berücksichtigen. Ich nenne es ein begrenztes Modell. In einem vollständigen Modell wird 49,2% Dispersion der abhängigen Variablen LDL von Prädiktorvariablen erläutert. In einem begrenzten Modell werden nur 30,8% des LDL vom variablen Alter und HDL erläutert. Der Verlust R 2 ist aufgrund der Ausnahme der variablen Diät aus dem Modell 0,183. In dem Reichweiten von G15: L17 werden Berechnungen getroffen, die zeigen, dass nur mit einer Wahrscheinlichkeit von 0,0288 die Wirkung einer variablen Ernährung zufällig ist. In der restlichen 97,1%-Diät wirkt sich die LDL aus.

Kapitel 6. Annahmen und Vorsicht zur Regressionsanalyse

Der Begriff "Annahme" ist nicht ausreichend streng definiert, und der Weg zur Verwendung bedeutet, dass, wenn die Annahme nicht respektiert wird, die Ergebnisse der gesamten Analyse zumindest fragwürdig oder möglicherweise keine Kräfte haben. Tatsächlich ist dies nicht der Fall, obwohl es natürlich Fälle gibt, wenn die Erkrankung der Annahme in der Wurzel das Bild ändert. Hauptannahmen: a) Die Überreste der Variablen Y sind normalerweise an einem beliebigen Punkt X entlang der Regressionslinie verteilt; b) Die Werte von Y sind in linearen Abhängigkeit von X-Werten; c) Dispersion von Rückständen ist an jedem Punkt x ungefähr gleich; d) Es gibt keine Abhängigkeit zwischen den Überresten.

Wenn Annahmen keine wichtige Rolle spielen, sprechen die Statistiken über die Robustheit der Analyse in Bezug auf Behinderungen. Wenn Sie insbesondere Regression verwenden, um die Unterschiede zwischen den Konzerndurchschnittswerten zu testen, wird die Annahme, dass die Werte von Y - und daher übrig bleiben, normalerweise nicht verteilt werden, keine wichtige Rolle: Die Tests werden in Bezug auf den Fehlern der Normalität robust. Es ist wichtig, Daten mit Diagrammen zu analysieren. Zum Beispiel im Aufbau enthalten Datenanalyse Werkzeug Regression..

Wenn die Daten nicht den Annahmen der linearen Regression entsprechen, gibt es andere Ansätze als linear. Einer von ihnen ist eine logistische Regression (Abb. 20). In der Nähe der oberen und unteren Grenzwerte der Prädiktorvariablen führt die lineare Regression zu unrealistischen Prognosen.

Feige. 20. Logistische Regression.

In FIG. 6.8 Anzeigen der Ergebnisse von zwei Methoden zur Analyse von Daten, die auf das Studium der Verbindung zwischen dem Jahreseinkommen und der Wahrscheinlichkeit des Kaufs eines Hauses abzielen. Natürlich wird die Wahrscheinlichkeit, einen Kauf zu erzielen, mit zunehmendem Einkommen steigen. Diagramme vereinfachen die Ermittlung von Unterschieden zwischen den Ergebnissen, die die Wahrscheinlichkeit des Kaufs eines Hauses durch lineare Regression vorausgibt, und die Ergebnisse, die Sie möglicherweise mit einem anderen Ansatz verwenden.

In der Sprache der Statistiker wird die Verleihung der Nullhypothese, wenn es in der Realität wahr ist, der Fehler der i-Art genannt wird.

Im Aufbau. Datenanalyse Ein praktisches Werkzeug zur Generierung wird angeboten zufällige ZahlenBereitstellen des Benutzers mit der Möglichkeit, das gewünschte Verteilungsformular (z. B. Normal, Binomial oder Poisson) sowie den Durchschnittswert und die Standardabweichung festzulegen.

Unterschiede zwischen den Funktionen der Student.Sp () -Familie.Start von Excel 2010 verfügbar drei verschiedene Formen Funktionen, die zur Verteilung der linken und / oder rechts des angegebenen T-Kriteriumwerts zurückkehren. Studentenfunktion RASP () gibt den Anteil des Bereichs unter der Verteilungskurve links von dem angegebenen T-Kriterium zurück, das Sie angegeben haben. Angenommen, Sie haben 36 Beobachtungen, und daher ist die Anzahl der Freiheitsgrade zur Analyse gleich 34 und dem Wert des T-Kriteriums \u003d 1,69. In diesem Fall die Formel

Student.rasp (+1.69; 34; Wahrheit)

gibt einen Wert von 0,05 oder 5% (Abb. 21) zurück. Das dritte Argument der Funktion von student.rasp () kann die Bedeutung von Wahrheit oder FALSE haben. Wenn es gleich der Wahrheit ist, gibt die Funktion den kumulativen Bereich unter der Kurve links neben einem bestimmten T-Kriterium zurück, der in Form einer Anteil ausgedrückt wird. Wenn es gleich einer Lüge ist, gibt die Funktion die relative Höhe der Kurve an dem Punkt, der dem T-Kriterium entspricht, zurück. Andere Versionen der Student.rasp () Funktion - Student.rasp. Px () und student.rasp 2x () - Nehmen Sie als Argumente nur den Wert des T-Kriteriums und die Anzahl der Freiheitsgrade auf und benötigen nicht die Aufgabe von das dritte Argument.

Feige. 21. Der dunklere schattige Bereich im linken Schwanz der Verteilung entspricht dem Anteil des Bereichs unter der Kurve links vom großen positiven Wert des T-Kriteriums

Verwenden Sie eine der Formeln nach rechts vom T-Kriterium, um den Bereich nach rechts des T-Kriteriums zu ermitteln:

1 - schattent.rasp (1, 69; 34; Wahrheit)

Student.rasp.ph (1.69; 34)

Der gesamte Bereich unter der Kurve sollte 100% betragen, subtrahieren Sie also von einem Anteil des Gebiets auf der linken Seite des T-Kriteriumswerts, der die Funktion zurückgibt, ergibt den Anteil des Bereichs, der sich rechts vom T-Kriterium befindet Wert. Möglicherweise erscheinen Sie mehr bevorzugte Option des direkten Anteils des Interesses, der Sie mit der Funktion student.ph () interessiert, wo es der rechte Schwanz der Verteilung ist (Abb. 22).

Feige. 22. 5% Alpha-Bereich für Richttest

Verwenden der Funktionen von Student.rasp () oder student.rasp. Px () impliziert, dass Sie eine gerichtete Arbeitshypothese gewählt haben. Die Richtungshypothese in Kombination mit der Installation des Alpha-Werts auf dem Niveau von 5% bedeutet, dass Sie alle 5% im rechten Verteilerschwanz einsetzen. Sie müssen die Nullhypothese nur ablehnen, wenn die Wahrscheinlichkeit des Wertes des empfangenen T-Kriteriums 5% und weniger beträgt. Richtungshypothesen führen in der Regel zu empfindlichen statistischen Tests (diese größere Empfindlichkeit wird auch als stärker statistische Leistung bezeichnet).

Mit einem unendlichen Test bleibt der Alpha-Wert auf dem gleichen Niveau von 5%, der Verteiler wird jedoch anders sein. Da Sie zwei Ergebnis ermöglichen müssen, muss die Wahrscheinlichkeit eines falschen positiven Ergebnisses zwischen zwei Verteilungsschwänzen verteilt werden. Es wird allgemein angenommen, diese Wahrscheinlichkeit gleichermaßen zu verteilen (Abb. 23).

Verwenden Sie den gleichen erhaltenen Wert des T-Kriteriums und der gleichen Anzahl von Freiheitsgraden, wie im vorherigen Beispiel die Formel

Student.rasp 2x (1.69; 34)

Ohne besondere Gründe gibt die Funktion Student.SPS () die Fehlercode-Nummer an, wenn er einen negativen T-Kriterium-Wert als das erste Argument bietet.

Wenn die Proben eine andere Datenanzahl enthalten, verwenden Sie einen zweigrabenden T-Test mit verschiedenen in der Packung enthaltenen Dispersionen Datenanalyse.

Kapitel 7. Verwenden der Regression zur Prüfung von Unterschieden zwischen den Konzerndurchschnitt

Variablen, die zuvor unter dem Namen der vorhergesagten Variablen erschienen sind, werden in diesem Kapitel in diesem Kapitel effiziente Variablen bezeichnet, und anstelle der Begriffsdisportorvariablen werden die Begriffsvariablen verwendet.

Die einfachste der Ansätze zur Kodierung der Nennvariablen ist fiktive Codierung (Abb. 24).

Feige. 24. Regressionsanalyse basierend auf fiktiver Codierung

Bei der Verwendung der fiktiven Kodierung jeglicher Art sollten die Regeln befolgt werden:

  • Die Anzahl der für neuen Daten reservierten Spalten sollte der Anzahl der Faktorstufen minus entsprechen
  • Jeder Vektor repräsentiert eine Faktorebene.
  • Probanden eines der Ebenen, die oft die Kontrollgruppe erhalten, erhalten Code 0 in allen Vektoren.

Formel in Zellen F2: H6 \u003d Linen (A2: A22; C2: D22; Wahrheit) Gibt die Regressionsstatistik zurück. Zum Vergleich in FIG. 24 Anzeigen der Ergebnisse der vom Werkzeug zurückgegebenen traditionellen Dispersionsanalyse Single-Factor-Dispersionsanalyse Überbau Datenanalyse.

Kodierungseffekte.In einer anderen Art von Codierung genannt effekte kodieren Der Durchschnitt jeder Gruppe wird mit dem durchschnittlichen Konzerndurchschnitt verglichen. Dieser Aspekt von Codierungseffekten ist auf die Verwendung des Werts -1 anstelle von 0 als Code für eine Gruppe zurückzuführen, die den gleichen Code in allen Codevektoren empfängt (Abb. 25).

Feige. 25. Effektcodierung.

Wenn fiktive Codierung verwendet wird, fällt der Wert der von der linearen () () zurückgegebenen Konstante mit der durchschnittlichen Gruppe zusammen, die Nullcodes in allen Vektoren (normalerweise der Steuergruppe) zugewiesen sind. Bei der Kodierung der Auswirkungen der Konstante entspricht der Konstante dem allgemeinen Durchschnitt (Zelle J2).

Das gesamte lineare Modell ist eine nützliche Möglichkeit, die Komponenten des Werts der resultierenden Variablen zu konzipieren:

Y ij \u003d μ + α j + ε ij

Die Verwendung von griechischen Buchstaben in dieser Formel anstelle von Latin betont die Tatsache, dass sie der allgemeinen Bevölkerung gehört, von der sich Proben extrahiert befinden, aber es kann in der Form umgeschrieben werden, die darauf hinweist, dass sie sich auf die von der veröffentlichten allgemeinen Bevölkerung erholten Proben bezieht:

Y ij \u003d y̅ + a j + e ij

Die Idee ist, dass jede Beobachtung y ij als die Summe der folgenden drei Komponenten betrachtet werden kann: Generaldurchschnitt, μ; Effekt der Bearbeitung von J und J; Der Wert von E Ij, der die Abweichung des einzelnen quantitativen Indikators y ij aus dem kombinierten Wert des Gesamtdurchschnitts darstellt und effekt j-th Verarbeitung (Abb. 26). Der Zweck der Regressionsgleichung besteht darin, die Summe der Quadrate der Rückstände zu minimieren.

Feige. 26. Beobachtungen, die auf den Komponenten des allgemeinen linearen Modells angeordnet sind

Faktorenanalyse.Wenn die Beziehung zwischen der effektiven Variablen und gleichzeitig zwei oder mehr Faktoren untersucht wird, sprechen sie in diesem Fall in diesem Fall über die Verwendung der Faktoranalyse. Das Hinzufügen eines oder mehrerer Faktoren in die Einfaktor-Dispersionsanalyse kann die statistische Leistung erhöhen. In der Ein-Faktor-Dispersionsanalyse ist die Variation einer effizienten Variablen, die nicht auf den Faktor zurückzuführen ist, in dem Restschnittsquadrat enthalten. Es kann jedoch sein, dass diese Variation mit einem anderen Faktor gestrickt wird. Diese Variation kann dann aus dem mittleren Quadratfehler entfernt werden, wobei die Abnahme zu einer Erhöhung der Werte des F-Kriteriums und damit zu einer Erhöhung der statistischen Leistung des Tests führt. Überbau Datenanalyse Enthält ein Werkzeug, das die Verarbeitung von zwei Faktoren gleichzeitig zur Verfügung stellt (Abb. 27).

Feige. 27. Werkzeug Zwei-Faktor-Dispersionsanalyse mit Wiederholungen des Analysepakets

Das in dieser Figur verwendete Dispersionsanalysewerkzeug ist nützlich, da er den Durchschnitt und die Dispersion der effizienten Variablen sowie den Zählerwert für jede im Plan enthaltene Gruppe zurückgibt. Tabelle Dispersionsanalyse Es werden zwei Parameter angezeigt, die in den Ausgabeinformationen der Single-Factor-Version des Dispersionsanalyse-Tools fehlen. Achten Sie auf die Variationsquellen Stichprobe und Säulen in den Zeilen 27 und 28. Variationsquelle Säulen Bezieht sich auf den Boden. Quellvariation Stichprobe Bezieht sich auf eine beliebige Variable, deren Werte verschiedene Linien einnehmen. In FIG. 27 Die Werte für die Getreidegruppe befinden sich in den Zeilen 2-6, der Zerebralgruppengruppe - in den Leitungen 7-11 und der Gruppe von Hasser - in den Zeilen 12-16.

Der Hauptpunkt ist, dass beide Faktoren, der Boden (die Signatur der Säulen in der E28-Zelle) und der Behandlung (Probensignatur in der E27-Zelle) in der Tabellendispersionsanalyse als Variationsquellen enthalten sind. Mitte für Männer unterscheiden sich von Medium für Frauen, und dies schafft eine Variationsquelle. Der Durchschnitt für drei Arten der Behandlung ist auch unterschieden - jetzt haben Sie eine weitere Variationsquelle. Es gibt auch eine dritte Quelle - Interaktion, die sich auf die kombinierte Wirkung von Geschlechtsvariablen und -behandlung bezieht.

Kapitel 8. Kovarianzanalyse

Die Kovarianzanalyse oder Ancova (Analyse der Kovariation) verringert die Versätze und erhöht die statistische Leistung. Lassen Sie mich daran erinnern, dass eine der Möglichkeiten, die Zuverlässigkeit zu bewerten regressionsgleichung. sind F-Tests:

F \u003d MS Regression / MS Restual

wobei MS (mittlerer Quadrat) ein mittlerer Quadrat ist, und die Regressions- und Restindizes zeigen die Regressions- und Restkomponenten an. Die Berechnung von MS-Residual wird von der Formel ausgeführt:

Ms restual \u003d ss restlich / df restlich

wobei SS (Summe der Quadrate) die Summe der Quadrate ist, ist ein DF die Anzahl der Freiheitsgrade. Wenn Sie der Regressionsgleichung Kovarianz hinzufügen, ist ein Teil des Gesamtquadrats der Quadrate nicht in SS Residruai enthalten, sondern in SS-Regression. Dies führt zu einer Abnahme der SS Residua L und daher ms Restual. Je kleiner ms Rest, desto größer ist das F-Kriterium und das wahrscheinlichste, dass Sie die Nullhypothese ablehnen, um das Fehlen von Unterschieden zwischen dem Durchschnitt abzurufen. Infolgedessen werden die Variabilität der effektiven Variablen umverteilt. In Anova, als Kovarianz nicht berücksichtigt wird, geht die Variabilität in einen Fehler. In Ancova-Teil der Variabilität ist jedoch zuvor dem Fehler angenommen, einem Kovariaten zugewiesen und wird Teil der SS-Regression.

Betrachten Sie ein Beispiel, in dem derselbe Datensatz zuerst mit Anova analysiert wird, und dann mit Ancova (Abb. 28).

Feige. 28. Die Anova-Analyse zeigt an, dass die mit der Regressionsgleichung erzielten Ergebnisse unzuverlässig sind

Die Studie vergleicht die relativen Auswirkungen körperlicher Übungen, der Entwicklung von Muskelfestigkeit und kognitiven Übungen (Solo mit Kreuzworträtsel), der Aktivierung der Gehirnaktivität. Die Probanden wurden in zwei Gruppen zufällig verteilt, so dass sich beide Gruppen zu Beginn des Experiments in den gleichen Bedingungen befanden. Nach drei Monaten wurden die kognitiven Eigenschaften der Probanden gemessen. Die Ergebnisse dieser Messungen sind in Spalte V angegeben.

Im A2-Bereich: C21 werden die an den linearen () übertragenen Quelldaten zur Durchführung der Analyse unter Verwendung der Effektcodierung veröffentlicht. Die Ergebnisse der Funktion der linearen () sind in dem E2: F6-Bereich angegeben, wobei in der E2-Zelle den mit dem Schlagvektor verbundenen Regressionskoeffizienten anzeigt. Die E8-Zelle enthält ein T-Kriterium \u003d 0,93, und die Zuverlässigkeit dieses T-Kriteriums wird in der E9-Zelle getestet. Der in der E9-Zelle enthaltene Wert sagt, dass die Wahrscheinlichkeit, dass die Wahrscheinlichkeit, dass der Unterschied zwischen den in diesem Experiment beobachteten Konzerndurchschnitt 36% beträgt, wenn in der allgemeinen Bevölkerung die Konzerndurchschnitt gleich ist. Nur wenige erkennen dieses Ergebnis statistisch signifikant.

In FIG. 29 zeigt, was passiert, wenn Sie die Analyse von Covariatriken hinzufügen. In diesem Fall fügte ich das Alter jedes einzelnen Datensatzes hinzu. Der Bestimmungskoeffizient R 2 für die Regressionsgleichung, die Kovariatoren verwendet, beträgt 0,80 (Zelle F4). Der Wert von R 2 im Bereich F15: G19, in dem ich die Anova-Ergebnisse reproduzierte, die ohne die Verwendung von Kovariaten erhalten wurden, sind nur 0,05 (Zelle F17). Folglich prognostiziert die Regressionsgleichung, die kovariat umfasst, die Werte des variablen kognitiven Indikators viel genauer als die Verwendung von nur des Vektors. Bei Ancova beträgt die Wahrscheinlichkeit, dass der Wert des in der F5-Zelle angezeigten F-Kriteriums den Wert des F-Kriteriums ergibt, weniger als 0,01%.

Feige. 29. Ancova gibt ein völlig anderes Bild zurück.

Das MS Excel-Paket ermöglicht den Bau einer linearen Regressionsgleichung der meisten der Arbeit sehr schnell. Es ist wichtig zu verstehen, wie Sie die erzielten Ergebnisse interpretieren können. Um ein Regressionsmodell aufzubauen, müssen Sie Service \\ Data-Analyse \\ Regression auswählen (in Excel 2007 Dieser Modus befindet sich in der Daten- / Datenanalyseeinheit / Regression). Dann werden die Ergebnisse in die Analyseeinheit kopiert.

Ausgangsdaten:

Ergebnisse der Analyse.

In den Bericht einschließen
Berechnung der Parameter der Regressionsgleichung
Theoretisches Material
Regressionsgleichung als Standard
Mehrfacher Korrelationskoeffizient (mehrfacher Korrelationsindex)
Private Elastizitätskoeffizienten
Vergleichende Bewertung des Einflusses analysierter Faktoren für das resultierende Merkmal (D - die Koeffizienten der Trennbestimmung)

Überprüfen Sie die Qualität der konstruierten Regressionsgleichung
Bedeutung der Regressionskoeffizienten B (T-Statistiken. Schülerkriterium)
Die Bedeutung der Gleichung im Allgemeinen (F-Statistiken. Fischerkriterium). Bestimmtheitsmaß
Private F-Kriterien

Signifikanzniveau 0.005 0.01 0.025 0.05 0.1 0.25 0.4

Zeigt den Effekt einiger Werte (unabhängig, unabhängig) auf der abhängigen Variablen an. Wenn zum Beispiel die Anzahl der wirtschaftlich aktiven Bevölkerung auf der Anzahl der Unternehmen, die Werte von Löhnen usw. abhängt, hängt der Parameter ab. Oder: So beeinflussen man ausländische Investitionen, Energiepreise und andere. Auf der Ebene des BIP.

Das Ergebnis der Analyse ermöglicht es Ihnen, Prioritäten hervorzuheben. Und basierend auf den Hauptfaktoren prognostizieren Sie die Entwicklung von vorrangigen Bereichen, um Managemententscheidungen vorzunehmen.

Regression passiert:

· Linear (y \u003d a + bx);

· Parabolanlage (Y \u003d A + BX + CX 2);

· Exponential (y \u003d a * exp (bx));

· Leistung (y \u003d a * x ^ b);

· Hyperbolisch (y \u003d b / x + a);

· Logarithmisch (y \u003d b * 1n (x) + a);

· Anzeige (y \u003d a * b ^ x).

Betrachten Sie das Beispiel den Bau eines Regressionsmodells in Excel und der Interpretation der Ergebnisse. Nehmen Sie die lineare Art von Regression.

Eine Aufgabe. Bei 6 Unternehmen wurden das durchschnittliche monatliche Gehalt und die Anzahl der abosolierten Mitarbeiter analysiert. Es ist notwendig, die Abhängigkeit der Anzahl der absolvierten Mitarbeiter aus dem Durchschnittsgehalt zu ermitteln.

Das lineare Regressionsmodell hat das folgende Formular:

Y \u003d A 0 + A 1 x 1 + ... + A bis X bis.

Wo A die Regressionskoeffizienten, X-Beeinflussungsvariablen, zur Anzahl der Faktoren ist.

In unserem Beispiel, als ob der Indikator für diejenigen, die destillierte Arbeiter sind, sind. Beeinflussungsfaktor - Löhne (x).

Excel verfügt über integrierte Funktionen, mit denen Sie die Parameter des linearen Regressionsmodells berechnen können. Aber schneller wird es ein Add-In "Analysepaket" machen.

Aktivieren Sie ein leistungsfähiges analytisches Werkzeug:

1. Drücken Sie die "Office" -Taste und gehen Sie zur Registerkarte "Excel-Einstellungen". "Add-In".

2. An der Unterseite befindet sich unter der Dropdown-Liste das Feld "Control" die Inschrift "Excel Add-In" (wenn es NEIN gibt, klicken Sie auf das Kontrollkästchen in der rechten Anordnung und wählen Sie). Und die "GO-Button". Klicken.

3. Die Liste der verfügbaren Superstructure-Angebote. Wählen Sie "Analysepaket" und klicken Sie auf OK.

Nach der Aktivierung steht das Add-In auf der Registerkarte Daten zur Verfügung.

Jetzt beschäftigen wir uns direkt mit der direkten Regressionsanalyse.

1. Öffnen Sie das Tool-Menü "Datenanalyse". Wir wählen "Regression".



2. Das Menü öffnet sich, um Eingabewerte und Ausgabeparameter auszuwählen (wo das Ergebnis anzeigen soll). In den Feldern für die Quelldaten geben wir den Bereich des beschriebenen Parameters (y) an und beeinflusst den Faktor (X). Der Rest kann nicht ausfüllen.

3. Nachdem Sie auf OK geklickt haben, zeigt das Programm die Berechnungen auf dem neuen Blatt an (Sie können das Intervall auswählen, das auf dem aktuellen Blatt angezeigt wird, oder ein neues Buch zuweisen).

Achten Sie zunächst auf den R-Quadrat und die Koeffizienten.

R-Quadrat - Bestimmungskoeffizient. In unserem Beispiel - 0,755 oder 75,5%. Dies bedeutet, dass die berechneten Parameter des Modells um 75,5% die Beziehung zwischen den untersuchten Parametern erklären. Je höher der Bestimmungskoeffizient, desto besser ist das Modell. Gut - über 0,8. Schlecht - weniger als 0,5 (eine solche Analyse kann kaum als vernünftig angesehen werden). In unserem Beispiel "nicht schlecht".

Der Koeffizient 64,1428 zeigt, wie y sein wird, wenn alle Variablen in dem unter Berücksichtigen Modell 0 sein werden. Das heißt, andere Faktoren, die nicht im Modell beschrieben werden, werden durch den Wert des analysierenden Parameters beeinflusst.

Der Koeffizient -0,16285 zeigt das Gewicht der Variablen x auf y. Das heißt, der durchschnittliche monatliche Lohn in diesem Modell beeinflusst den Betrag von -0,16285, der mit dem Gewicht zitiert wird (dies ist ein kleiner Einflussgrad). Das Zeichen "-" gibt einen negativen Effekt an: je mehr Gehalt, desto weniger abgeschafft. Was ist richtig.

Fortsetzung des Themas:
Os

Ich habe einen Web-Service, den ich überregte, den ich als "Link zum Service hinzufügen" registriert habe, für den HTTPS erforderlich ist, und Zertifikat. Unten ist mein Code zum Erstellen einer Instanz ...