Beispiele für Regressionslösungen in Excel. Bau der mehreren Regressionsgleichung in Excel

IM Aufheben Es gibt sogar eine schnellere und bequeme Möglichkeit, einen Zeitplan aufzubauen. lineare Regression (und sogar die Haupttypen der nichtlinearen Regressionen, als cm. Nächstes). Dies kann wie folgt durchgeführt werden:

1) Zuordnen von Spalten mit Daten X. und Y. (Sie sollten sich in dieser Reihenfolge befinden!);

2) Anruf Master-Chart und wählen Sie in einer Gruppe Eine ArtPagle Und sofort drücken Bereit;

3) Wenn Sie die Auswahl aus dem Diagramm aus dem Diagramm ablegen, wählen Sie den ersten Elementelement aus, das angezeigt wird Diagrammin dem Sie den Artikel auswählen sollten Trendlinie hinzufügen;

4) Im Dialogfeld, das Dialogfeld angezeigt wird Trendlinie Auf der Registerkarte Eine Artwählen Linear;

5) Auf der Registerkarte Parametersie können den Switch aktivieren Zeigen Sie die Gleichung auf dem DiagrammDies ermöglicht es, die lineare Regressionsgleichung (4.4) zu sehen, in der die Koeffizienten (4.5) berechnet werden.

6) In derselben Registerkarte können Sie den Schalter aktivieren Platzieren Sie den Wert der Genauigkeit der Annäherung (R ^ 2) im Diagramm (R ^ 2). Diese Größe ist das Quadrat des Korrelationskoeffizienten (4.3) und es zeigt, wie gut die berechnete Gleichung experimentelle Abhängigkeit beschreibt. Wenn ein R. 2 sind nahe an der Einheit, dann beschreibt die theoretische Regressionsgleichung eine gut experimentelle Abhängigkeit (die Theorie ist mit dem Experiment gut vereinbart) und wenn R. 2 in der Nähe von Null, dann diese Gleichung. Nicht geeignet für die Beschreibung experimenteller Abhängigkeiten (die Theorie ist nicht mit dem Experiment überein).

Infolge der Ausführung der beschriebenen Aktionen wird ein Diagramm mit Regressionszeitplan und seiner Gleichung erhalten.

§4.3. Haupttypen der nichtlinearen Regression

Parabol- und Polynomregression.

Parabolisch Die Abhängigkeit der Größe Y. von der Größenordnung H. Die Abhängigkeit wird als quadratische Funktion bezeichnet (2. Ordnung Parabola):

Diese Gleichung wird aufgerufen die Gleichung der parabolischen Regression y auf der H.. Parameter aber, b., von namens koeffizienten der parabolischen Regression. Die Berechnung der parabolischen Regressionskoeffizienten ist immer umständlich, daher wird empfohlen, einen Computer für Berechnungen zu verwenden.

Gleichung (4.8) der parabolischen Regression ist ein Sonderfall einer allgemeineren Regression, das als Polynom genannt wird. Polynom Die Abhängigkeit der Größe Y. von der Größenordnung H. wird als Abhängigkeit genannt, ausgedrückt durch Polynom n.Auftrag:

wo Zahlen ein I. (iCH.=0,1,…, n.) Namens koeffizienten der Polynomregression.

Stromregression.

Leistung Die Abhängigkeit der Größe Y. von der Größenordnung H. Die Abhängigkeit des Formulars wird aufgerufen:

Diese Gleichung wird aufgerufen gleichung der Stromregression y auf der H.. Parameter aber und b. namens koeffizienten der Stromregression.

ln \u003d ln. eIN.+b ·ln. x.. (4.11)

Diese Gleichung beschreibt die direkte in der Ebene mit den logarithmischen Koordinatenachsen von LN x. und ln. Daher ist das Kriterium für die Anwendbarkeit der Stromregression die Anforderung, dass die Punkte von Logarithmen der empirischen Daten ln x I. und ln. iCH. Sie waren der Linie am nächsten (4.11).

Indikative Regression.

Indikativ(oder exponentiell) Die Abhängigkeit der Größe Y. von der Größenordnung H. Die Abhängigkeit des Formulars wird aufgerufen:

(oder ). (4.12)

Diese Gleichung wird aufgerufen die Gleichung ist indikativ (oder exponentiell) regression Y. auf der H.. Parameter aber (oder k.) ICH. b. namens bekämpfungskoeffizienten (oder exponentiell) regression..

Wenn beide Teile der Stromregressionsgleichung prologiert werden, wird die Gleichung sein

ln \u003d. x ·ln. eIN.+ Ln. b. (oder ln \u003d k · X.+ Ln. b.). (4.13)

Diese Gleichung beschreibt die lineare Abhängigkeit des Logarithmus eines einzelnen LN-Werts von einem anderen Wert. x.. Daher ist das Kriterium für die Anwendbarkeit der Stromregression die Anforderung, dass die Punkte der empirischen Daten derselben Größes x I. Und die Logarithmen einer anderen LN-Größenordnung iCH. Sie waren direkterseitig (4.13) am nächsten.

Logarithmische Regression.

Logarithmischdie Abhängigkeit der Größe Y. von der Größenordnung H. Die Abhängigkeit des Formulars wird aufgerufen:

=eIN.+b ·ln. x.. (4.14)

Diese Gleichung wird aufgerufen die Gleichung der logarithmischen Regression y auf der H.. Parameter aber und b. namens koeffizienten logarithmischer Regression.

Hyperbolische Regression.

Hyperbolisch Die Abhängigkeit der Größe Y. von der Größenordnung H. Die Abhängigkeit des Formulars wird aufgerufen:

Diese Gleichung wird aufgerufen die Gleichung der hyperbolischen Regression y auf der H.. Parameter aber und b. namens die Koeffizienten der hyperbolischen Regression und werden durch das Verfahren kleinster Quadrate bestimmt. Die Verwendung dieser Methode führt zu Formeln:

In den Formeln (4.16-4.17) erfolgt die Summation durch Index iCH. von einem bis zur Anzahl der Beobachtungen n..

Leider in. Aufheben Es gibt keine Funktionen, die die Koeffizienten der hyperbolischen Regression berechnen. In Fällen, in denen nicht bekannt ist, dass die Messwerte mit inversen Proportionalität verbunden sind, wird er anstelle der hyperbolischen Regressionsgleichung empfohlen, um die Stromregressionsgleichung zu suchen, also in Aufheben Es gibt ein Verfahren für seinen Standort. Wenn eine hyperbolische Abhängigkeit zwischen den Messwerten angenommen wird, müssen seine Regressionskoeffizienten unter Verwendung der Hilfsberechnungstabellen und Summationsvorgänge gemäß den Formeln (4.16-4.17) berechnet werden.

Die Regressionslinie ist eine grafische Reflexion der Beziehung zwischen Phänomenen. Sehr deutlich kann eine Regressionslinie in Excel gebaut werden.

Dafür brauchen Sie:

1. Extrahieren Excel-Programm

2. Erstellen Sie Spalten mit Daten. In unserem Beispiel werden wir eine Regressionslinie oder Wechselbeziehungen zwischen Aggressivität und Unsicherheit in ihren Erstklässern aufbauen. Im Experiment haben 30 Kinder teilgenommen, die Daten werden in der speziellen Tabelle dargestellt:

1 Spalte - Testnummer

2 columid - aggressivität in ballaten

3 columid - schüchternheit in ballaten

3. Dann müssen Sie beide Säulen (ohne den Namen der Spalte) hervorheben, klicken Sie auf die Registerkarte einfügen , wählen pagle und aus den vorgeschlagenen Layouts, um das erste zu wählen Wählerisch mit markierern. .

4. Also haben wir ein Leerzeichen für die Regressionslinie - die sogenannten - streuungsdiagramm. Um in die Regressionszeile zu gelangen, müssen Sie auf die resultierende Zeichnung klicken, klicken Sie auf die Registerkarte konstrukteur, finden Sie auf dem Panel Layouts-Diagramme und wähle M. aberket9. Es ist immer noch darauf geschrieben F (x)

5. Und wir haben eine Regressionslinie. Die Grafik zeigt auch seine Gleichung und das Quadrat des Korrelationskoeffizienten an

6. Es gibt einen Diagrammnamen, den Namen der Achsen. Sie können auch die Legende entfernen, die Anzahl der horizontalen Mesh-Linien reduzieren (Registerkarte layout , dann gitter ). Hauptänderungen und Einstellungen werden auf der Registerkarte vorgenommen. Layout

Die Regressionslinie ist in MS Excel gebaut. Jetzt kann es dem Text der Arbeit hinzugefügt werden.

Regressionsanalyse B. Microsoft Excel. - Die meisten. vollhandbücher Verwenden von MS Excel, um Probleme der Regressionsanalyse auf dem Gebiet der Business Intelligence zu lösen. Konrad Carlberg erläutert erreichbar theoretische Fragen, Kenntnisse, auf deren Hilfe viele Fehler sowohl in der unabhängigen Regressionsanalyse als auch bei der Bewertung der Ergebnisse der von anderen Personen durchgeführt werden. Alles Material, aus einfachen Korrelationen und T-Tests bis hin zu mehreren Kovarianzanalysen, basierend auf echte Beispiele und begleitet detaillierte Beschreibung relevante schrittweise Prozeduren.

Das Buch diskutiert die miteinander verbundenen Funktionen und Widersprüche excel-Funktionen Um mit der Regression zu arbeiten, werden die Konsequenzen der Verwendung jeder ihrer Optionen und jedes Argument in Betracht gezogen und erklärt, wie zuverlässig Regressionsmethoden in verschiedenen Bereichen anwendbar sind, von der medizinischen Forschung bis zur Finanzanalyse.

Konrad Carlberg. Regressionsanalyse in Microsoft Excel. - M.: Dialektik, 2017. - 400 p.

Notiz im Format oder in Format herunterladen

Kapitel 1. Bewertung der Datenvariabilität

Zur Entsorgung von Statistiken gibt es viele Variationsindikatoren (Variabilität). Einer von ihnen ist die Summe der Quadrate der Abweichungen der einzelnen Werte aus dem Durchschnitt. In Excel wird die QuadroLC () -Funktion dafür verwendet. Aber die Dispersion wird häufiger verwendet. Dispersion ist die durchschnittlichen Abweichungenquadrate. Die Dispersion ist unempfindlich gegen die Anzahl der Werte im Testdatensatz (während die Summe der Summe der Abweichungen mit der Anzahl der Messungen wächst).

Das Excel-Programm bietet zwei Funktionen, die die Dispersion zurückgeben: Anzeige () und Anzeige ():

  • Verwenden Sie die Funktion des Displays (), wenn der zu verarbeitende Wert ein allgemeines Set formuliert. Diejenigen. Die im Bereich enthaltenen Werte sind die einzigen Werte, die Sie interessieren.
  • Verwenden Sie die Anzeigefunktion (), wenn der zu verarbeitende Wert eine Probe aus dem Satz von größerem Volume bildet. Es wird angenommen, dass es zusätzliche Werte gibt, deren Dispersion Sie auch bewerten können.

Wenn dieser Wert als der Durchschnittswert oder der Korrelationskoeffizient basierend auf der allgemeinen Bevölkerung berechnet wird, wird er als Parameter bezeichnet. Ein ähnlicher Wert, berechnet auf der Grundlage der Probe, wird Statistik genannt. Abweichungen zählen vom Durchschnitt In diesem Set erhalten Sie die Summe der Quadrate der Abweichungen eines kleineren Werts, als wenn sie von einem anderen Wert gezählt wurden. Eine ähnliche Behauptung gilt für die Dispersion.

Je mehr Abtastung, desto genauer der berechnete Statistikwert. Es gibt jedoch keine Probe mit einem Volumen von weniger als dem Volumen der allgemeinen Bevölkerung, in Bezug auf den Sie sicher sein könnten, dass der Wert der Statistik mit dem Wert des Parameters zusammenfällt.

Angenommen, Sie haben einen Satz von 100 Wachstumswerten, die sich vom Durchschnitt der allgemeinen Bevölkerung unterscheiden, egal wie klein dieser Unterschied ist. Nachdem Sie die Dispersion für die Probe berechnet haben, erhalten Sie etwas von seiner Bedeutung, sagen: 4. Dieser Wert ist kleiner als jeder andere, der erhalten werden kann, was erhalten werden kann, wodurch die Abweichung jedes der 100 Wachstumswerte relativ zu einem anderen Wert berechnet werden kann als der Durchschnitt der Probe in der Anzahl und einem relativ echten durchschnittlichen allgemeinen Aggregat. Daher ist die berechnete Dispersion unterschiedlich und in einer kleineren Seite von der Dispersion, die Sie bekommen würden, wenn Sie irgendwie gelernt und nicht selektiven Mittelwert haben, sondern der Parameter des allgemeinen Aggregats.

Die durchschnittliche Summe der für die Probe definierten Quadrate ergibt die geringere Schätzung der Dispersion der allgemeinen Bevölkerung. Die auf diese Weise berechnete Dispersion wird aufgerufen versetzt Bewertung. Es stellt sich heraus, den Offset auszuschließen und eine unerträgliche Beurteilung zu erhalten, es reicht aus, um die Summe der Abweichungen der Abweichungen zu teilen n.wo n. - Mustergröße und auf n - 1..

Wert n - 1.genannte Menge (Nummer) der Freiheitsgrade. Existieren verschiedene Methoden Die Berechnung dieses Werts, obwohl sie alle entweder einige Nummer von der Mustergröße subtrahieren oder die Anzahl der Kategorien zählen, in denen Beobachtungen fallen.

Die Essenz der Unterschiede zwischen den Funktionen des Displays () und der Anzeige () ist wie folgt:

  • In der Funktion des Displays () ist die Summe der Quadrate in die Anzahl der Beobachtungen unterteilt und stellt daher die vertriebene Auswertung der Dispersion dar, der wahre Durchschnitt.
  • In der Funktion des Displays () ist die Summe der Quadrate in die Anzahl der Beobachtungen von minus 1 unterteilt, d. H. Durch die Anzahl der Freiheitsgrade, die eine genauere, inhaftierende Beurteilung der Dispersion der allgemeinen Bevölkerung ergibt, von der diese Probe abgerufen wurde.

Standardabweichung (deu. standardabweichung., SD) - Es gibt eine quadratische Wurzel der Dispersion:

Der Bau von Abweichungen im Platz übersetzt die Messwaage auf eine andere Metrik, die das Quadrat des Originals: Meter - in Quadratmetern, Dollar in Quadratischen Dollar usw. Die Standardabweichung ist eine Quadratwurzel aus der Dispersion, und daher gibt es uns an die anfänglichen Maßeinheiten zurück. Bequemer.

Es ist häufig notwendig, die Standardabweichung zu berechnen, nachdem die Daten einigen Manipulationen unterzogen wurden. Und obwohl in diesen Fällen die Ergebnisse zweifellos Standardabweichungen sind, werden sie aufgerufen standardfehler. Es gibt mehrere Sorten von Standardfehlern, einschließlich eines Standardmessfehlers, eines Standard-Proportionalitätsfehlers, eines Standard-Durchschnittsfehlers.

Angenommen, Sie haben Daten zum Wachstum von 25 zufällig ausgewählten Erwachsenen in jedem der 50 Staaten gesammelt. Als Nächstes berechnen Sie das durchschnittliche Wachstum von Erwachsenen in jedem Staat. Die erhaltenen 50 mittleren Werte können wiederum als Beobachtungen betrachtet werden. Basierend darauf können Sie ihre Standardabweichung berechnen, was ist standard-mittlerer Fehler. Feige. 1. Ermöglicht das Vergleichen der Verteilung von 1250 Quell-Einzelwerten (Daten zum Wachstum von 25 Männern für jeden der 50 Staaten) mit der Verteilung von durchschnittlichen Sets von 50 Zuständen. Die Formel zur Schätzung des Standardfehlers des Durchschnitts (d. H. Die Standardabweichung der Durchschnittswerte und nicht einzelnen Beobachtungen):

wo ist der Standardfehler des Durchschnitts; s. - Standardabweichung der anfänglichen Beobachtungen; n. - Anzahl der Beobachtungen in der Probe.

Feige. 1. Die Variation von mittleren Werten aus dem Staat, um deutlich weniger Variation der einzelnen Beobachtungsergebnisse anzugeben

In der Statistik gibt es eine Vereinbarung über die Verwendung griechischer und lateinischer Briefe, um statistische Mengen zu bezeichnen. Griechische Briefe werden gemacht, um die Parameter der allgemeinen Bevölkerung, lateinische selektive Statistiken zu benennen. Wenn wir von der Standardabweichung der allgemeinen Bevölkerung sprechen, schreiben wir es als σ; Wenn die Standardabweichung der Probe berücksichtigt wird, verwenden wir die Bezeichnung s. Wie für die Charaktere, um den Durchschnitt zu benennen, stimmen sie nicht so erfolgreich miteinander. Der Durchschnitt der allgemeinen Bevölkerung wird durch den griechischen Buchstaben μ angezeigt. Das X̅-Symbol wird jedoch traditionell verwendet, um das Mustermedium darzustellen.

z-Score. Drückt die Position der Beobachtung in der Verteilung in Einheiten der Standardabweichung aus. Zum Beispiel bedeutet Z \u003d 1,5, dass die Beobachtung von Durchschnitt um 1,5 Standardabweichungen zu großen Werten ist. Begriff z-Score. Wird für einzelne Schätzungen verwendet, d. H. Für Messungen, die einzelnen Elemente der Probe zugeschrieben werden. Für solche Statistiken (zum Beispiel der durchschnittliche Standard) verwenden Sie den Begriff z-Wert:

wenn X̅ der durchschnittliche Abtastwert ist, ist μ der Durchschnittswert des allgemeinen Sets, der Standardfehler des durchschnittlichen Probensatzes:

wobei σ der Standardfehler der allgemeinen Bevölkerung (individuelle Messungen) ist, n. - Mustergröße.

Angenommen, Sie arbeiten als Lehrer in einem Golfclub. Sie hatten lange Zeit, um die Sortiment an Schocks zu messen, und wissen, dass der Durchschnittswert 205 Meter beträgt, und die Standardabweichung beträgt 36 Meter. Sie wurden einem neuen Club angeboten und behauptet, dass es die Entfernung von 10 Metern erhöhen würde. Sie stellen jeden der folgenden 81 Club-Besucher, um einen Teststempel mit einem neuen Schlüssel auszuführen, und schreiben Sie den Trefferbereich auf. Es stellte sich heraus, dass der durchschnittliche Tropfbereich mit einem neuen Schlüssel 215 Meter beträgt. Was ist die Wahrscheinlichkeit, dass der Unterschied von 10 Meter (215 - 205) auf einen außergewöhnlich fehler der Probenahme zurückzuführen ist? Oder auf andere Weise: Was ist die Wahrscheinlichkeit, dass der neue Schlüssel mit einem größeren Test nicht einen Anstieg der Entfernung der Auswirkungen im Vergleich zum bestehenden langfristigen Durchschnitt von 205 Meter zeigt?

Wir können es überprüfen, indem wir den Z-Wert bildet. Standard-mittlerer Fehler:

Dann z-Wert:

Wir müssen die Wahrscheinlichkeit finden, dass der Durchschnitt der Probe von dem Durchschnitt für die allgemeine Bevölkerung um 2,5σ verteidigt wird. Wenn die Wahrscheinlichkeit klein ist, sind die Unterschiede auf den Unfall zurückzuführen, sondern die Qualität des neuen Stocks. In Excel gibt es keine fertige Funktion, um die Wahrscheinlichkeit Z-Wert zu bestimmen. Es ist jedoch möglich, eine Formel \u003d 1-Normen.st.sp. (Z-Wert; Wahrheit) zu verwenden, wobei die Funktion von NORMS.St.SP () den Bereich unter der normalen Kurve links von dem Z zurückgibt -Value (Abb. 2).

Feige. 2. Die Funktion von Normen.st. ASP () gibt den Bereich unter der Kurve links vom Z-Wert zurück; Zum Vergrößern klicken Sie darauf rechtsklick Maus und Select. Bild auf einer neuen Registerkarte öffnen

Das zweite Argument der Funktion von Normen.Spl. () Kann zwei Werte annehmen: Wahrheit - Die Funktion gibt den Bereich unter der Kurve links von dem von dem ersten Argument angegebenen Punkt zurück. FALS - Die Funktion kehrt die Höhe der Kurve an der Stelle des ersten Arguments zurück.

Wenn der Durchschnittswert (μ) und die Standardabweichung (σ) der allgemeinen Bevölkerung nicht bekannt ist, wird der T-Wert verwendet (siehe mehr Details). Die Struktur von Z- und T-Werten unterscheidet sich dadurch, dass die Standardabweichung S, die den T-Wert, die Standardabweichung s, die auf selektiven Ergebnissen erhalten wird, und der nicht bekannte Wert des Parameters der allgemeinen Bevölkerung σ ist benutzt. Die normale Kurve hat eine einzige Form, und die Form der Verteilung von T-Werten variiert in Abhängigkeit von der Anzahl der Grad der Freiheitsfreiheit von DF (aus dem Englischen. freiheitsgrade) Probe ist es darstellt. Die Anzahl der Freiheitsgrade der Probe ist gleich n - 1.wo n. - Mustergröße (Abb. 3).

Feige. 3. Die Form von T-Distributionen, die in Fällen ergeben, in denen der Parameter σ unbekannt ist, unterscheidet sich von der Form der normalen Verteilung

In Excel gibt es zwei Funktionen für die T-Distribution, die auch der Verteilung des Schülers genannt wird: student.rasp () gibt den Wert des Bereichs unter der Kurve links von dem angegebenen T-Wert zurück, und student.rasp. Px () - auf der rechten Seite.

Kapitel 2. Korrelation.

Die Korrelation ist ein Maß für die Beziehung zwischen den Elementen des Satzes von bestelltem Dampf. Die Korrelation ist charakterisiert pearson-Korrelationskoeffizienten- r. Der Koeffizient kann Werte im Bereich von -1,0 bis +1,0 annehmen.

wo S X. und S y. - Standardvariablenabweichungen H. und Y., S xy. - Kovarianz:

In dieser Formel ist die Kovarianz in Standardabweichungen von Variablen unterteilt H. und Y.Dadurch entfernen Sie die Skalierungseffekte, die mit Messeinheiten von Covaria verbunden sind. Excel verwendet eine Correla () -Funktion. Im Titel dieser Funktion gibt es keine Klärelemente von G und B, die in den Namen von Funktionen wie Standardklon (), Teller () oder Kovarianz () verwendet werden. Obwohl das Korrelationsverhältnis der von der verdrängten Bewertung bereitgestellten Probe, aber die Ursache der Verschiebung ist jedoch anders als bei Dispersion oder Standardabweichung.

Abhängig von der Größe des allgemeinen Korrelationskoeffizienten (oft durch den griechischen Buchstaben angegeben) ρ ), Korrelationskoeffizient r. Es ergibt eine verdrängte Bewertung, und der Verschiebungseffekt wird mit einer Abnahme der Probengröße verbessert. Trotzdem versuchen wir nicht, diese Verschiebung auf dieselbe Weise einzustellen, wie zum Beispiel bei der Berechnung der Standardabweichung, wenn nicht die Anzahl der Beobachtungen in die entsprechende Formel ersetzt wurde, sondern die Anzahl der Freiheitsgrade. Tatsächlich hat die Anzahl der zur Berechnung der Kovarianz verwendete Beobachtungen keinen Einfluss auf die Größe.

Der Standardkorrelationskoeffizient ist zur Verwendung mit mit einem linearen Verhältnis verbundenen Variablen bestimmt. Das Vorhandensein von Nichtlinearität und / oder / oder Fehlern in Daten (Emissionen) führt zu einer falschen Berechnung des Korrelationskoeffizienten. Zur Diagnose von Datenproblemen wird empfohlen, Punktdiagramme zu erstellen. Dies ist der einzige Typ der Diagramme in Excel, in denen die horizontale und die vertikalen Achsen als die Achse der Werte behandelt werden. Das lineare Diagramm eines der Spalten definiert, wie die Kategorieachse das Datenbild verzerrt (Abb. 4).

Feige. 4. Regressionslinien scheinen dasselbe, sondern vergleichen ihre Gleichungen unter sich

Beobachtungen, die zum Erstellen eines linearen Diagramms verwendet werden, befinden sich entlang der horizontalen Achse äquidistant. Die Inschriften von Divisionen entlang dieser Achse sind nur Inschriften und nicht numerische Werte.

Trotz der Tatsache, dass die Korrelation oft das Vorhandensein einer kausalen Beziehung bedeutet, kann er nicht als Beweismittel dienen, die es ist. Statistiken werden nicht verwendet, um zu zeigen, dass Theorie wahr oder falsch ist. Um konkurrierende Erklärungen zu Beobachtungsergebnissen zu beseitigen geplante Experimente.. Statistiken werden angezogen, um Informationen zusammenzufassen, die während solcher Experimente gesammelt wurden, sowie eine quantitative Bewertung der Wahrscheinlichkeit, dass die Entscheidung in der bestehenden Evidenzbasis falsch sein kann.

Kapitel 3. Einfache Regression

Wenn zwei Variablen miteinander verbunden sind, dh der Wert des Korrelationskoeffizienten übersteigt, wie 0,5, dann kann in diesem Fall einen unbekannten Wert einer Variablen für den bekannten Wert eines anderen vorhergesagt werden. Für vorhersagende Preiserwerte, basierend auf den in Fig. 1 gezeigten Daten. 5, Sie können jeden von mehreren verwenden mögliche MethodenAber fast sicher verwenden Sie denjenigen nicht, der in Fig. 1 dargestellt ist. 5. Und doch sollten Sie sich damit vertraut machen, da es uns keine andere Methode ermöglicht, die Beziehung zwischen der Korrelation und Prognose eindeutig demonstrieren, wie dieses. In FIG. 5 In der B2-Sortiment: C12 ist eine zufällige Probe von zehn Häusern und bietet Daten auf dem Bereich jedes Hauses (in Quadratfuß) und dem Verkaufspreis.

Feige. 5. Prognose Verkaufspreise bilden eine gerade Linie

Finden Sie die Durchschnittswerte, den Standardabweichungen und den Korrelationskoeffizienten (Bereich A14: C18). Berechnen Sie z-Schätzungen des Bereichs (E2: E12). Zum Beispiel enthält die EZ-Zelle eine Formel: \u003d (B3- $ auf 14 $) / $ bei 15 US-Dollar. Berechnen Sie z-Schätzungen des Prognosepreises (F2: F12). Zum Beispiel enthält die F3-Zelle eine Formel: \u003d YEZ * $ $ 18. Übersetzen Sie Z-Schätzungen in den Preisen in Dollar (H2: H22). In der NZ-Zellformel: \u003d F3 * $ C $ 15 + $ C $ 14.

Bitte beachten Sie: Der projizierte Wert versucht immer, sich in Richtung des Durchschnitts von 0 zu verschieben. Je näher auf Null des Korrelationskoeffizienten ist, desto null ist die projizierte Z-Schätzung. In unserem Beispiel beträgt der Korrelationskoeffizient zwischen dem Bereich und dem Verkaufspreis 0,67, und der Prognosepreis beträgt 1,0 * 0,67, d. H. 0,67. Dies entspricht dem Überschreitungswert über dem Durchschnittswert, der zwei Drittel der Standardabweichung entspricht. Wenn der Korrelationskoeffizient gleich 0,5 betrug, wäre der Prognosepreis 1,0 * 0,5, d. H. 0,5. Dies entspricht dem übermäßigen Wert über dem Durchschnittswert, der nur der Hälfte der Standardabweichung entspricht. Immer wenn der Korrelationskoeffizientenwert von der perfekten, d. H. More -1.0 und weniger als 1.0 sollte die Schätzung der projizierten Variablen näher an seinem Durchschnittswert sein als die Schätzung der Predictor-Variablen (unabhängige) Variable. Dieses Phänomen heißt mittlere Regression oder einfacher Regression.

Excel hat mehrere Funktionen, um die Koeffizienten der Regressionsleitungsgleichung zu bestimmen (in Excel heißt eine Trendlinie) y \u003d.kx. + b.. Zum bestimmen. k. Serviert Funktion.

\u003d Neigung (CEST_NAME_U; CEST_STATIONS_X)

Hier w. - vorhergesagte Variable und h. - Unabhängige Variable. Sie müssen dieser Reihenfolge der Variablen strikt folgen. Die Steigung der Regressionslinie, Korrelationskoeffizient, Standardvariablen und Kovarianzabweichungen sind eng miteinander verbunden (Abb. 6). Die Funktion Segment () gibt einen Wert zurück, der die Regressionslinie auf der vertikalen Achse schneidet:

\u003d Segment (commé_stations_u; commic_stations_x)

Feige. 6. Das Verhältnis zwischen Standardabweichungen wandelt die Kovarianz in den Korrelationskoeffizienten und den Hang der Regressionslinie um

Bitte beachten Sie, dass die Anzahl der X- und Y-Werte, die von der Slope () -Funktion und des Segments (), als Argumente, die gleich sind, dasselbe sein sollten.

In der Regressionsanalyse wird ein weiterer wichtiger Indikator verwendet - R 2 (R-Quadrat) oder der Bestimmungskoeffizient. Es bestimmt, welchen Beitrag zur Gesamtdatenvariabilität von der Abhängigkeit eingeführt wird h. und w.. In Excel gibt es eine Funktion (), die genau die gleichen Argumente wie die CORRELA () -Funktion anzieht.

Auf zwei Variablen mit einem nicht-Null-Korrelationskoeffizienten zwischen ihnen sagen sie, dass sie die Dispersion erklären oder eine erläuterte Dispersion haben. Normalerweise wird die Erläuterung der Dispersion als Prozentsatz ausgedrückt. So R. 2 \u003d 0,81 bedeutet, dass 81% der Dispersion (Scatter) von zwei Variablen erläutert wird. Die restlichen 19% sind auf zufällige Schwankungen zurückzuführen.

Excel hat eine Tendenzfunktion, die Berechnungen vereinfacht. Funktion Trend ():

  • akzeptiert die bekannten Werte h. und bekannte Werte. w.;
  • berechnet die Steigung der Regressionslinie und der Konstante (Segment);
  • gibt Prognosewerte zurück w.definiert auf der Grundlage der Anwenden der Regressionsgleichung an bekannte Werte h. (Abb. 7).

Die Tendenz-Funktion () ist die Funktion des Arrays (wenn Sie zuvor keine solchen Funktionen angetroffen haben, empfehle ich).

Feige. 7. Mit der Trendfunktion () können Sie die Berechnungen im Vergleich zur Verwendung eines Paares Neigungsfunktionen () und ein Segment () beschleunigen

Um die Tendenz-Funktion in der Formel des Arrays in der Zelle in der Zelle G3: G12 einzugeben, wählen Sie den Bereich G3: G12, geben Sie die Trendformel ein (SZ: C12; VZ: B12), drücken Sie die Tasten und halten Sie die Tasten gedrückt Und nur dann drücken Sie die Taste . Bitte beachten Sie, dass die Formel in lockigen Klammern eingeschlossen ist: (und). So informiert Sie Excel Ihnen, dass diese Formel genau als Array-Formel wahrgenommen wird. Geben Sie die Klammern nicht selbst ein: Wenn Sie versuchen, sich selbst als Teil der Formel einzugeben, wird Excel Ihren Eingang als regulärer Textzeichenfolge wahrgenommen.

Die Funktion hat eine Tendenz () Es gibt zwei weitere Argumente: new_name_x.und angelegenheit. Der Erste ermöglicht es Ihnen, eine Prognose für die Zukunft aufzubauen, und der zweite kann die Regressionslinie zwingen, den Ursprung der Koordinate zu durchlaufen (der Wert der Wahrheit sagt Excel, um die berechnete Konstante zu verwenden, der Wert ist eine Lüge - konstant \u003d 0). Mit Excel können Sie eine Regression direkt in das Diagramm ziehen, damit er den Ursprung der Koordinaten durchläuft. Beginnen Sie mit dem Aufbau eines Punktdiagramms, klicken Sie mit der rechten Maustaste auf eine der Data-Serie-Marker. Wählen Sie in der Öffnung kontextmenü Absatz Trendlinie hinzufügen; Wähle eine Option Linear; Wenn nötig, scrollen Sie das Panel nach unten, überprüfen Sie das Kontrollkästchen. Kreuzung einrichten; Stellen Sie sicher, dass das Textfeld auf 0,0 im zugehörigen Textfeld eingestellt ist.

Wenn Sie drei Variablen haben, und Sie möchten die Korrelation zwischen zwei ermitteln und den Einfluss des Dritten entfernen, können Sie verwenden private Korrelation. Angenommen, Sie interessieren sich für das Verhältnis zwischen dem Prozentsatz der Bewohner der Stadt, die College und die Anzahl der Bücher in städtischen Bibliotheken absolviert. Sie haben Daten an 50 Städten gesammelt, aber das Problem ist, dass beide Parameter von dem Wohlergehen der Bewohner einer oder einer anderen Stadt abhängen können. Natürlich ist es sehr schwierig, andere 50 Städte zu wählen, gekennzeichnet durch das gleiche Grad des Wohlstands von Bewohnern.

Die Anwendung statistischer Methoden zur Beseitigung des Einflusss des Wohlfahrtsfaktors auf der finanziellen Unterstützung für Bibliotheken und die Verfügbarkeit von College-Training. Sie könnten eine genauere quantitative Bewertung des Abschlusses zwischen den von Ihnen interessierten Variablen erhalten, nämlich: die Anzahl der Bücher und die Anzahl der Absolventen. Eine solche bedingte Korrelation zwischen zwei Variablen, wenn die Werte anderer Variablen fixiert sind, und wird als private Korrelation bezeichnet. Eine der Methoden seiner Berechnung ist die Verwendung der Gleichung:

Wo r. Cb. . W. - der Korrelationskoeffizient zwischen College-Variablen (College) und Büchern (Bücher) mit der beseitigten Wirkung (Festwert) des variablen Wohlstands (Reichtum); r. Cb. - Korrelationskoeffizient zwischen College- und Buchvariablen; r. Federnd - Korrelationskoeffizient zwischen College-Variablen und Wohlstand; r. Bzw. - Korrelationskoeffizient zwischen Variablen von Büchern und Wohlbefinden.

Andererseits kann die private Korrelation basierend auf der Analyse von Rückständen berechnet werden, d. H. Die Unterschiede zwischen den projizierten Werten und den damit verbundenen Ergebnissen der tatsächlichen Beobachtungen (beide Verfahren werden in Fig. 8) dargestellt. 8).

Feige. 8. Private Korrelation als Korrelation von Rückständen

Verwenden Sie die Berechnung der Korrelationskoeffizientenmatrix (B16: E19), verwenden Sie das Excel-Analysepaket (Menü) Daten –> Analyse –> Datenanalyse). Standardmäßig ist dieses Paket in Excel nicht aktiv. Um es zu installieren, gehen Sie durch das Menü Datei –> Parameter –> Überbau. Geöffnete Fenster im Erdgeschoss. ParameterAufheben Das Feld finden Steuerung, Wählen ÜberbauAufhebenKlicken Gehen. Überprüfen Sie den Häkchen gegenüber dem Überbau Analysepaket.. Klicken Sie auf A. naliza data.Wählen Sie die Option aus Korrelation. Geben Sie als Eintrittsintervall $ B $ 2: $ D $ 13 an, überprüfen Sie das Kontrollkästchen Tags in der ersten Zeichenfolge, Wie das Ausgabeintervall, angeben Sie $ B $ 16: $ E $ 19.

Eine andere Gelegenheit ist, die Halbpartei-Korrelation zu bestimmen. Zum Beispiel erkunden Sie die Auswirkungen des Wachstums und des Gewichts. So haben Sie zwei Prädiktorvariablen - Wachstum und Alter und eine vorhergesagte variable - Gewicht. Sie möchten den Einfluss einer Predictor-Variablen mit einem anderen beseitigen, jedoch nicht für die projizierte Variable:

wobei n Höhe (Höhe), W- Gewicht (Gewicht) und - Alter (Alter) ist; Im Index des Sektorkorrelationskoeffizienten werden runde Klammern verwendet, mit denen er angedeutet ist, deren Effekt davon ausgeschlossen wird, aus welcher Variablen variabel ist. In diesem Fall zeigt die Bezeichnung W (n.a) an, dass der Effekt des variablen Alters von der Wachstumsvariablen entfernt wird, jedoch nicht aus variabler Gewicht.

Es kann den Eindruck suchen, dass die Frage nicht wesentlich signifikant war. Das Wichtigste ist doch das Wichtigste, wie genau die allgemeine Regressionsgleichung genau arbeitet, während das Problem der relativen Beiträge einzelner Variablen der gesamten erläuterten Dispersion sekundär erscheint. Dies ist jedoch nicht der Fall. Sobald Sie anfangen, darüber nachzudenken, ob es sich lohnt, eine Variable in der mehreren Regressionsgleichung zu verwenden, wird das Problem wichtig. Es kann die Beurteilung der Richtigkeit der Wahl des Modells für die Analyse beeinflussen.

Kapitel 4. Funktion linol ()

Die lineare () -Funktion gibt 10 Regressionsstatistik zurück. Die lineare Funktion () ist die Funktion des Arrays. Um es einzugeben, markieren Sie den Bereich, der fünf Zeilen und zwei Spalten enthält, geben Sie die Formel ein und klicken Sie auf (Abb. 9):

Linear (B2: B21; A2: A21; Wahrheit; Wahrheit)

Feige. 9. linene (): a) Markieren Sie den D2: E6-Bereich, B) Geben Sie die Formel wie in der Formel, c) ein.

Die lineare () -Funktion kehrt zurück:

  • regressionskoeffizient (oder Neigung, Zelle D2);
  • schnitt (oder konstant, Zelle E3);
  • standardregressions-Koeffizientenfehler und Konstanten (Bereich D3: E3);
  • r 2 Bestimmungskoeffizient für die Regression (Zelle D4);
  • standardschätzungsfehler (E4-Zelle);
  • F-Kriterium für die vollständige Regression (Zelle D5);
  • die Anzahl der Freiheitsgrade für die Restsumme der Quadrate (Zelle E5);
  • regressionsmenge der Quadrate (Zelle D6);
  • die Restsumme der Quadrate (Zelle E6).

Berücksichtigen Sie jede dieser Statistiken und deren Interaktion.

Standart Fehler In unserem Fall ist dies eine Standardabweichung, die für Probenfehler berechnet wird. Die. Dies ist eine Situation, in der das allgemeine Aggregat eine Statistik hat, und die Probe ist ein anderes. Teilen des Regressionskoeffizienten auf einen Standardfehler, erhalten Sie einen Wert von 2.092 / 0.818 \u003d 2,559. Mit anderen Worten, der Regressionskoeffizient, gleich 2,092, ist für zweieinhalb-halbige Standardfehler Null.

Wenn der Regressionskoeffizient Null ist, ist die beste Schätzung der vorhergesagten Variablen sein Durchschnittswert. Zweieinhalb-halbige Standardfehler sind ein ziemlich großer Wert, und Sie können zuversichtlich glauben, dass der Regressionskoeffizient für die allgemeine Bevölkerung einen Wert ungleich Null hat.

Sie können die Wahrscheinlichkeit bestimmen, einen selektiven Regressionskoeffizienten von 2.092 zu erhalten, wenn der tatsächliche Wert im allgemeinen Set 0,0 mit der Funktion 0,0 beträgt

Student.Sp.ph (T-Kriterium \u003d 2,559; Anzahl der Freiheitsgrade \u003d 18)

Im Allgemeinen ist die Anzahl der Freiheiten \u003d N - K - 1, wobei n die Anzahl der Beobachtungen ist, und K ist die Anzahl der Prädiktorvariablen.

Diese Formel gibt einen Wert von 0,00987 oder abgerundet, 1% zurück. Es informiert uns das Folgende: Wenn der Regressionskoeffizient für die allgemeine Bevölkerung 0% beträgt, dann ist die Wahrscheinlichkeit, eine Probe von 20 Personen zu erhalten, für die der geschätzte Wert des Regressionskoeffizienten 2,092 beträgt, ein bescheidener 1%.

Das F-Kriterium (Zelle D5 in FIG. 9) führt die gleichen Funktionen in Bezug auf die vollständige Regression als das T-Kriterium in Bezug auf den Koeffizienten der einfachen Paarregression durch. Das F-Kriterium wird verwendet, um zu überprüfen, ob der R 2 -E-Bestimmungskoeffizient tatsächlich genug ist, um die Regression einen ausreichend großen Betrag aufweist, mit dem Sie die Hypothese verwerfen können, die in dem allgemeinen Set einen Wert von 0,0 aufweist, was das Fehlen einer Dispersion anzeigt vom Prädiktor und vorhergesagte Variable erläutert. Wenn es nur ein Predictor-Variablen-F-Kriterium gibt, das genau dem quadratischen T-Kriterium entspricht.

Bisher haben wir über Intervallvariablen gelten. Wenn Sie Variablen haben, die mehrere Werte annehmen können, die einfache Namen sind, beispielsweise einen Mann und eine Frau oder Reptilien, Amphibien und Fische, stellen Sie sich in Form eines numerischen Codes vor. Solche Variablen werden nominell bezeichnet.

Statistik R 2. gibt eine quantitative Bewertung des Anteils der erläuterten Dispersion.

Standardauswertungsfehler.In FIG. 4.9 Prepaid-variable Gewichtswerte, die auf der Grundlage seiner Verbindung mit einem variablen Wachstum erhalten werden. Im E2-Bereich: E21 enthält Werte von Überrestanten für variables Gewicht. Genauer gesagt, diese Rückstände rufen Fehler auf - von hier aus und folgen dem Begriff Standardauswertungsfehler.

Feige. 10. Sowohl R 2 als auch der Standardfehler der Schätzung drücken die Genauigkeit der durch Regression erhaltenen Projektionen aus.

Je kleiner der Standard-Schätzfehler ist, desto genauer die Regressionsgleichung und desto engerer Hindernis, was mit der Gleichung erhielt, mit der tatsächlichen Beobachtung, die Sie erwarten. Der Standardauswertungsfehler bietet ein Verfahren zur Quantifizierung dieser Erwartungen. Gewicht 95% der Menschen mit etwas Wachstum werden im Bereich liegen:

(Höhe * 2.092 - 3.591) ± 2,092 * 21.118

F-statistik- Dies ist die Beziehung der Intergroup-Dispersion zur intragroupen Dispersion. Dieser Name wurde von Statistiken von George Snedel zu Ehren von Sir eingeführt, die zu Beginn des 20. Jahrhunderts eine Dispergieranalyse entwickelt hatte (Analyse der Varianz).

Der Bestimmungskoeffizient R 2 drückt den Anteil der Gesamtsumme der mit der Regression verbundenen Quadrate aus. Der Wert (1 - R 2) drückt den Anteil der Gesamtquadrate aus, die den mit den Bilanzen - Prognosefehlern zugeordnet sind. Das F-Kriterium kann unter Verwendung einer linearen Funktion (Zelle F5 in Fig. 11) mit den Summen der Quadrate (Bereich G10: J11) unter Verwendung einer Dispersionsfraktion (G14: J15-Bereich) erhalten werden. Formeln können in der beiliegenden Excel-Datei untersucht werden.

Feige. 11. Berechnung der F-Kriterien

Bei Verwendung von nominalen Variablen wird fiktive Codierung verwendet (Abb. 12). Um Werte zu kodieren, ist es praktisch, die Werte 0 und 1. Die Wahrscheinlichkeit F wird mit der Funktion berechnet:

F.Resp.ph (K2; I2; I3)

Hier gibt die Funktion f.resp.ph () die Wahrscheinlichkeit zurück, ein F-Kriterium zu erhalten, das die zentrale F-Distribution (Abb. 13) für zwei Datensätze mit den Mengen an Freiheitsgrade, gegeben, in Zellen I2 und I3 gegeben Der Wert, der mit dem in C2-Zellen angegebenen Wert übereinstimmt.

Feige. 12. Regressionsanalyse mit fiktiven Variablen

Feige. 13. Zentrale F-Distribution bei λ \u003d 0

Kapitel 5. Mehrere Regression

Wenden Sie sich von einer einfachen Pair-Regression mit einer Predictor-Variablen auf mehrere Regression, Sie fügen eine oder mehrere Prädiktorvariablen hinzu. Halten Sie die Werte von Prädiktorvariablen in benachbarten Säulen, beispielsweise in den Säulen A und B bei zwei Prädiktoren oder A, B und C bei drei Prädiktoren. Bevor Sie eine Formel eingeben, die die lineare () -Funktion enthält, wählen Sie fünf Zeilen und so viele Spalten, wie Predictor-Variablen, plus für die Konstante vorhanden. Im Falle der Regression mit zwei Prädiktorvariablen können Sie die folgende Struktur verwenden:

Linen (A2: A41; B2: C41;; Wahrheit)

In ähnlicher Weise, bei drei Variablen:

Linen (A2: A61; B2: D61;; Wahrheit)

Angenommen, Sie möchten die mögliche Auswirkung von Alter und Ernährung auf die Aufrechterhaltung der Lipoproteine \u200b\u200bmit niedriger Dichte untersuchen, die als Verantwortung für die Bildung atherosklerotischer Plaques angesehen werden, die eine Atherotrombarkeit verursachen (Abb. 14).

Feige. 14. Mehrere Regression.

R 2 Mehrere Regression (in der F13-Zelle reflektiert), mehr als R 2 einer einfachen Regression (E4, H4). In der Mehrfachregression werden gleichzeitig mehrere Prädiktorvariablen verwendet. In diesem Fall erhöht sich R 2 fast immer.

Für jeden einfachen lineargleichung Die Regression mit einer Prädiktorvariablen zwischen den projizierten Werten und den Werten der Prädiktorvariablen ist immer die ideale Korrelation, da in dieser Gleichung der Wert des Prädiktors mit einer Konstante multipliziert wird und jeder Arbeitskonstante zugesetzt wird. Dieser Effekt ist in mehrfacher Regression nicht erhalten.

Zeigt die von der linearen () -Funktion zurückgegebenen Ergebnisse für mehrere Regression (Abb. 15) an. Regressionskoeffizienten werden als Teil der von der Funktion von Linien () zurückgegebenen Ergebnissen abgeleitet. in der Reihenfolge des umgekehrten Standorts von Variablen (G-H - I entspricht C-A).

Feige. 15. Die Koeffizienten und ihre Standardfehler werden in umgekehrter Reihenfolge ihrer Folgenden auf dem Arbeitsblatt angezeigt.

Prinzipien und Verfahren, die in der Regressionsanalyse mit einer Prädiktorvariablen verwendet werden, können problemlos an mehrere Prädiktorvariablen berücksichtigt werden. Es stellt sich heraus, dass in dieser Anpassung viel von der Beseitigung der Auswirkung der Prädiktorvariablen aneinander abhängt. Letzteres ist mit den privaten und Halbparteiskorrelationen verbunden (Abb. 16).

Feige. 16. Mehrere Regression kann durch die gepaarte Regression von Rückständen ausgedrückt werden (Formulare, siehe Excel-Datei)

In Excel gibt es Funktionen, die Informationen zu T- und F-Distributionen bereitstellen. Funktionen, deren Namen einen Teil des Empfangs enthalten, z. B. student.rasp () und f.rasp (), nehmen ein T-oder f-Kriterium als Argument ein und senden die Wahrscheinlichkeit, den angegebenen Wert zu beobachten. Funktionen, deren Namen einen Teil des OrP enthalten, z. B. Student. Produktion () und F. produzieren (), nutzen den Wahrscheinlichkeitswert als Argument und geben den Wert des Kriteriums zurück, das der angegebenen Wahrscheinlichkeit entspricht.

Da wir nach kritischen T-Distributionswerten suchen, die die Ränder seiner Schwanzbereiche schneiden, übertragen wir 5% als Argument eines der Funktionen des Schülers. Produktion (), das den Wert dieser Wahrscheinlichkeit entspricht (FIG. . 17, 18).

Feige. 17. Bilateraler T-Test

Feige. 18. Einseitiger T-Test

Durch die Festlegung der Entscheidungsfindung im Falle einer einstündigen Alpha-Region erhöhen Sie die statistische Leistung des Tests. Wenn Sie ein Experiment starten, sind Sie sicher, dass Sie jeden Grund haben, einen positiven (oder negativen) Regressionskoeffizienten zu erwarten, dann sollten Sie einen einzelstündigen Test durchführen. In diesem Fall die Wahrscheinlichkeit, was Sie nehmen richtige LösungAblehnen der Hypothese des Null-Regressionskoeffizienten in der allgemeinen Bevölkerung wird höher sein.

Statistiken bevorzugen den Begriff richttest Anstelle von term. einzeltest und Begriff nichtrichtungstest Anstelle von term. zwei beschäftigter Test. Die ausgerichteten und freigestellten Bedingungen sind bevorzugt, da sie sich auf die Art der Hypothese konzentrieren, und nicht auf der Art der Verteilungsschwänze.

Annäherung an die Bewertung der Auswirkungen von Prädiktoren basierend auf dem Vergleich der Modelle.In FIG. 19 zeigt die Ergebnisse der Regressionsanalyse, in der der Beitrag der variablen Diät zur Regressionsgleichung getestet wird.

Feige. 19. Vergleich von zwei Modellen durch Überprüfen der Unterschiede in den Ergebnissen

Die Ergebnisse der linearen () -Funktion (Reichweite H2: K6) beziehen sich auf das, was ich das vollständige Modell nenne, in dem die Regression der LDL-Variablen an einer variablen Diät, Alter und HDL durchgeführt wird. Im Bereich von H9: J1z präsentiert Berechnungen, ohne die Diät der Prädiktorvariablen zu berücksichtigen. Ich nenne es ein begrenztes Modell. In einem vollständigen Modell wird 49,2% Dispersion der abhängigen Variablen LDL von Prädiktorvariablen erläutert. In einem begrenzten Modell werden nur 30,8% des LDL vom variablen Alter und HDL erläutert. Der Verlust R 2 ist aufgrund der Ausnahme der variablen Diät aus dem Modell 0,183. In dem Reichweiten von G15: L17 werden Berechnungen getroffen, die zeigen, dass nur mit einer Wahrscheinlichkeit von 0,0288 die Wirkung einer variablen Ernährung zufällig ist. In der restlichen 97,1%-Diät wirkt sich die LDL aus.

Kapitel 6. Annahmen und Vorsicht zur Regressionsanalyse

Der Begriff "Annahme" ist nicht ausreichend streng definiert, und der Weg zur Verwendung bedeutet, dass, wenn die Annahme nicht respektiert wird, die Ergebnisse der gesamten Analyse zumindest fragwürdig oder möglicherweise keine Kräfte haben. Tatsächlich ist dies nicht der Fall, obwohl es natürlich Fälle gibt, wenn die Erkrankung der Annahme in der Wurzel das Bild ändert. Hauptannahmen: a) Die Überreste der Variablen Y sind normalerweise an einem beliebigen Punkt X entlang der Regressionslinie verteilt; b) v Werte sind in lineare Abhängigkeit. von x Werten; c) Dispersion von Rückständen ist an jedem Punkt x ungefähr gleich; d) Es gibt keine Abhängigkeit zwischen den Überresten.

Wenn Annahmen keine wichtige Rolle spielen, sprechen die Statistiken über die Robustheit der Analyse in Bezug auf Behinderungen. Wenn Sie insbesondere Regression verwenden, um die Unterschiede zwischen den Konzerndurchschnittswerten zu testen, wird die Annahme, dass die Werte von Y - und daher übrig bleiben, normalerweise nicht verteilt werden, keine wichtige Rolle: Die Tests werden in Bezug auf den Fehlern der Normalität robust. Es ist wichtig, Daten mit Diagrammen zu analysieren. Zum Beispiel im Aufbau enthalten Datenanalyse Werkzeug Regression..

Wenn die Daten nicht den Annahmen der linearen Regression entsprechen, gibt es andere Ansätze als linear. Einer von ihnen ist eine logistische Regression (Abb. 20). In der Nähe der oberen und unteren Grenzwerte der Prädiktorvariablen führt die lineare Regression zu unrealistischen Prognosen.

Feige. 20. Logistische Regression.

In FIG. 6.8 Anzeigen der Ergebnisse von zwei Methoden zur Analyse von Daten, die auf das Studium der Verbindung zwischen dem Jahreseinkommen und der Wahrscheinlichkeit des Kaufs eines Hauses abzielen. Natürlich wird die Wahrscheinlichkeit, einen Kauf zu erzielen, mit zunehmendem Einkommen steigen. Diagramme vereinfachen die Ermittlung von Unterschieden zwischen den Ergebnissen, die die Wahrscheinlichkeit des Kaufs eines Hauses durch lineare Regression vorausgibt, und die Ergebnisse, die Sie möglicherweise mit einem anderen Ansatz verwenden.

In der Sprache der Statistiker wird die Verleihung der Nullhypothese, wenn es in der Realität wahr ist, der Fehler der i-Art genannt wird.

Im Aufbau. Datenanalyse Es wird ein komfortables Werkzeug zum Erzeugen von Zufallsnummern angeboten, das den Benutzer ermöglicht, das gewünschte Verteilungsformular (z. B. Normal, Binomial oder Poisson) sowie den Durchschnittswert und die Standardabweichung festzulegen.

Unterschiede zwischen den Funktionen der Student.Sp () -Familie.Start von Excel 2010 verfügbar drei verschiedene Formen Funktionen, die zur Verteilung der linken und / oder rechts des angegebenen T-Kriteriumwerts zurückkehren. Studentenfunktion RASP () gibt den Anteil des Bereichs unter der Verteilungskurve links von dem angegebenen T-Kriterium zurück, das Sie angegeben haben. Angenommen, Sie haben 36 Beobachtungen, und daher ist die Anzahl der Freiheitsgrade zur Analyse gleich 34 und dem Wert des T-Kriteriums \u003d 1,69. In diesem Fall die Formel

Student.rasp (+1.69; 34; Wahrheit)

gibt einen Wert von 0,05 oder 5% (Abb. 21) zurück. Das dritte Argument der Funktion von student.rasp () kann die Bedeutung von Wahrheit oder FALSE haben. Wenn es gleich der Wahrheit ist, gibt die Funktion den kumulativen Bereich unter der Kurve links neben einem bestimmten T-Kriterium zurück, der in Form einer Anteil ausgedrückt wird. Wenn es gleich einer Lüge ist, gibt die Funktion die relative Höhe der Kurve an dem Punkt, der dem T-Kriterium entspricht, zurück. Andere Versionen der Student.rasp () Funktion - Student.rasp. Px () und student.rasp 2x () - Nehmen Sie als Argumente nur den Wert des T-Kriteriums und die Anzahl der Freiheitsgrade auf und benötigen nicht die Aufgabe von das dritte Argument.

Feige. 21. Der dunklere schattige Bereich im linken Schwanz der Verteilung entspricht dem Anteil des Bereichs unter der Kurve links vom großen positiven Wert des T-Kriteriums

Verwenden Sie eine der Formeln nach rechts vom T-Kriterium, um den Bereich nach rechts des T-Kriteriums zu ermitteln:

1 - schattent.rasp (1, 69; 34; Wahrheit)

Student.rasp.ph (1.69; 34)

Der gesamte Bereich unter der Kurve sollte 100% betragen, subtrahieren Sie also von einem Anteil des Gebiets auf der linken Seite des T-Kriteriumswerts, der die Funktion zurückgibt, ergibt den Anteil des Bereichs, der sich rechts vom T-Kriterium befindet Wert. Möglicherweise erscheinen Sie mehr bevorzugte Option des direkten Anteils des Interesses, der Sie mit der Funktion student.ph () interessiert, wo es der rechte Schwanz der Verteilung ist (Abb. 22).

Feige. 22. 5% Alpha-Bereich für Richttest

Verwenden der Funktionen von Student.rasp () oder student.rasp. Px () impliziert, dass Sie eine gerichtete Arbeitshypothese gewählt haben. Die Richtungshypothese in Kombination mit der Installation des Alpha-Werts auf dem Niveau von 5% bedeutet, dass Sie alle 5% im rechten Verteilerschwanz einsetzen. Sie müssen die Nullhypothese nur ablehnen, wenn die Wahrscheinlichkeit des Wertes des empfangenen T-Kriteriums 5% und weniger beträgt. Richtungshypothesen führen in der Regel zu empfindlichen statistischen Tests (diese größere Empfindlichkeit wird auch als stärker statistische Leistung bezeichnet).

Mit einem unendlichen Test bleibt der Alpha-Wert auf dem gleichen Niveau von 5%, der Verteiler wird jedoch anders sein. Da Sie zwei Ergebnis ermöglichen müssen, muss die Wahrscheinlichkeit eines falschen positiven Ergebnisses zwischen zwei Verteilungsschwänzen verteilt werden. Es wird allgemein angenommen, diese Wahrscheinlichkeit gleichermaßen zu verteilen (Abb. 23).

Verwenden Sie den gleichen erhaltenen Wert des T-Kriteriums und der gleichen Anzahl von Freiheitsgraden, wie im vorherigen Beispiel die Formel

Student.rasp 2x (1.69; 34)

Ohne besondere Gründe gibt die Funktion Student.SPS () die Fehlercode-Nummer an, wenn er einen negativen T-Kriterium-Wert als das erste Argument bietet.

Wenn die Proben eine andere Datenanzahl enthalten, verwenden Sie einen zweigrabenden T-Test mit verschiedenen in der Packung enthaltenen Dispersionen Datenanalyse.

Kapitel 7. Verwenden der Regression zur Prüfung von Unterschieden zwischen den Konzerndurchschnitt

Variablen, die zuvor unter dem Namen der vorhergesagten Variablen erschienen sind, werden in diesem Kapitel in diesem Kapitel effiziente Variablen bezeichnet, und anstelle der Begriffsdisportorvariablen werden die Begriffsvariablen verwendet.

Die einfachste der Ansätze zur Kodierung der Nennvariablen ist fiktive Codierung (Abb. 24).

Feige. 24. Regressionsanalyse basierend auf fiktiver Codierung

Bei der Verwendung der fiktiven Kodierung jeglicher Art sollten die Regeln befolgt werden:

  • Die Anzahl der für neuen Daten reservierten Spalten sollte der Anzahl der Faktorstufen minus entsprechen
  • Jeder Vektor repräsentiert eine Faktorebene.
  • Probanden eines der Ebenen, die oft die Kontrollgruppe erhalten, erhalten Code 0 in allen Vektoren.

Formel in Zellen F2: H6 \u003d Linen (A2: A22; C2: D22; Wahrheit) Gibt die Regressionsstatistik zurück. Zum Vergleich in FIG. 24 Anzeigen der Ergebnisse der vom Werkzeug zurückgegebenen traditionellen Dispersionsanalyse Single-Factor-Dispersionsanalyse Überbau Datenanalyse.

Kodierungseffekte.In einer anderen Art von Codierung genannt effekte kodieren Der Durchschnitt jeder Gruppe wird mit dem durchschnittlichen Konzerndurchschnitt verglichen. Dieser Aspekt von Codierungseffekten ist auf die Verwendung des Werts -1 anstelle von 0 als Code für eine Gruppe zurückzuführen, die den gleichen Code in allen Codevektoren empfängt (Abb. 25).

Feige. 25. Effektcodierung.

Wenn fiktive Codierung verwendet wird, fällt der Wert der von der linearen () () zurückgegebenen Konstante mit der durchschnittlichen Gruppe zusammen, die Nullcodes in allen Vektoren (normalerweise der Steuergruppe) zugewiesen sind. Bei der Kodierung der Auswirkungen der Konstante entspricht der Konstante dem allgemeinen Durchschnitt (Zelle J2).

Das gesamte lineare Modell ist eine nützliche Möglichkeit, die Komponenten des Werts der resultierenden Variablen zu konzipieren:

Y ij \u003d μ + α j + ε ij

Die Verwendung von griechischen Buchstaben in dieser Formel anstelle von Latin betont die Tatsache, dass sie der allgemeinen Bevölkerung gehört, von der sich Proben extrahiert befinden, aber es kann in der Form umgeschrieben werden, die darauf hinweist, dass sie sich auf die von der veröffentlichten allgemeinen Bevölkerung erholten Proben bezieht:

Y ij \u003d y̅ + a j + e ij

Die Idee ist, dass jede Beobachtung y ij als die Summe der folgenden drei Komponenten betrachtet werden kann: Generaldurchschnitt, μ; Effekt der Bearbeitung von J und J; Der Wert von E Ij, der die Abweichung des einzelnen quantitativen Indikators y ij aus dem kombinierten Wert des Gesamtdurchschnitts darstellt und effekt j-th Verarbeitung (Abb. 26). Der Zweck der Regressionsgleichung besteht darin, die Summe der Quadrate der Rückstände zu minimieren.

Feige. 26. Beobachtungen, die auf den Komponenten des allgemeinen linearen Modells angeordnet sind

Faktorenanalyse.Wenn die Beziehung zwischen der effektiven Variablen und gleichzeitig zwei oder mehr Faktoren untersucht wird, sprechen sie in diesem Fall in diesem Fall über die Verwendung der Faktoranalyse. Das Hinzufügen eines oder mehrerer Faktoren in die Einfaktor-Dispersionsanalyse kann die statistische Leistung erhöhen. In der Ein-Faktor-Dispersionsanalyse ist die Variation einer effizienten Variablen, die nicht auf den Faktor zurückzuführen ist, in dem Restschnittsquadrat enthalten. Es kann jedoch sein, dass diese Variation mit einem anderen Faktor gestrickt wird. Diese Variation kann dann aus dem mittleren Quadratfehler entfernt werden, wobei die Abnahme zu einer Erhöhung der Werte des F-Kriteriums und damit zu einer Erhöhung der statistischen Leistung des Tests führt. Überbau Datenanalyse Enthält ein Werkzeug, das die Verarbeitung von zwei Faktoren gleichzeitig zur Verfügung stellt (Abb. 27).

Feige. 27. Werkzeug Zwei-Faktor-Dispersionsanalyse mit Wiederholungen des Analysepakets

Das in dieser Figur verwendete Dispersionsanalysewerkzeug ist nützlich, da er den Durchschnitt und die Dispersion der effizienten Variablen sowie den Zählerwert für jede im Plan enthaltene Gruppe zurückgibt. Tabelle Dispersionsanalyse Es werden zwei Parameter angezeigt, die in den Ausgabeinformationen der Single-Factor-Version des Dispersionsanalyse-Tools fehlen. Achten Sie auf die Variationsquellen Stichprobe und Säulen in den Zeilen 27 und 28. Variationsquelle Säulen Bezieht sich auf den Boden. Quellvariation Stichprobe Bezieht sich auf eine beliebige Variable, deren Werte verschiedene Linien einnehmen. In FIG. 27 Die Werte für die Getreidegruppe befinden sich in den Zeilen 2-6, der Zerebralgruppengruppe - in den Leitungen 7-11 und der Gruppe von Hasser - in den Zeilen 12-16.

Der Hauptpunkt ist, dass beide Faktoren, der Boden (die Signatur der Säulen in der E28-Zelle) und der Behandlung (Probensignatur in der E27-Zelle) in der Tabellendispersionsanalyse als Variationsquellen enthalten sind. Mitte für Männer unterscheiden sich von Medium für Frauen, und dies schafft eine Variationsquelle. Der Durchschnitt für drei Arten der Behandlung ist auch unterschieden - jetzt haben Sie eine weitere Variationsquelle. Es gibt auch eine dritte Quelle - Interaktion, die sich auf die kombinierte Wirkung von Geschlechtsvariablen und -behandlung bezieht.

Kapitel 8. Kovarianzanalyse

Die Kovarianzanalyse oder Ancova (Analyse der Kovariation) verringert die Versätze und erhöht die statistische Leistung. Lassen Sie mich daran erinnern, dass eine der Möglichkeiten, die Zuverlässigkeit zu bewerten regressionsgleichung. sind F-Tests:

F \u003d MS Regression / MS Restual

wobei MS (mittlerer Quadrat) ein mittlerer Quadrat ist, und die Regressions- und Restindizes zeigen die Regressions- und Restkomponenten an. Die Berechnung von MS-Residual wird von der Formel ausgeführt:

Ms restual \u003d ss restlich / df restlich

wobei SS (Summe der Quadrate) die Summe der Quadrate ist, ist ein DF die Anzahl der Freiheitsgrade. Wenn Sie der Regressionsgleichung Kovarianz hinzufügen, ist ein Teil des Gesamtquadrats der Quadrate nicht in SS Residruai enthalten, sondern in SS-Regression. Dies führt zu einer Abnahme der SS Residua L und daher ms Restual. Je kleiner ms Rest, desto größer ist das F-Kriterium und das wahrscheinlichste, dass Sie die Nullhypothese ablehnen, um das Fehlen von Unterschieden zwischen dem Durchschnitt abzurufen. Infolgedessen werden die Variabilität der effektiven Variablen umverteilt. In Anova, als Kovarianz nicht berücksichtigt wird, geht die Variabilität in einen Fehler. In Ancova-Teil der Variabilität ist jedoch zuvor dem Fehler angenommen, einem Kovariaten zugewiesen und wird Teil der SS-Regression.

Betrachten Sie ein Beispiel, in dem derselbe Datensatz zuerst mit Anova analysiert wird, und dann mit Ancova (Abb. 28).

Feige. 28. Die Anova-Analyse zeigt an, dass die mit der Regressionsgleichung erzielten Ergebnisse unzuverlässig sind

Die Studie vergleicht die relativen Auswirkungen körperlicher Übungen, der Entwicklung von Muskelfestigkeit und kognitiven Übungen (Solo mit Kreuzworträtsel), der Aktivierung der Gehirnaktivität. Die Probanden wurden in zwei Gruppen zufällig verteilt, so dass sich beide Gruppen zu Beginn des Experiments in den gleichen Bedingungen befanden. Nach drei Monaten wurden die kognitiven Eigenschaften der Probanden gemessen. Die Ergebnisse dieser Messungen sind in Spalte V angegeben.

Im A2-Bereich: C21 werden die an den linearen () übertragenen Quelldaten zur Durchführung der Analyse unter Verwendung der Effektcodierung veröffentlicht. Die Ergebnisse der Funktion der linearen () sind in dem E2: F6-Bereich angegeben, wobei in der E2-Zelle den mit dem Schlagvektor verbundenen Regressionskoeffizienten anzeigt. Die E8-Zelle enthält ein T-Kriterium \u003d 0,93, und die Zuverlässigkeit dieses T-Kriteriums wird in der E9-Zelle getestet. Der in der E9-Zelle enthaltene Wert sagt, dass die Wahrscheinlichkeit, dass die Wahrscheinlichkeit, dass der Unterschied zwischen den in diesem Experiment beobachteten Konzerndurchschnitt 36% beträgt, wenn in der allgemeinen Bevölkerung die Konzerndurchschnitt gleich ist. Nur wenige erkennen dieses Ergebnis statistisch signifikant.

In FIG. 29 zeigt, was passiert, wenn Sie die Analyse von Covariatriken hinzufügen. In diesem Fall fügte ich das Alter jedes einzelnen Datensatzes hinzu. Der Bestimmungskoeffizient R 2 für die Regressionsgleichung, die Kovariatoren verwendet, beträgt 0,80 (Zelle F4). Der Wert von R 2 im Bereich F15: G19, in dem ich die Anova-Ergebnisse reproduzierte, die ohne die Verwendung von Kovariaten erhalten wurden, sind nur 0,05 (Zelle F17). Folglich prognostiziert die Regressionsgleichung, die kovariat umfasst, die Werte des variablen kognitiven Indikators viel genauer als die Verwendung von nur des Vektors. Bei Ancova beträgt die Wahrscheinlichkeit, dass der Wert des in der F5-Zelle angezeigten F-Kriteriums den Wert des F-Kriteriums ergibt, weniger als 0,01%.

Feige. 29. Ancova gibt ein völlig anderes Bild zurück.

Regression in Excel-Programm

Die statistische Datenverarbeitung kann auch mit dem Überbau des Analysepakets im Unterabsatz-Menü "Service" durchgeführt werden. In Excel 2003, wenn eröffnet BEDIENUNG, finden Sie nicht die Registerkarte DATENANALYSE, klicken Sie dann auf die linke Maustaste. Öffnen Sie die Registerkarte Überbau und gegenüberliegender Gegenstand Analysepaket. Durch Klicken auf die linke Maustaste setzen wir ein Tick (Abb. 17).

Feige. 17. Fenster Überbau

Danach im Menü BEDIENUNG Tab wird angezeigt DATENANALYSE.

In Excel 2007 zur Installation Paketanalyse Sie müssen in der oberen linken Ecke des Blattes auf den Office-Taster klicken (Abb. 18A). Klicken Sie anschließend auf die Schaltfläche Excel-Einstellungen. In dem angezeigten Fenster Excel-Einstellungen Klicken Sie auf die linke Maustaste auf dem Element Überbau Wählen Sie im rechten Teil der Liste der Liste den Artikel aus Analysepaket.Klicken Sie anschließend auf OK.


Excel-Einstellungen "Office-Schaltfläche

Feige. 18. Installation Paketanalyse In Excel 2007.

Um das installierende Analysepaket zu installieren, klicken Sie auf die Schaltfläche Gehenim Folgenden unten geöffnete Fenster befinden. Es erscheint, inb. 12. Ziehen Sie das Gegenteil an Paketanalyse.Auf der Registerkarte DATEN Eine Schaltfläche wird angezeigt DATENANALYSE(Abb. 19).

Aus den vorgeschlagenen Elementen wählt der Artikel " Regression."Und klicken Sie mit der linken Maustaste darauf. Klicken Sie anschließend auf OK.

Ein Fenster erscheint in FIG. 21.

Analysewerkzeug " Regression.»Wird verwendet, um einen Zeitplan für eine Reihe von Beobachtungen mit der kleineren Quadratmethode auszuwählen. Die Rezession wird verwendet, um den Auswirkungen auf eine separate abhängige variable Werte einer oder mehrerer unabhängiger Variablen zu analysieren. Zum Beispiel betrifft Athlet athlete mehrere Faktoren, einschließlich Alter, Wachstum und Gewicht. Sie können den Einflussgrad jedes dieser drei Faktoren auf der Grundlage der Ergebnisse der Leistung des Athleten berechnen und dann die erhaltenen Daten verwenden, um die Leistung eines anderen Athleten vorherzusagen.

Rezessionswerkzeug verwendet eine Funktion Linol.

Dialogfeld "Regression"

Tags Überprüfen Sie das Kontrollkästchen, wenn die erste Zeile oder die erste Spalte des Eingangsbereichs Überschriften enthält. Entfernen Sie dieses Kontrollkästchen, wenn die Header fehlen. In diesem Fall werden automatisch die entsprechenden Header für die Datenausgabentabelle erstellt.

Zuverlässigkeitsstufe Überprüfen Sie das Kontrollkästchen, um eine zusätzliche Ebene auf der Ausgabe-Tabelle zu aktivieren. Geben Sie in dem entsprechenden Feld das aufzuwendende Zuverlässigkeit ein, die angewendet werden sollen, zusätzlich zum Niveau von 95%, das standardmäßig verwendet wird.

Konstant - Zero Wählen Sie das Kontrollkästchen aus, damit die Regressionslinie den Ursprung der Koordinaten durchläuft.

Ausgangsintervall Geben Sie den Link auf die linke obere Zelle des Ausgabebereichs ein. Nehmen Sie mindestens sieben Säulen für die Ausgabetabelle der Ergebnisse, die Folgendes umfassen: Ergebnisse der Dispersionsanalyse, Koeffizienten, den Standardfehler der Berechnung von Y, radialen Abweichungen, Beobachtungsnummer, Standardfehler für Koeffizienten.

Neue Arbeitsliste Stellen Sie den Wechsel in diese Position ein, um ein neues Blatt im Buch zu öffnen und die Analyseergebnisse ausgehend von der A1-Zelle einzufügen. Geben Sie ggf. einen Namen für ein neues Blatt auf das Feld, das gegenüber der entsprechenden Position des Schalters gegenüberliegt, einen Namen ein.

Neues Arbeitsbuch Setzen Sie den Wechsel in diese Position ein, um ein neues Buch zu erstellen, in dem die Ergebnisse einem neuen Blatt hinzugefügt werden.

Überprüfen Sie das Kontrollkästchen aktiv, um den Ausgabetabellen einzuschalten.

Standardisierte Rückstände Überprüfen Sie das Kontrollkästchen, um standardisierte Rückstände in der Ausgabetabelle zu ermöglichen.

Zeitplan bleibt Kontrollkästchen, um für jede unabhängige Variable Restgrafiken aufzubauen.

Wählen Sie den Auswahlplan aus, um die Abhängigkeit der vorhergesagten Werte aus dem Beobachtbaren aufzubauen.

Diagramm der normalen Wahrscheinlichkeit Aktivieren Sie das Kontrollkästchen, um ein Diagramm einer normalen Wahrscheinlichkeit aufzubauen.

Funktion Linol

Um die Berechnungen durchzuführen, weisen wir den Cursor an die Zelle zu, in denen wir den Durchschnittswert anzeigen möchten, und klicken Sie auf die Tastatur-Taste \u003d. Geben Sie in der Nähe des Namensfelds die gewünschte Funktion an, zum Beispiel Srnzoke. (Abb. 22).


Feige. 22 Funktionssuche in Excel 2003-Programm

Wenn auf dem Feld NAME Der Funktionsname ist nicht angezeigt, dann klicken Sie mit der linken Maustaste auf das Dreieck neben dem Feld, danach erscheint das Fenster mit der Liste der Funktionen. Wenn diese Funktion nicht in der Liste ist, wird die linke Maustaste auf den Listenelement gedrückt. Andere Funktionenwird ein Dialogfeld angezeigt Master der Funktionen., in dem mit Hilfe eines vertikalen Bildlaufs die gewünschte Funktion auswählen, markieren Sie es mit dem Cursor und klicken Sie auf OK (Abb. 23).

Feige. 23. Master of Funktionen

Um in dem Excel 2007-Programm nach einer Funktion zu suchen, kann in dem Menü eine beliebige Registerkarte geöffnet werden. Weiter im Feld Name anzeigen die Funktion Srnzoke.. Das Fenster zur Berechnung der Funktion ähnelt denen in Excel 2003.

Sie können auch die Registerkarte Formel auswählen und auf die Schaltfläche linke Maustaste klicken " Eine Funktion einfügen(Abb. 24), Fenster wird angezeigt Master der Funktionen., dessen Typ Excel 2003 ähnlich ist. Außerdem kann auch im Menü eine Funktionskategorie wählen (kürzlich verwendet, finanziell, logisch, text, date und zeit, mathematische, andere Funktionen), in denen wir nach der gewünschten Funktion suchen.

Andere Funktionen Links und Arrays Mathematisch

Feige. 24 Wählen Sie in Excel 2007 eine Funktion aus

Funktion Linol Berechnet Statistiken für eine Serie mithilfe der Methode der kleinsten Quadrate, um die direkte Zeile zu berechnen, die die verfügbaren Daten am besten annähert, und gibt dann ein Array zurück, das die resultierende Gerade beschreibt. Sie können auch die Funktion kombinieren Linol Mit anderen Funktionen zur Berechnung anderer Arten von Modellen, die in unbekannten Parametern linear sind (welche unbekannten Parameter linear sind), einschließlich polynomialer, logarithmischer, exponentialer und Stromversorgung. Da die Anordnung der Werte zurückgegeben wird, sollte die Funktion als Array-Formel eingestellt werden.

Die Gleichung für eine gerade Linie hat das folgende Formular:

(Im Falle mehrerer Bereiche von X-Werten),

wenn der abhängige Wert y die Funktion eines unabhängigen Werts X ist, sind die Werte M-Koeffizienten, die jeder unabhängigen Variablen X entsprechen, und B ist konstant. Bitte beachten Sie, dass Y, X und M Vektoren sein können. Funktion Linol Gibt ein Array zurück . Linol Es kann auch zusätzliche Regressionsstatistik zurückgeben.

Linol(CEST_STATIONS_Y; commic_stations_x; const; Statistiken)

CEST_STATIONS_Y sind ein Satz von y-Werten, die bereits für das Verhältnis bekannt sind.

Wenn das Array von CEST_STATIONS_Y eine Spalte hat, wird jede Spalte des Array CEST_STATIONS_X als separate Variable interpretiert.

Wenn das Array von CEST_STATIONS_Y über eine Zeile verfügt, wird jede Zeile des Array CEST_STATIONS_X als separate Variable interpretiert.

Commic_name_x ist ein optionaler Satz von X-Werten, die bereits für das Verhältnis bekannt sind.

Ein Array von canning_nation_x kann einen oder mehrere Variablensätze enthalten. Wenn nur eine Variable verwendet wird, können arrays_night_date_y und commices_name_x möglicherweise irgendein Formular aufweisen - vorausgesetzt, dass sie dieselbe Dimension haben. Wenn mehr als eine Variable verwendet wird, müssen dann CEST_STATIONS_Y ein Vektor sein (d. H. Ein Intervall einer einzelnen Linie oder einer Säulenbreite).

Wenn ein Array von reference_stations_x weggelassen ist, wird davon ausgegangen, dass dieses Array (1; 2; 3; ...) dieselbe Größe wie ein Array von Reference_Y hat.

Const - ein logischer Wert, der angibt, ob die Konstante B gleich 0 ist.

Wenn das Argument "const" wahr oder weggelassen ist, wird die Konstante B auf übliche Weise berechnet.

Wenn das Argument "Const" eine Lüge ankommt, wird der Wert B nicht auf 0 gelöscht und die Werte M sind so gewählt, dass das Verhältnis durchgeführt wird.

Statistiken - ein logischer Wert, der angibt, ob zusätzliche Statistiken zur Regression zurückgegeben werden sollen.

Wenn das Argument "Statistiken" trifft, gibt die lineare Funktion zusätzliche Regressionsstatistik zurück. Das zurückgegebene Array hat das folgende Formular: (MN; Mn-1; ...; M1; B: SEN; SEN-1; ...; SE1; SEB: R2; SEY: F; DF: SSREG; SSRESID) .

Wenn das Argument "Statistiken" eine Lüge ankommt oder weggelassen hat, kehrt die lineare Funktion nur die Koeffizienten M und Permanent b zurück.

Zusätzliche Regressionsstatistiken.

Wert Beschreibung SE1, SE2, ..., Sen Standardfehlerwerte für Koeffizienten M1, M2, ..., Mn. SEB. Der Standardwert des Fehlers für konstante B (SEB \u003d # N / d, wenn das Argument "COND" eine Lüge ist). R2. Der Determinismuskoeffizient. Die tatsächlichen Werte von y werden verglichen und die Werte aus der direkten Gleichung; Gemäß den Ergebnissen des Vergleichs wird der Determinismuskoeffizient von 0 bis 1 normalisiert, wenn es 1 ist, dann gibt es eine vollständige Korrelation mit dem Modell, dh die Unterschiede zwischen den tatsächlichen und geschätzten Werten von y do nicht existieren. Wenn der Determinismuskoeffizient 0 ist, ist es im entgegengesetzten Fall, wenn der Deterministikkoeffizient 0 ist, um die Regressionsgleichung zu verwenden, um die Werte y vorherzusagen, nicht sinnvoll. Weitere Informationen zu den Methoden zur Berechnung von R2 finden Sie unter "Bemerkungen" am Ende dieses Abschnitts. Sey. Standardfehler zum Schätzen von Y. F. F-Statistiken oder f-beachteter Wert. F-Statistiken werden verwendet, um zu bestimmen, ob eine zufällige beobachtbare Beziehung zwischen abhängigen und unabhängigen Variablen ist. DF. Freiheitsgrade. Die Freiheitsgrade sind nützlich, um foritierte Werte in einem statistischen Tisch zu finden. Um die Zuverlässigkeitsstufe des Modells zu ermitteln, müssen Sie die Werte in einer Tabelle mit der von der linearen Funktion zurückgegebenen F-Statistiken vergleichen. Weitere Informationen zur Berechnung des Wertes von DF finden Sie unter "Bemerkungen" am Ende dieses Abschnitts. Als nächstes wird in Beispiel 4 die Verwendung von F- und DF-Werten gezeigt. SSREG. Regressionsmenge von Quadraten. Ssresid Restsumme der Quadrate. Weitere Informationen zur Berechnung der Werte von SSREG und SSRESID finden Sie unter "Anmerkungen" am Ende dieses Abschnitts.

Die folgende Abbildung zeigt in welcher Reihenfolge zusätzliche Regressionsstatistiken zurückgegeben.

Bemerkungen:

Jede Direkte kann anhand der Neigung und Kreuzung mit der Y-Achse beschrieben werden:

Neigung (M): Um die Steigung der geraden Linie zu bestimmen, ist man normalerweise von M bezeichnet, müssen Sie zwei Punkte direkt annehmen und; Die Steigung ist gleich .

Y-Kreuzung (B): Y-Kreuzung Direct, der normalerweise von B bezeichnet ist, ist ein y-Wert für einen Punkt, in dem die Anleitung die Y-Achse schneidet.

Die direkte Gleichung hat das Formular. Wenn die Werte M und B bekannt sind, können Sie einen beliebigen Punkt auf einer geraden Linie berechnen, wodurch die Werte von Y oder X in die Gleichung ersetzt werden. Sie können auch die Trendfunktion verwenden.

Wenn es nur eine unabhängige Variable X gibt, können Sie einen Neigung und ein Y-Crossing direkt mit den folgenden Formeln erhalten:

Tilt: Index (linear (came_damations_y; commic_stations_x); 1)

Y-Kreuzung: Index (linear (commé_stations_y; commic_stations_x); 2)

Die Genauigkeit der Annäherung mit einer direkt berechneten Funktion des linearen Abhängigkeit von dem Grad der Datenstreuung hängt ab. Je näher die Daten in der Geraden, desto genauer ist das Modell, das von der linearen Funktion verwendet wird. Die lineare Funktion verwendet die Methode der kleinsten Quadrate, um die beste Annäherung an Daten zu bestimmen. Wenn es nur eine unabhängige Variable X, M und B gibt, werden gemäß den folgenden Formeln berechnet:

wobei x und y selektive Mittelwerte sind, z. B. x \u003d Сраснова (cann_stations_x) und y \u003d srnvov (commic_des_y).

Die Funktionen der Annäherung des linearen und der LGRFPRBLB können die direkte oder exponentielle Kurve berechnen, die die Daten am besten beschreibt. Sie beantworten jedoch nicht die Frage, welche der beiden Ergebnisse eher zum Lösen der Aufgabe geeignet ist. Sie können auch die Tendenzfunktion (CEST_STATIONS_Y; CEST_STATIONS_X) für eine direkte oder Funktion des Wachstums (CEST_STATION_Y; CEST_STATION_X) für eine exponentielle Kurve berechnen. Diese Funktionen, wenn Sie das Argument von new_nation_x nicht angeben, geben Sie ein Array von berechneten Werten y für die tatsächlichen X-Werte in Übereinstimmung mit einer Geraden oder Kurve zurück. Danach können Sie die berechneten Werte mit den tatsächlichen Werten vergleichen. Sie können auch Diagramme zum visuellen Vergleich erstellen.

Die Durchführung einer Regressionsanalyse berechnet Microsoft Excel für jedes Punktquadrat der Differenz zwischen dem vorhergesagten Wert von Y und dem tatsächlichen Wert von Y. Die Summe dieser Differenzenquadrate wird als Restsumme der Quadrate (SSRESID) bezeichnet. Microsoft Excel berechnet dann die Gesamtsumme der Quadrate (SSTital). Wenn die CONST \u003d Wahrheit oder der Wert dieses Arguments nicht angegeben ist, ist die Gesamtsumme der Quadrate gleich der Summe der Quadrate der Differenz zwischen den Werten der Werte von Y und den Durchschnittswerten Von y. Mit der Suspension \u003d liegt die Gesamtmenge an Quadraten gleich der Summe der Quadrate der gültigen Werte y (ohne den durchschnittlichen Y-Wert vom privaten Wert y). Danach kann die Regressionsmenge von Quadraten wie folgt berechnet werden: SSREG \u003d SSTOTAL - SSRESID. Je kleiner die Restsumme der Quadrate ist, desto größer ist der Wert des Determinismuskoeffizienten R2, der zeigt, wie gut die durch Regressionsanalyse erhaltene Gleichung die Beziehung zwischen Variablen erläutert. Der R2-Koeffizient ist gleich SSREG / SSTOTAL.

In einigen Fällen hat ein oder mehrere Spalten X (lassen Sie die Werte Y und X in Spalten) keinen zusätzlichen Prädikationswert in anderen Säulen X aufweisen. Mit anderen Worten kann das Entfernen eines oder mehrerer Säulen x dazu führen Werte von Y berechnet mit derselben Genauigkeit. In diesem Fall wird überschüssige Spalten X vom Regressionsmodell ausgeschlossen. Dieses Phänomen heißt "Collinearity", da überschüssige Spalten X als Summe mehrerer nicht leerer Säulen dargestellt werden können. Die lineare Funktion prüft die Kollinearität und entfernt alle überschüssigen Spalten X aus dem Regressionsmodell, wenn sie sie erkennen. Remote-Säulen X können im Ausgang des Linears durch den Koeffizienten von 0 definiert werden, und durch den SE-Wert von 0. Entfernen eines oder mehrerer Säulen als Überschuß ändert den Wert von DF, da er von der Anzahl der Spalten X abhängt, in Wirklichkeit, die zu prädikativen Zwecken verwendet wird. Weitere Informationen zur Berechnung des Wertes von DF finden Sie in Beispiel in Beispiel 4. Wenn DF aufgrund der Entfernung von überschüssigen Spalten, wird auch der SEY- und F-Wert geändert. Oft mit Collinearity wird oft nicht empfohlen. Es sollte jedoch angewendet werden, wenn einige X-Säulen 0 oder 1 als Indikatoranzeiger enthalten, ob das Experiment in einer separaten Gruppe enthalten ist. Wenn die CONST \u003d Wahrheit oder der Wert dieses Arguments nicht angegeben ist, fügt die Linsenfunktion eine zusätzliche Spalte X ein, um den Schnittpunkt zu simulieren. Wenn eine Spalte mit Werten 1 vorhanden ist, um Männer und 0 - für Frauen anzuzeigen, und es gibt eine Spalte mit Werten 1, um Frauen und 0 - für Männer anzuzeigen, die letzte Spalte gelöscht, da seine Werte aus einer Spalte mit einem "männlichen Indikator" erhalten werden.

Berechnung von DF für Fälle Wenn die X-Säulen aufgrund der Kollinearität nicht aus dem Modell gelöscht werden, erfolgt wie folgt: Wenn K-Spalten von came_name_x und dem Verbindungswert \u003d Wahrheit oder nicht angegeben sind, dann angegeben, dann df \u003d n - k - 1. Wenn das Const \u003d liegt, dann df \u003d n - k. In beiden Fällen erhöht das Entfernen von Säulen X aufgrund der Kollinearität den Wert von DF auf 1.

Formeln, die Return-Arrays als Array-Formel eingeführt werden sollen.

Beim Eintritt in das Array von Konstanten, wie zum Beispiel das Argument CAME_NAME_X einen Punkt mit einem Komma verwenden, um die Werte in einer Zeile und Dickdarm zum Spalten von Zeilen zu trennen. Die Teiler können je nach den in dem Sprach- und Normenfenster des Bedienfelds angegebenen Parameter unterschiedlich sein.

Es sei darauf hingewiesen, dass die von der Regressionsgleichung vorhergesagten Werte von Y möglicherweise nicht korrekt sind, wenn sie außerhalb der Werte der Werte von Y angeordnet sind, die zur Bestimmung der Gleichung verwendet wurden.

Der Hauptalgorithmus, der in der Funktion verwendet wird Linolunterscheidet sich von dem Hauptfunktionsalgorithmus NEIGUNG und SEKTION. Der Unterschied zwischen Algorithmen kann zu verschiedenen Ergebnissen mit undefinierten und kollinearen Daten führen. Wenn beispielsweise die Datenpunkte des Arguments CEST_STATIONS_Y gleich 0 sind, und die Datenpunkte des Arguments CEST_STATIONS_X sind gleich 1, dann:

Funktion Linol Gibt den Wert aus dem 0-Funktionsalgorithmus zurück Linol Zur Rückgabe geeigneter Werte für kollineare Daten, und in diesem Fall kann mindestens eine Antwort gefunden werden.

Funktionen kippen und schneiden Rückgabefehler # Angelegenheiten / 0!. Algorithmusfunktionen Neigung und Schnitt dient zum Suchen nur eine Antwort, und in diesem Fall kann es einige davon geben.

Neben der Berechnung von Statistiken für andere Regressionsarten kann die lineare Funktion bei der Berechnung der Bereiche für andere Regressionsarten verwendet werden, wobei die Funktionen der Variablen x und y als Zeilen der Variablen x und y für linear eintrifft. Zum Beispiel folgende Formel:

Linear (Werte_Y, Werte_x ^ Säule ($ A: $ c))

es arbeitet in Anwesenheit einer Spalte der Werte von Y und einer Wertespalte X, um die Annäherung des Würfels (Polynom 3RD) des folgenden Formulars zu berechnen:

Die Formel kann geändert werden, um andere Arten von Regression zu berechnen, aber in einigen Fällen ist es erforderlich, die Ausgangswerte und andere statistische Daten anzupassen.

Zeigt den Effekt einiger Werte (unabhängig, unabhängig) auf der abhängigen Variablen an. Wenn zum Beispiel die Anzahl der wirtschaftlich aktiven Bevölkerung auf der Anzahl der Unternehmen, die Werte von Löhnen usw. abhängt, hängt der Parameter ab. Oder: So beeinflussen man ausländische Investitionen, Energiepreise und andere. Auf der Ebene des BIP.

Das Ergebnis der Analyse ermöglicht es Ihnen, Prioritäten hervorzuheben. Und basierend auf den Hauptfaktoren prognostizieren Sie die Entwicklung von vorrangigen Bereichen, um Managemententscheidungen vorzunehmen.

Regression passiert:

· Linear (y \u003d a + bx);

· Parabolanlage (Y \u003d A + BX + CX 2);

· Exponential (y \u003d a * exp (bx));

· Leistung (y \u003d a * x ^ b);

· Hyperbolisch (y \u003d b / x + a);

· Logarithmisch (y \u003d b * 1n (x) + a);

· Anzeige (y \u003d a * b ^ x).

Betrachten Sie das Beispiel den Bau eines Regressionsmodells in Excel und der Interpretation der Ergebnisse. Nehmen Sie die lineare Art von Regression.

Eine Aufgabe. Bei 6 Unternehmen wurden das durchschnittliche monatliche Gehalt und die Anzahl der abosolierten Mitarbeiter analysiert. Es ist notwendig, die Abhängigkeit der Anzahl der absolvierten Mitarbeiter aus dem Durchschnittsgehalt zu ermitteln.

Das lineare Regressionsmodell hat das folgende Formular:

Y \u003d A 0 + A 1 x 1 + ... + A bis X bis.

Wo A die Regressionskoeffizienten, X-Beeinflussungsvariablen, zur Anzahl der Faktoren ist.

In unserem Beispiel, als ob der Indikator für diejenigen, die destillierte Arbeiter sind, sind. Beeinflussungsfaktor - Löhne (x).

Excel verfügt über integrierte Funktionen, mit denen Sie die Parameter des linearen Regressionsmodells berechnen können. Aber schneller wird es ein Add-In "Analysepaket" machen.

Aktivieren Sie ein leistungsfähiges analytisches Werkzeug:

1. Drücken Sie die "Office" -Taste und gehen Sie zur Registerkarte "Excel-Einstellungen". "Add-In".

2. An der Unterseite befindet sich unter der Dropdown-Liste das Feld "Control" die Inschrift "Excel Add-In" (wenn es NEIN gibt, klicken Sie auf das Kontrollkästchen in der rechten Anordnung und wählen Sie). Und die "GO-Button". Klicken.

3. Die Liste der verfügbaren Superstructure-Angebote. Wählen Sie "Analysepaket" und klicken Sie auf OK.

Nach der Aktivierung steht das Add-In auf der Registerkarte Daten zur Verfügung.

Jetzt beschäftigen wir uns direkt mit der direkten Regressionsanalyse.

1. Öffnen Sie das Tool-Menü "Datenanalyse". Wir wählen "Regression".



2. Das Menü öffnet sich, um Eingabewerte und Ausgabeparameter auszuwählen (wo das Ergebnis anzeigen soll). In den Feldern für die Quelldaten geben wir den Bereich des beschriebenen Parameters (y) an und beeinflusst den Faktor (X). Der Rest kann nicht ausfüllen.

3. Nachdem Sie auf OK geklickt haben, zeigt das Programm die Berechnungen auf dem neuen Blatt an (Sie können das Intervall auswählen, das auf dem aktuellen Blatt angezeigt wird, oder ein neues Buch zuweisen).

Achten Sie zunächst auf den R-Quadrat und die Koeffizienten.

R-Quadrat - Bestimmungskoeffizient. In unserem Beispiel - 0,755 oder 75,5%. Dies bedeutet, dass die berechneten Parameter des Modells um 75,5% die Beziehung zwischen den untersuchten Parametern erklären. Je höher der Bestimmungskoeffizient, desto besser ist das Modell. Gut - über 0,8. Schlecht - weniger als 0,5 (eine solche Analyse kann kaum als vernünftig angesehen werden). In unserem Beispiel "nicht schlecht".

Der Koeffizient 64,1428 zeigt, wie y sein wird, wenn alle Variablen in dem unter Berücksichtigen Modell 0 sein werden. Das heißt, andere Faktoren, die nicht im Modell beschrieben werden, werden durch den Wert des analysierenden Parameters beeinflusst.

Der Koeffizient -0,16285 zeigt das Gewicht der Variablen x auf y. Das heißt, der durchschnittliche monatliche Lohn in diesem Modell beeinflusst den Betrag von -0,16285, der mit dem Gewicht zitiert wird (dies ist ein kleiner Einflussgrad). Das Zeichen "-" gibt einen negativen Effekt an: je mehr Gehalt, desto weniger abgeschafft. Was ist richtig.

Fortsetzung des Themas:
Smartphone

Konfigurieren und aktivieren Sie einen speziellen AHCI-Modus, der vorzugsweise jedem Benutzer, der erheblich erweitern möchte, und gleichzeitig die Fähigkeiten Ihres PCs zur Arbeit mit ...