データ分析によるExcelの線形回帰。 Excelで回帰方程式を作成する方法

これは、ある変数の別の変数への依存性を示す最も一般的な方法です。たとえば、次のようになります。 GDPレベル値から 外国投資またはから 国立銀行の信用率またはから 主要なエネルギー資源の価格.

モデリングにより、この依存関係の大きさ(係数)を示すことができます。これにより、直接予測を行い、これらの予測に基づいて何らかの計画を実行できます。 また、回帰分析に基づいて、最終結果に影響を与える優先原因を刺激することを目的とした管理上の決定を行うことが可能であり、モデル自体がこれらの優先要因を強調するのに役立ちます。

線形回帰モデルの概観:

Y = a 0 + a 1 x 1 + ... + a k x k

どこ a -回帰のパラメーター(係数)、 バツ -影響要因、 k モデル因子の数です。

初期データ

初期データの中で、最終パラメータYのいくつかの連続した値または相互接続された値(GDPなど)と、影響を調査している指標の同じ数の値で構成される特定のデータセットが必要です(たとえば、外国投資)。

上の図は、これらの同じ初期データを含む表を示しています。Yは経済的に活発な人口の指標であり、企業の数、資本への投資額、および人口の収入が影響要因、つまりxです。

この図から、モデリングでは動的シリーズ、つまり時間的に連続して固定されたモーメントシリーズしか話せないという誤った結論を下す可能性もありますが、そうではなく、同じ成功でモデル化することができます構造のコンテキスト。たとえば、表で指定されている値\ u200b \ u200bは、年ではなく地域で分割できます。

適切な線形モデルを構築するには、初期データに強いドロップや崩壊がないことが望ましく、そのような場合は平滑化を実行することが望ましいですが、次回は平滑化について説明します。

分析パッケージ

線形回帰モデルのパラメーターは、最小二乗法(OLS)を使用して手動で計算することもできますが、これにはかなりの時間がかかります。 もう少し速く、これはExcelの数式を使用して同じ方法を使用して計算できます。この場合、プログラムが自動的に計算を行いますが、数式を手動で入力する必要があります。

Excelにはアドインがあります 分析パッケージきれいです 強力なツールアナリストを助けるために。 このツールキットは、とりわけ、同じOLSに従って、数回クリックするだけで回帰パラメーターを計算できます。実際、このツールの使用方法については、さらに詳しく説明します。

分析パックのアクティブ化

デフォルトでは、このアドオンは無効になっており、タブメニューには表示されないため、アクティブ化する方法を段階的に見ていきましょう。

Excelで、左上のタブをアクティブにします ファイル、開いたメニューで、アイテムを探します パラメーターそれをクリックします。

開いたウィンドウの左側で、アイテムを探します アドオンそれをアクティブにすると、下部のこのタブにコントロールのドロップダウンリストが表示され、デフォルトでそれが書き込まれます Excelアドイン、ドロップダウンリストの右側にボタンがあります 行け、あなたはそれをクリックする必要があります。

ポップアップウィンドウで、利用可能なアドオンを選択するように求められます。その中で、次のチェックボックスをオンにする必要があります 分析パッケージ同時に、万が一に備えて、 解決策を見つける(これも便利です)次に、ボタンをクリックして選択を確認します わかった.

分析パックを使用して線形回帰パラメーターを見つけるための手順

Analysis Packアドオンをアクティブ化すると、メインメニュータブでいつでも利用できるようになります データリンクの下 データ解析

アクティブなツールウィンドウで データ解析可能性のリストから、検索して選択します 回帰

次に、回帰モデルのパラメーターを計算するための初期データを設定および選択するためのウィンドウが開きます。 ここでは、初期データの間隔、つまり記述されたパラメータ(Y)とそれに影響を与える要因(X)を指定する必要があります。下の図のように、残りのパラメータは原則として設定のオプションです。

ソースデータを選択して[OK]ボタンをクリックすると、Excelはアクティブなブックの新しいシートに計算を表示します(設定で特に設定されていない場合)。これらの計算は次のようになります。

キーセルを黄色で塗りつぶしました。まず最初に注意を払う必要があります。他のパラメータも重要ですが、詳細な分析にはおそらく別の投稿が必要です。

そう、 0,865 - それ R2-決定係数。モデルの計算されたパラメーターの86.5%、つまりモデル自体が、調査されたパラメーターの依存性と変化を説明していることを示しています- Y研究された要因から- Xの。 誇張されている場合は、 モデルの品質の指標です高いほど良いです。 1を超えることはできないことは明らかであり、R 2が0.8を超える場合は良好と見なされ、0.5未満の場合は、そのようなモデルの妥当性に問題が生じる可能性があります。

それでは次に進みましょう モデル係数:
2079,85 - それ a 0-モデルで使用されるすべての因子が0に等しい場合、Yがどうなるかを示す係数。これは、モデルに記述されていない他の因子への依存であると理解されます。
-0,0056 - a 1-Yに対する因子x1の影響の重みを示す係数、つまり、このモデル内の企業の数は、重みが-0.0056(影響の程度はかなり小さい)の経済的に活動的な人口の指標に影響を与えます。 )。 マイナス記号は、この影響がマイナスであることを示しています。つまり、逆説的な意味であっても、企業が多いほど、経済的に活発な人口は少なくなります。
-0,0026 - a 2-モデルによれば、資本への投資量が経済的に活発な人口の規模に及ぼす影響係数も負です。
0,0028 - a 3は、経済的に活動的な人口の規模に対する人口の収入の影響の係数です。ここでは、影響は正です。つまり、モデルによれば、収入の増加は経済的に活動的な人口の規模の増加に貢献します。アクティブな人口。

計算された係数をモデルに収集します。

Y = 2079.85-0.0056x 1-0.0026x 2 + 0.0028x 3

実際、これは線形回帰モデルであり、例で使用されている初期データではこれとまったく同じように見えます。

モデルの推定値と予測

上で議論したように、モデルは、研究されたパラメータの影響因子への依存の大きさを示すだけでなく、これらの影響因子を知ることで予測を行うことができるように構築されています。 この予測を非常に簡単にするには、結果のモデル方程式の対応するxの代わりに影響因子の値を置き換える必要があります。 次の図では、これらの計算はExcelの別の列で行われます。

同じ図のモデルの実際の値(実際に発生した値)と計算された値がグラフの形式で表示され、違い、つまりモデルのエラーが示されます。

繰り返しになりますが、モデルの予測を行うには、既知の影響要因が存在する必要があります。時系列について話している場合、したがって、次のような将来の予測について話します。年または月の場合、この非常に将来に影響を与える要因が何であるかを知ることは常に可能とは言えません。 このような場合、影響因子の予測も行う必要があります。ほとんどの場合、これは自己回帰モデルを使用して行われます。このモデルでは、影響因子が調査中のオブジェクトであり、時間、つまりインジケーターの依存関係です。それが過去にあったものについてモデル化されています。

次の記事で自己回帰モデルを構築する方法を検討し、影響要因の値が将来の期間(例では2008年)にどのようになるかを知っていると仮定し、これらの値をに置き換えます計算すると、2008年の予測が得られます。

従属変数に対するいくつかの値(独立、独立)の影響を示します。 たとえば、経済的に活動的な人口の数が企業の数、賃金、およびその他のパラメータにどのように依存するか。 または:外国投資、エネルギー価格などがGDPのレベルにどのように影響するか。

分析の結果により、優先順位を付けることができます。 そして、主な要因に基づいて、優先分野の開発を予測、計画し、管理上の決定を下します。

回帰が発生します:

線形(y = a + bx);

放物線(y = a + bx + cx 2);

指数(y = a * exp(bx));

パワー(y = a * x ^ b);

双曲線(y = b / x + a);

対数(y = b * 1n(x)+ a);

指数関数(y = a * b ^ x)。

Excelで回帰モデルを作成し、結果を解釈する例を考えてみましょう。 取りましょう リニアタイプ回帰。

仕事。 6社で平均月収と退職者数を分析した。 退職者数の平均給与への依存度を判断する必要があります。

線形回帰モデルの形式は次のとおりです。

Y \ u003d a 0 + a 1 x 1 + ... + a k xk。

ここで、aは回帰係数、xは影響を与える変数、kは因子の数です。

この例では、Yは退職者の指標です。 影響を与える要因は賃金(x)です。

Excelには、線形回帰モデルのパラメーターを計算するために使用できる関数が組み込まれています。 ただし、AnalysisToolPakアドインの方が高速です。

強力な分析ツールをアクティブにします。

1. [Office]ボタンをクリックして、[Excelのオプション]タブに移動します。 「アドオン」。

2.下のドロップダウンリストの[管理]フィールドに、「Excelアドイン」と表示されます(表示されていない場合は、右側のチェックボックスをクリックして選択します)。 そして、Goボタン。 クリック。

3.利用可能なアドオンのリストが開きます。 「分析パッケージ」を選択し、「OK」をクリックします。

アクティベートされると、アドオンは[データ]タブで利用できるようになります。

次に、回帰分析を直接扱います。

1.データ分析ツールのメニューを開きます。 「回帰」を選択します。



2.入力値と出力オプション(結果を表示する場所)を選択するためのメニューが開きます。 初期データのフィールドには、記述されたパラメーターの範囲(Y)とそれに影響を与える要因(X)を示します。 残りは完了する場合と完了しない場合があります。

3. [OK]をクリックすると、プログラムは新しいシートに計算を表示します(現在のシートに表示する間隔を選択するか、出力を新しいワークブックに割り当てることができます)。

まず、決定係数と係数に注目します。

R-squareは決定係数です。 この例では、0.755、つまり75.5%です。 これは、モデルの計算されたパラメーターが、調査されたパラメーター間の関係を75.5%説明していることを意味します。 決定係数が高いほど、モデルは優れています。 良い-0.8以上。 悪い-0.5未満(このような分析はほとんど合理的とは見なされません)。 この例では、「悪くない」。

係数64.1428は、検討中のモデルのすべての変数が0に等しい場合のYを示します。つまり、モデルに記述されていない他の要因も、分析されたパラメーターの値に影響します。

係数-0.16285は、Y上の変数Xの重みを示します。つまり、このモデル内の平均月収は、重みが-0.16285の禁煙者の数に影響します(これは影響の程度は小さいです)。 「-」記号はマイナスの影響を示します。給与が高ければ高いほど、辞めることは少なくなります。 どちらが公平か。

アドオンを使用して統計データ処理を実行することもできます 分析パッケージ(図62)。

提案されたアイテムから、アイテム「 回帰」をクリックし、マウスの左ボタンでクリックします。 次に、[OK]をクリックします。

図に示すウィンドウ。 63。

分析ツール« 回帰»は、最小二乗法を使用してグラフを一連の観測値に適合させるために使用されます。 回帰は、1つ以上の独立変数の値の単一の従属変数への影響を分析するために使用されます。 たとえば、アスリートの運動能力は、年齢、身長、体重など、いくつかの要因の影響を受けます。 これら3つの要素のそれぞれがアスリートのパフォーマンスに与える影響の程度を計算し、取得したデータを使用して別のアスリートのパフォーマンスを予測することができます。

回帰ツールは関数を使用します LINEST.

REGRESSダイアログボックス

ラベル入力範囲の最初の行または最初の列にタイトルが含まれている場合は、チェックボックスを選択します。 ヘッダーがない場合は、このチェックボックスをオフにします。 この場合、出力テーブルデータに適したヘッダーが自動的に生成されます。

信頼性レベルチェックボックスを選択して、出力合計テーブルに追加のレベルを含めます。 適切なフィールドに、デフォルトの95%信頼水準に加えて、適用する信頼水準を入力します。

定数-ゼロチェックボックスをオンにすると、回帰直線が原点を通過します。

出力範囲出力範囲の左上のセルへの参照を入力します。 結果の出力テーブルに少なくとも7つの列を割り当てます。これには、分散分析の結果、係数、Y計算の標準誤差、標準偏差、観測数、係数の標準誤差が含まれます。

新しいワークシートこのボックスをオンにすると、ワークブックに新しいワークシートが開き、セルA1から分析結果が挿入されます。 必要に応じて、適切なラジオボタンの位置の反対側のフィールドに新しいシートの名前を入力します。

新しいワークブックこのボックスをオンにすると、結果が新しいシートに追加される新しいワークブックが作成されます。

残差出力テーブルに残差を含めるには、チェックボックスを選択します。

標準化された残差標準化された残差を出力テーブルに含めるには、チェックボックスを選択します。

残差プロットチェックボックスをオンにすると、各独立変数の残差がプロットされます。

Fit Plotチェックボックスを選択して、観測値に対して予測値をプロットします。

正規確率プロットチェックボックスをオンにすると、正規確率がプロットされます。

関数 LINEST

計算を実行するには、カーソルで平均値を表示するセルを選択し、キーボードの=キーを押します。 次に、[名前]フィールドで、たとえば目的の関数を指定します 平均(図22)。

関数 LINEST最小二乗法を使用して系列の統計を計算し、使用可能なデータを最もよく近似する直線を計算してから、結果の直線を表す配列を返します。 機能を組み合わせることもできます LINEST多項式、対数、指数、べき級数など、未知のパラメーター(未知のパラメーターは線形)で線形である他の種類のモデルを計算する他の関数を使用します。 値の配列が返されるため、関数は配列数式として指定する必要があります。

直線の方程式は次のとおりです。

y = m 1 x 1 + m 2 x 2 +…+ b(x値の範囲が複数ある場合)、

ここで、従属値yは独立値xの関数であり、値mは各独立変数xに対応する係数であり、bは定数です。 y、x、およびmはベクトルである可能性があることに注意してください。 関数 LINEST配列を返します(mn; mn-1;…; m 1; b)。 LINEST追加の回帰統計を返す場合もあります。

LINEST(known_y-values; known_x-values; const; statistics)

既知のy値-y = mx + bの関係ですでに知られているy値のセット。

known_yの配列に1つの列がある場合、known_xの配列の各列は個別の変数として解釈されます。

known_yの配列に1つの行がある場合、known_xの配列の各行は個別の変数として解釈されます。

既知のx値-y = mx + bの関係ですでに知られているオプションのx値のセット。

known_x配列には、1つ以上の変数のセットを含めることができます。 変数が1つだけ使用されている場合、arrays_known_y_valuesとknown_x_valuesは、同じ次元である限り、任意の形状にすることができます。 複数の変数を使用する場合、known_yはベクトル(つまり、高さ1行または幅1列)である必要があります。

array_known_xを省略すると、この配列(1; 2; 3; ...)はarray_known_yと同じサイズであると見なされます。

Constは、定数bが0である必要があるかどうかを指定するブール値です。

引数「const」がTRUEであるか省略されている場合、定数bは通常どおり評価されます。

引数「const」がFALSEの場合、bの値は0であると見なされ、mの値はy = mxの関係が満たされるように選択されます。

Statisticsは、追加の回帰統計を返す必要があるかどうかを示すブール値です。

統計がTRUEの場合、LINESTは追加の回帰統計を返します。 返される配列は次のようになります:(mn; mn-1; ...; m1; b:sen; sen-1; ...; se1; seb:r2; sey:F; df:ssreg; ssresid)。

統計がFALSEまたは省略されている場合、LINESTは係数mと定数bのみを返します。

追加の回帰統計(表17)

価値 説明
se1、se2、...、sen 係数m1、m2、...、mnの標準誤差値。
seb 定数bの標準誤差( 'const'がFALSEの場合はseb =#N / A)。
r2 決定要因。 yの実際の値は、直線方程式から得られた値と比較されます。 比較の結果に基づいて、決定論の係数が計算され、0から1に正規化されます。1に等しい場合、モデルとの完全な相関関係があります。つまり、実際の値と推定値の間に差はありません。 yの。 それ以外の場合、決定論の係数が0の場合、回帰方程式を使用してy値を予測しても意味がありません。 r2の計算方法の詳細については、このセクションの最後にある「備考」を参照してください。
sey y推定の標準誤差。
F F統計値またはF観測値。 F統計は、従属変数と独立変数の間で観測された関係がランダムであるかどうかを判断するために使用されます。
df 自由度。 自由度は、統計表でF臨界値を見つけるのに役立ちます。 モデルの信頼水準を決定するには、表の値をLINESTによって返されるF統計量と比較する必要があります。 dfの計算の詳細については、このセクションの最後にある「備考」を参照してください。 以下の例4は、Fとdfの使用法を示しています。
ssreg 回帰二乗和。
ssresid 残差平方和。 ssregおよびssresidの計算の詳細については、このセクションの最後にある「備考」を参照してください。

次の図は、追加の回帰統計が返される順序を示しています(図64)。

ノート:

直線は、その傾きとy軸との交点で表すことができます。

傾き(m):通常mで表される直線の傾きを決定するには、直線上の2つの点(x 1、y 1)と(x 2、y 2)を取る必要があります。 傾きは(y 2 -y 1)/(x 2 -x 1)に等しくなります。

Y交差(b):通常bで示される線のy交差は、線がy軸と交差する点のy値です。

直線方程式の形式はy = mx + bです。 mとbの値がわかっている場合は、yまたはxの値を方程式に代入することで、線上の任意の点を計算できます。 TREND関数を使用することもできます。

独立変数xが1つしかない場合は、次の式を使用して傾きとy切片を直接取得できます。

スロープ:INDEX(LINEST(known_y's、known_x's)、1)

Y切片:INDEX(LINEST(known_y's、known_x's)、2)

LINEST関数で計算された直線を使用した近似の精度は、データのばらつきの程度によって異なります。 データが直線に近いほど、LINESTで使用されるモデルはより正確になります。 LINEST関数は、最小二乗法を使用して、データに最適なものを決定します。 独立変数xが1つしかない場合、mとbは次の式を使用して計算されます。

ここで、xとyはサンプル平均です。たとえば、x = AVERAGE(known_x's)およびy = AVERAGE(known_y's)です。

LINESTおよびLGRFPRIBL近似関数は、データに最適な直線曲線または指数曲線を計算できます。 ただし、2つの結果のどちらが問題の解決に適しているかという質問には答えません。 直線の場合はTREND(known_y-values; known_x-values)関数を計算し、指数曲線の場合はGROWTH(known_y-values; known_x-values)関数を計算することもできます。 これらの関数は、new_x_values引数を指定しない場合、直線または曲線に従って実際のx値に対して計算されたy値の配列を返します。 次に、計算された値を実際の値と比較できます。 視覚的に比較するためのチャートを作成することもできます。

回帰分析を行うことにより、 マイクロソフトエクセル各ポイントについて、予測されたy値と実際のy値の差の2乗を計算します。 これらの二乗差の合計は、残差二乗和(ssresid)と呼ばれます。 次に、Microsoft Excelは総平方和(sstotal)を計算します。 const = TRUEの場合、またはこの引数が指定されていない場合、二乗の合計は、実際のy値と平均y値の差の二乗の合計に等しくなります。 const = FALSEの場合、二乗和は実際のy値の二乗和に等しくなります(商yから平均yを減算することはありません)。 その後、回帰二乗和は次のように計算できます。ssreg= sstotal-ssresid。 残差平方和が小さいほど、決定論の係数r2の値が大きくなります。これは、次の式を使用して得られた方程式がどれだけ優れているかを示します。 回帰分析、変数間の関係を説明します。 係数r2はssreg / sstotalに等しくなります。

場合によっては、1つ以上のX列(Y値とX値を列に含める)には、他のX列に追加の予測値がありません。つまり、1つ以上のX列を削除すると、Y値になる可能性があります。同じ精度で計算されます。 この場合、冗長なX列は回帰モデルから除外されます。 Xの冗長列は、いくつかの非冗長列の合計として表すことができるため、この現象は「共線性」と呼ばれます。 LINESTは、共線性をチェックし、冗長なX列が見つかった場合は、回帰モデルから削除します。 削除されたX列は、LINEST出力で係数0およびse値0で識別できます。1つ以上の列を冗長として削除すると、予測目的で実際に使用されるX列の数に依存するため、dfの値が変更されます。 dfの計算の詳細については、以下の例4を参照してください。冗長な列の削除によりdfが変更されると、seyとFの値も変更されます。 多くの場合、共線性を使用することはお勧めしません。 ただし、一部のX列に、実験の対象が別のグループにあるかどうかを示すインジケーターとして0または1が含まれている場合に使用する必要があります。 const = TRUEの場合、またはこの引数が指定されていない場合、LINESTは交点をシミュレートするために追加のX列を挿入します。 値が男性の場合は1、女性の場合は0の列があり、値が女性の場合は1、男性の場合は0の列がある場合、最後の列は削除されます。これは、その値がから取得できるためです。 「男性インジケーター」列。

共線性のためにX列がモデルから削除されない場合のdfの計算は、次のとおりです。k個のknown_x列があり、const = TRUEであるか指定されていない場合、df = n --k-1です。const= FALSEの場合、次に、df = n-kです。 どちらの場合も、共線性のためにX列を削除すると、dfの値が1増加します。

配列を返す数式は、配列数式として入力する必要があります。

たとえば、定数の配列をknown_x_values引数として入力する場合は、セミコロンを使用して同じ行の値を区切り、コロンを使用して行を区切ります。 区切り文字は、コントロールパネルの[言語と標準]ウィンドウの設定によって異なる場合があります。

回帰方程式によって予測されたy値は、方程式を定義するために使用されたy値の範囲外にある場合、正しくない可能性があることに注意してください。

関数で使用される主なアルゴリズム LINEST、関数のメインアルゴリズムとは異なります 傾斜セクション。 アルゴリズム間の違いにより、不確実で同一線上のデータに対して異なる結果が生じる可能性があります。 たとえば、known_yの引数のデータポイントが0で、known_xの引数のデータポイントが1の場合、次のようになります。

関数 LINEST 0に等しい値を返します。関数アルゴリズム LINEST共線データに適した値を返すために使用され、 この場合少なくとも1つの答えが見つかります。

SLOPE関数とINTERCEPT関数は、#DIV / 0!エラーを返します。 SLOPE関数とINTERCEPT関数のアルゴリズムは、1つの答えのみを見つけるために使用されます。この場合、複数の答えが存在する可能性があります。

他のタイプの回帰の統計を計算することに加えて、LINESTを使用して、x変数とy変数の関数をLINESTの一連のx変数とy変数として入力することにより、他のタイプの回帰の範囲を計算できます。 たとえば、次の式:

LINEST(y-values、x-values ^ COLUMN($ A:$ C))

Y値の1つの列とX値の1つの列を処理して、次の形式の3次近似(3次多項式)を計算します。

y = m 1 x + m 2 x 2 + m 3 x 3 + b

数式を変更して他のタイプの回帰を計算することもできますが、場合によっては、出力値や他の統計の調整が必要になります。

回帰直線は、現象間の関係をグラフで反映したものです。 Excelで回帰直線を簡単に作成できます。

このために必要なもの:

1.Excelプログラムを開きます

2.データを使用して列を作成します。 この例では、1年生の攻撃性と自己不信の間に回帰直線または関係を構築します。 実験には30人の子供が参加し、データはExcelの表に示されています。

1列-件名の番号

2列- 攻撃性ポイントで

3列- 自己不信ポイントで

3.次に、両方の列を(列の名前なしで)選択する必要があり、タブを押します 入れる , 選択する 、および提案されたレイアウトから最初のものを選択します マーカー付きのドット .

4.したがって、回帰直線の空白を取得しました-いわゆる- 散布図。 回帰直線に移動するには、結果の図をクリックして、タブをクリックする必要があります コンストラクタ、 パネルで見つける チャートレイアウト と選択します M a ket9 、それはまた言います f(x)

5.つまり、回帰直線があります。 グラフには、その方程式と相関係数の2乗も表示されます

6.グラフの名前、軸の名前を追加する必要があります。 また、必要に応じて、凡例を削除し、水平グリッド線の数を減らすことができます(タブ レイアウト 、 それから ネット )。 主な変更と設定はタブで行われます レイアウト

回帰直線はMSExcelに組み込まれています。 これで、作品のテキストに追加できます。

線形回帰を構築し、そのパラメーターとその重要性を推定することは、パッケージを使用するときにはるかに高速に行うことができます Excel分析(回帰)。 一般的な場合で得られた結果の解釈を考えてみましょう( k説明変数)例3.6による。

テーブル 回帰統計値が与えられます:

多数 R –多重相関係数;

R- 平方–決定係数 R 2 ;

正規化 R - 平方-調整済み R 2自由度の数に合わせて調整。

標準エラー回帰の標準誤差です S;

観察-観測数 n.

テーブル 分散分析与えられた:

1.列 df -自由度の数、等しい

文字列用 回帰 df = k;

文字列用 残りdf = nk – 1;

文字列用 合計df = n– 1.

2.列 SS-偏差の2乗の合計。

文字列用 回帰 ;

文字列用 残り ;

文字列用 合計 .

3.列 MS式によって決定される分散 MS = SS/df:

文字列用 回帰–因子分散;

文字列用 残り残余分散です。

4.列 F -計算値 F-式によって計算される基準

F = MS(回帰)/ MS(残り)。

5.列 意義 F 計算されたに対応する有意水準値です F-統計学 .

意義 F= FRIST( F-統計学、 df(回帰)、 df(残り))。

重要な場合 F < стандартного уровня значимости, то R 2は統計的に有意です。

係数 標準エラー t統計 p値 ボトム95% トップ95%
Y 65,92 11,74 5,61 0,00080 38,16 93,68
バツ 0,107 0,014 7,32 0,00016 0,0728 0,142

この表は次のことを示しています。

1. オッズ–係数値 a, b.

2.標準エラー回帰係数の標準誤差です S a, Sb.



3. t-統計学–計算値 t -次の式で計算される基準:

t統計量=係数/標準誤差。

4.R-値(重要度 t) 計算されたに対応する有意水準の値です t-統計学。

R-値= STUDRASP(t-統計学、 df(残り))。

もしも R-意味< стандартного уровня значимости, то соответствующий коэффициент статистически значим.

5。 下位95%および上位95%は、理論的な線形回帰方程式の係数の95%信頼区間の下限と上限です。

撤退の残り
観察 予測されるy 残りe
72,70 -29,70
82,91 -20,91
94,53 -4,53
105,72 5,27
117,56 12,44
129,70 19,29
144,22 20,77
166,49 24,50
268,13 -27,13

テーブル 撤退の残り示されている:

列に 観察–観測数;

列に 予測 y 従属変数の計算値です。

列に 残ります e 従属変数の観測値と計算値の差です。

例3.6。食料支出に関する利用可能なデータ(任意単位) yと一人当たりの収入 バツ家族の9つのグループの場合:

バツ
y

Excel分析パッケージ(回帰)の結果を使用して、1人当たりの収入の値に対する食料コストの依存性を分析します。

回帰分析の結果は通常、次のように記述されます。

ここで、括弧内は回帰係数の標準誤差です。

回帰係数 a = 65,92 およびb= 0.107。 間の通信方向 yバツ回帰係数の符号を決定します b= 0.107、つまり 関係は直接的で前向きです。 係数 b= 0.107は、1人当たりの収入が1アービト増加することを示しています。 単位 食料費は0.107conv増加します。 単位

得られたモデルの係数の有意性を推定してみましょう。 係数の重要性( a、b)に対してチェックされます t- テスト:

p値( a) = 0,00080 < 0,01 < 0,05

p値( b) = 0,00016 < 0,01 < 0,05,

したがって、係数( a、b)は1%レベルで有意であり、5%レベルではさらに重要です。 したがって、回帰係数は重要であり、モデルは元のデータに適しています。

回帰推定の結果は、得られた回帰係数の値だけでなく、それらのセットの一部(信頼区間)とも互換性があります。 95%の確率で、係数の信頼区間は(38.16-93.68) aおよび(0.0728-0.142) b。

モデルの品質は、決定係数によって評価されます R 2 .

価値 R 2 = 0.884は、一人当たりの所得要因が食料支出の変動(ばらつき)の88.4%を説明できることを意味します。

意義 R 2によってチェック F-テスト:有意性 F = 0,00016 < 0,01 < 0,05, следовательно, R 2は1%レベルで有意であり、5%レベルではさらに重要です。

ペアワイズ線形回帰の場合、相関係数は次のように定義できます。 。 得られた相関係数の値は、食料支出と一人当たり所得の関係が非常に近いことを示しています。

トピックの続き:
スマートテレビ

高周波ユニットには、コンバーターステージ、入力およびヘテロダイン回路が含まれています。 ファーストクラスと最高クラスの受信機、およびコンバーターの前のVHF範囲で...