Excelの回帰溶液の例。 Excelの多重回帰方程式の構築
に エクセル スケジュールを構築するためのより速くそして便利な方法でさえあります。 線形回帰 (そしてCMとして、非線形回帰の主要な種類でさえも。次へ) これは次のようにすることができます。
1)データで列を割り当てます バツ。 そして y。 (彼らはこの順序で見つけるべきです!);
2)呼び出します マスターチャート そしてグループで選ぶ タイプ – p そしてすぐにプレスします 準備ができて;
3)ダイアグラムから選択をドロップすることなく、表示される最初の項目項目を選択します ダイアグラムあなたはアイテムを選ぶべきです トレンドラインを追加してください;
4)ダイアログの表示ダイアログボックスで トレンドライン タブに タイプ選ぶ 線形;
5)タブに パラメータースイッチを有効にすることができます チャートの方程式を示すこれにより、係数(4.5)が計算される線形回帰式(4.4)を見ることができます。
6)同じタブで、スイッチを有効にすることができます ダイアグラム上の近似精度の値(R ^ 2)を配置する(R ^ 2)。 この大きさは相関係数(4.3)の二乗であり、計算式に実験的依存性をどの程度うまく表すかを示しています。 もし r 2は単位に近い、理論回帰方程式は実験的な依存を表しています(理論は実験とよく一致しています)、そして r 2ゼロに近い、その後 この方程式 実験的依存性を説明するのには適していない(理論は実験と一致していません)。
説明された動作の実行の結果として、回帰スケジュールおよびその方程式を有する図が得られるであろう。
§4.3。 非線形回帰の主な種類
パラボラおよび多項式の回帰
パラボリック 大きさの依存 y。 マグニチュードから h 依存関係は二次関数(2次パラボラ)と呼ばれます。
この式は求められます 放物線回帰の方程式 上に h。 パラメーター だが, b, から 呼び出す 放物線退行係数の係数。 放物線回帰係数の計算は常に面倒なので、計算にコンピュータを使用することをお勧めします。
パラボラ回帰の式(4.8)は、多項式と呼ばれるより一般的な回帰の特別なケースです。 多項式 大きさの依存 y。 マグニチュードから h Polynomialによって表現された依存関係と呼ばれます n注文:
数字の数 a i。 (私。=0,1,…, n) 多項式回帰係数の係数.
消費電流
力 大きさの依存 y。 マグニチュードから h フォームの依存関係が呼び出されます。
この式は求められます 消費電流の方程式 上に h。 パラメーター だが そして b 呼び出す 消費電流の係数.
ln \u003d ln。 a.+bln。 バツ。. (4.11)
この式は、LNの対数座標軸を持つ平面上の直接を表します。 バツ。 そしてln。 したがって、電力回帰の適用性の基準は、経験データLNの対数のポイントが要求されていることです。 x i. そしてln。 私。 それらは線に最も近い(4.11)。
指標回帰
indic indic(または又は 指数関数)大きさの依存 y。 マグニチュードから h フォームの依存関係が呼び出されます。
(または)。 (4.12)
この式は求められます 式は示します (または又は 指数関数) 退職 上に h。 パラメーター だが (または又は k) 私。 b 呼び出す 係数を示す (または又は 指数関数) 回帰.
電力回帰式の両方の部分が事例である場合、式は次に
ln \u003d。 バツ ・ln。 a.+ ln。 b (またはln \u003d k・X。+ ln。 b). (4.13)
この式は、別の値からの単一のLN値の対数の線形依存性を表しています。 バツ。。 したがって、消費電流の適用性の基準は、同じ大きさの経験的データの点が要求されていることです。 x i. そして他のLNの大きさの対数 私。 彼らは直接(4.13)に最も近いです。
対数回帰
対数大きさの依存 y。 マグニチュードから h フォームの依存関係が呼び出されます。
=a.+bln。 バツ。. (4.14)
この式は求められます 対数回帰の方程式 上に h。 パラメーター だが そして b 呼び出す 対数回帰係数.
双曲線回帰
双曲線 大きさの依存 y。 マグニチュードから h フォームの依存関係が呼び出されます。
この式は求められます 双曲線回帰の方程式 上に h。 パラメーター だが そして b 呼び出す 双曲線回帰の係数 そして最小の正方形の方法によって決定されます。 この方法を使用すると、式があります。
式(4.16-4.17)の合計はインデックスによって行われます 私。 観察数から観察数まで n.
残念ながら、 エクセル 双曲線回帰の係数を計算する機能はありません。 測定値が逆比例に関連していることが知られていない場合、電力回帰式を求めるための双曲線回帰式の代わりに推奨される。 エクセル その場所の手順があります。 測定値の間に双曲線依存性が想定されている場合、その回帰係数は式(4.16-4.17)に従って補助計算テーブルと合計操作を使用して計算する必要があります。
回帰線は現象との関係のグラフィック反映です。 Excelでは明らかに回帰ラインを作成することができます。
これのために必要なので:
1. Excelプログラムを抽出します
2.データを含む列を作成します。 私たちの例では、積極的な攻撃と不確実性の間に、積極的な攻撃と不確実性の間に、積極的な回線または相互関係を構築します。 実験では、30人の子供が参加し、データは特別な表に表示されます。
1列 - テスト番号
2つのコルマド - 積極的 バラートで
3コレンシド - diff diff バラートで
3.次に、両方の列をハイライトする必要があります(列の名前なし)、タブをクリックします。 インサート , 選ぶ p 最初のものを選ぶために提案されたレイアウトから マーカーで熟練しています .
4.それでは、回帰回線のための空白を得ました - いわゆる - 散乱図。 回帰回線に移動するには、結果の描画をクリックしてタブをクリックする必要があります。 コンストラクタ、 パネルを見つけてください レイアウト図 そして選ぶ m だがket9。 それはまだそれに書かれています f(x)
5.そして我々は回帰ラインを持っています。 グラフはまた、その式と相関係数の二乗を示しています
6.チャート名、軸の名前があります。 また、凡例を削除することもでき、水平メッシュライン数を減らすこともできます(タブ レイアウト その後、 グリッド )。 メインの変更と設定はタブで行われます。 レイアウト
回帰回線はMS Excelで構築されています。 今すぐ作業のテキストに追加することができます。
回帰分析B マイクロソフトエクセル。 - ほとんど。 フルマニュアル ビジネスインテリジェンスの分野における回帰分析の問題を解決するためにMS Excelを使用する。 Konrad Carlbergは、理論的な質問を利用して説明しています。その知識は、独立した回帰分析の両方で多くのエラーを回避するのに役立ちます。 単純な相関からのすべての材料とTテストから複数の共分散分析へのテスト 実際の例 そして同伴した 詳細な説明 関連するステップバイステップの手順
本に関連する機能と矛盾について説明します エクセルの特徴 回帰を扱うために、そのオプションと各議論のそれぞれを使用することの結果が検討され、医学研究から財務分析まで、さまざまな分野で回帰方法を確実に適用します。
Konrad Carlberg。 Microsoft Excelの回帰分析 - M .: Dialectics、2017. - 400 p。
フォーマットまたは例のフォーマットでメモをダウンロードしてください
データの変動の評価
統計の処分では、変動の多くの指標(変動性)があります。 そのうちの1つは、平均からの個々の値の偏差の二乗の合計です。 Excelでは、quadrolc()関数が使用されます。 しかし、分散はより頻繁に使用されます。 分散は偏差の平均二乗です。 分散は、テストデータセット内の値の数に対して鈍感である(一方、偏差の二乗の合計は測定数で成長する)。
Excelプログラムは、displise:display()とdisplay()を返す2つの機能を提供します。
- 処理される値が一般的なセットに形成されている場合は、display()の関数を使用してください。 これらの範囲内に含まれる値は、興味のある唯一の値です。
- 処理する値が大きいボリュームのセットからサンプルを形成する場合は、DISPLAY FUNCTION()を使用してください。 追加の値があると仮定されています。その分散は評価できます。
一般的な人口に基づいて平均値または相関係数としてのこの値が計算される場合は、パラメータと呼ばれます。 サンプルに基づいて計算された同様の値は統\u200b\u200b計と呼ばれます。 逸脱をカウントする 平均から このセットでは、他の値からカウントされた場合よりも小さい値の偏差の正方形の合計を受け取ります。 同様のアサーションが分散に当てはまります。
サンプリングが多いほど、計算された統計値をより正確にします。 しかし、統計の値がパラメータの値と一致することが確かに、一般的な人口の量より少ないボリュームのサンプルはありません。
この違いが小さければ、一般的な人口の平均とは異なります。 サンプルの分散を計算した場合、あなたはその意味のいくつかを受け取るでしょう、言う4.この値は他のどのようなものよりも小さいです。これは、任意の値に対する任意の値に対する100個の成長値のそれぞれの偏差を計算することができます。サンプル上の平均より、数と比較的真の平均総集計。 したがって、計算された分散は、どういうわけか学習し、選択的な意味ではなく、一般的な集合体のパラメータである場合には、狭い側面では異なります。
サンプルに定義されている平均二乗和は、一般集団の分散の低い推定値を与えます。 このようにして計算された分散は求められます 変わった 評価。 オフセットを除外して耐え難い評価を受けて、偏差の正方形の合計を分割するのに十分です。 nどこ n - サンプルサイズ、およびON n - 1。.
値 n - 1。自由度の数量(数)と呼ばれる。 存在します 異なる方法 この値の計算はすべて、サンプルサイズからいくつかの番号を差し引いたり、観察が勝ったりするカテゴリ数を数えたりすることができます。
display()とdisplay()の関数の違いの本質は次のとおりです。
- ディスプレイ()の関数では、正方形の合計は観測数に分割され、したがって、分散のずれた評価、真の平均値を表す。
- ディスプレイ()の関数では、正方形の合計はマイナス1の観測数、すなわち このサンプルが検索された一般集団の分散のより正確で柔軟な評価を与える自由度の数によって。
標準偏差(ENG。 標準偏差、SD) - 分散の平方根があります。
正方形の偏差の構築は、測定スケールを別のメトリックに変換します。これは、元のMeters-Meters、1四角形のドルなどの正方形です。 標準偏差は分散液から平方根であるため、初期測定単位に戻ります。 もっと便利。
データがいくつかの操作にさらされた後に標準偏差を計算することがしばしば必要です。 そして、これらの場合、結果は間違いなく標準の偏差であると呼ばれます 標準エラー。 標準的な測定誤差、標準比率誤差、標準平均誤差など、いくつかの種類の標準誤差がいくつかあります。
50の状態のそれぞれの25個のランダムに選択された成人男性の成長に関するデータを収集したとします。 次に、各状態における成人男性の平均成長を計算します。 得られた50の平均値は、観察と見なすことができる。 これに基づいて、標準偏差を計算することができます。 標準中間誤差。 図。 1. 1250個のソースの個々の値の分布(50の状態の成長に関するデータ)を比較することができます.50州の平均セットの分布と比較することができます。 平均の標準誤差を推定するための式(すなわち、平均値の標準偏差、そして個々の観察ではない):
平均の標準誤差はどこにありますか。 s - 初期観測の標準偏差。 n - サンプル内の観測数。
図。 1.状態から状態への中程度の値の変動は、個々の観察結果の変化を大幅に低下させる
統計では、統計量を指定するためのギリシャ語とラテン文字の使用に関する合意があります。 ギリシャ文字は、一般的な人口のパラメータ、ラテン語の選択的統計を指定するために作られています。 したがって、私たちが一般的な人口の標準偏差について話しているならば、我々はそれをσとして書きます。 サンプルの標準偏差が考慮される場合は、指定Sを使用します。 平均を指定するための文字に関しては、それほどうまくいかない互いに一致しています。 一般集団の平均はギリシャ文字μで示されています。 しかしながら、X1シンボルは、サンプル媒体を表すために伝統的に使用されている。
zスコア 標準偏差の単位で分布の観測の位置を表します。 例えば、z \u003d 1.5は、観察が平均から1.5の標準偏差に大きな値に向かっていることを意味します。 期間 zスコア 個々の推定値、すなわち サンプルの個々の要素に起因する測定のために。 そのような統計(たとえば、平均標準)の場合は用語を使用してください。 z値:
ここで、x∈は平均サンプル値です。μは一般セットの平均値、平均サンプルセットの標準エラーです。
ここで、σは一般集団の標準誤差(個別測定)です。 n - サンプルサイズ。
ゴルフクラブで講師として働いているとします。 あなたは衝撃の範囲を測定し、その平均価値が205ヤードであり、標準偏差は36ヤードであることを知っています。 あなたはそれが10ヤードの距離を増加させるだろうと主張した新しいクラブを提供しました。 次の81クラブの訪問者のそれぞれに、新しいキーでテストパンチを実行し、そのヒット範囲を書き留めます。 新しいキーを持つ平均滴下範囲は215ヤードであることがわかりました。 10ヤード(215 - 205)の差がサンプリングの例外的に誤りによるものである可能性は何ですか? あるいは別の方法で:より大きなテストでは、新しい鍵は、既存の長期平均205ヤードと比較して、影響の距離の増加を示唆しませんか?
z値を形成することで確認できます。 標準中間エラー:
それからz値:
サンプルの平均が一般集団の平均から2.5σまで損害を与える可能性を見つける必要があります。 確率が小さい場合、その違いは事故によるものですが、新しいスティックの品質です。 Excelでは、確率z値を決定するための完成機能はありません。 しかしながら、式\u003d 1 - norms.st.sp。(z値;真実)。ここで、norms.st.sp()の関数はzの左側に通常の曲線の下の領域を返します。値(図2)。
図。 2. NORMS.STの関数.Asp()は、曲線の下の領域をz値の左側に戻します。 画像を拡大するにはクリックしてください 右クリック マウスとセレクト 新しいタブで写真を開く
norms.st.spの関数の2番目の引数。()は2つの値を取ります.truws - 関数は、最初の引数によって与えられたポイントの左側にある曲線の下の領域を返します。 fals - 関数は、最初の引数によって与えられた時点で曲線の高さを返します。
平均値(μ)と一般母集団の標準偏差(σ)がわからない場合、t値が使用されます(詳細を参照)。 Z値およびT値の構造は、T値を見つけること、選択結果に基づいて得られた標準偏差S、および一般母集団のパラメータの非既知の値があるという事実によって区別される。中古。 通常の曲線は単一の形式を持ち、T値の分布の形式はDFの自由度数によって異なります(英語から)。 自由度)それが表すサンプル。 サンプルの自由度数は等しい n - 1。どこ n - サンプルサイズ(図3)。
図。 パラメータσが未知の場合に生じるT分布の形式は、正規分布の形とは異なる
Excelでは、T-Distributionも2つの機能があります.Seturne.rasp()は、指定されたT値の左側の曲線の下の領域の値を返します。px() - 右側に。
第2章相関
相関は、順序付けられた蒸気の集合の要素間の関係の尺度です。 相関関係は特徴付けられます ピアソン相関係数- r。 係数は、-1.0から+1.0の範囲の値を取ることができます。
どこ S x. そして s y。 - 標準変数偏差 h そして y。, xy。 - 共分散:
この式では、共分散は変数の標準偏差に分割されています h そして y。それによって、測定単位に関連するスケーリング効果を共振器から除去する。 ExcelはCorrela()関数を使用します。 この関数のタイトルでは、標準クローン()、皿()、Covariance()などの関数の名前で使用されているGとBの明確な要素はありません。 変位した定格によって提供されるサンプルの相関比は、分散または標準偏差の場合とは異なります。
一般的な相関係数の大きさに応じて(ギリシャ文字によってよく示されている ρ )、 相関係数 r それは変位した定格を与え、そして変位効果はサンプルサイズの減少で強化される。 それにもかかわらず、我々は、例えば対応する式に代入されていないが、自由度の数に代わるものではなく、標準偏差を計算する際に行われたのと同じように、この変位を調整しようとしていない。 実際、共分散を計算するために使用される観察の数は、大きさに影響を与えません。
標準の相関係数は、線形比に関連する変数と共に使用することを意図している。 非線形性および/またはデータ内の誤差(排出)の存在は、相関係数の誤った計算をもたらす。 データの問題を診断するために、ポイント図を構築することをお勧めします。 これはExcelのダイアグラムの唯一のタイプで、水平方向と垂直軸は値の軸として扱われます。 線形図の1つの列の1つは、カテゴリ軸がデータピクチャをどのように歪むかを定義します(図4)。
図。 4.回帰線は同じように見えますが、それらの方程式を比較する
線状図を構築するために使用される観察は、横軸等期に沿って配置されている。 この軸に沿った部門の碑文は単なる碑文であり、数値ではありません。
相関がしばしば因果関係の存在を意味するという事実にもかかわらず、それがそうであるという証拠として役立たない。 統計は、理論が真実か偽であることを実証するためには使用されません。 観察結果の競合説明を排除するために 計画実験。 統計は、そのような実験の間に収集された情報を要約するために引き寄せられ、決定された決定が既存の証拠基地において誤っている可能性がある可能性の定量的評価。
第3章単純な回帰
2つの変数が相互接続されている場合、相関係数の値は、例えば0.5、つまり0.5を超えると、(ある程度の精度で)既知の値の値の1つの変数の未知の値(ある程度の精度で)予測できます。 予測価格値の場合、図4に示すデータに基づいて。 5、あなたはいくつかを使うことができます 可能なメソッドしかしほぼ確実にあなたは図1に示されているものを使用しないであろう。 5.他の方法は、このような相関と予測の間の関係を明確に実証することを可能にするので、あなたはそれを理解する必要があります。 図1において、No。 5 B2範囲:C12は10の家のランダムなサンプルであり、各家の地域(平方フィート)の地域にデータを提供し、その販売価格を提供します。
図。 5.予測販売価格は直線的な線を形成します
平均値、標準偏差、相関係数を見つけます(範囲A14:C18)。 領域のz推定値(E2:E12)を計算します。 たとえば、EZセルには式:(B3- $ 14)/ $ 15が含まれています。 予測価格のz推定値(F2:F12)を計算します。 たとえば、F3セルには式:\u003d YEZ * $が18ドルで含まれています。 Z概要を価格でドル(H2:H22)に翻訳する。 NZセル式では:\u003d F3 * $ C $ 15 + $ C $ 14。
注意してください:投影値は、常に1に等しい平均に向かってシフトしようとしています。相関係数がゼロに近いほど、ゼロに近いZ-推定値はゼロに近いです。 この例では、地域と販売価格の間の相関係数は0.67、予測価格は1.0 * 0.67、すなわち 0.67。 これは、標準偏差の3分の2に等しい平均値を超える超過値に対応しています。 相関係数が0.5に等しい場合、予測価格は1.0 * 0.5、すなわち 0.5。 これは、標準偏差の半分だけに等しい平均値を超える超過値に対応します。 相関係数値が完全と異なる場合は、すなわちすなわち さらに-1.0以内1.0未満の投影変数の推定値は、予測子(独立)変数の推定値よりも平均値に近いはずです。 この現象は中回帰、または単に回帰と呼ばれます。
Excelには、回帰線式の係数を決定するためのいくつかの関数があります(Excelでトレンドラインと呼ばれます) y \u003dkx + b。 決定のために k 機能を提供しています
\u003d傾斜(既知_name_u;既知_statation_x)
ここに w - 予測される変数、および h - 独立変数。 あなたは厳密にこの変数の順序に従わなければなりません。 回帰線の傾き、相関係数、標準変数、および共分散偏差は互いに密接に関係している(図6)。 segment()関数は、垂直軸上の回帰線を切り取る値を返します。
\u003dセグメント(既知_Stations_u;既知_statation_x)
図。 標準偏差の比率は共分散を相関係数と回帰線の傾斜に変換する
引数としてslope()関数とsegment()によって提供されるx値とy値の数は同じであるべきです。
回帰分析において、別の重要な指標が使用される - R 2(R平方根)、または決定係数。 依存によって全体的なデータのばらつきに対するどの貢献が導入されているかを決定します h そして w。 Excelでは、correla()関数とまったく同じ引数を取ります。
それらの間に非ゼロ相関係数を有する2つの変数では、それらは分散を説明するか、または説明された分散を有すると言う。 通常説明された分散はパーセンテージとして表される。 そう r 2 \u003d 0.81は、2つの変数の分散(散乱)の81%が説明されることを意味する。 残りの19%はランダムな変動によるものです。
Excelは計算を単純化する傾向関数を持っています。 関数トレンド():
- よく知られている値を受け入れます h そして既知の値 w;
- 回帰線と定数(セグメント)の傾きを計算します。
- 予測値を返します w回帰方程式を既知の値に適用することに基づいて定義されています h (図7)。
tendency()関数はアレイの関数です(以前にそのような機能に遭遇していない場合は推奨される)。
図。 7. Trend Function()を使用すると、一対のチルト関数()とセグメント()の使用と比較して計算を高速化して簡素化できます。
セルG3:G12の配列の式で傾向()関数を入力するには、G3:G12の範囲を選択し、トレンド式(SZ:C12; VZ:B12)を入力し、キーを押し続けます。
関数には傾向があります()もう2つの引数があります。 new_name_x。そして 義務。 最初に将来の予測を構築することができ、2番目は回帰線が座標の起源を通過することができます(真実の価値は、計算された定数を使用するためにExcelは、値は嘘です。 0)。 Excelを使用すると、チャートに直接回帰を描くことができ、座標の原点を通過するようにします。 ポイント図を作成することから始めて、データシリーズマーカーの1つを右クリックします。 開封を選択してください コンテキストメニュー 段落 トレンドラインを追加してください; オプションを選択してください 線形; 必要に応じてパネルを下にスクロールして、ボックスをオンにします。 交差点を設定します; 関連付けられているテキストフィールドにテキストフィールドが0.0に設定されていることを確認してください。
3つの変数がある場合は、2つの間の相関関係を決定したい場合は、3番目の影響を排除できます。 民間の相関。 あなたが大学を完成させた都市の住民の割合と都市書館の紀元数の関係に興味があるとします。 あなたは50の都市でデータを収集しました、しかし、...問題は、これらのパラメータの両方が1つまたは別の都市の居住者の福祉に依存し得ることです。 もちろん、同じレベルの住民の福祉を特徴とする他の50都市を選ぶことは非常に困難です。
統計的方法の適用図書館の財務支援と大学訓練の利用可能性の両方で福祉要因によって提供される影響を排除するために、あなたが興味のある変数間の程度のより正確な定量的評価を得ることができます、すなわち本の数そして卒業生の数。 他の変数の値が固定されているときの2つの変数間のそのような条件付き相関、そして私的相関と呼ばれます。 その計算方法の1つは、式を使用することです。
どこ r cb。 . w - 変速機(富)の排除効果(固定価値)を用いた大学変数(大学)と本(本)の相関係数。 r cb。 - 大学変数と帳簿変数間の相関係数 r CW. - 大学変数と福祉間の相関係数 r b - 書籍と幸福の変数間の相関係数
一方、民間の相関は、残留物の分析に基づいて計算することができる。 投影値と実際の観察結果の関連結果の違い(両方の方法は図8に示されています)。
図。 残基の相関としての民間の相関
相関係数行列(B16:E19)の計算を簡単にするために、Excel分析パッケージを使用する(メニュー データ –> 分析 –> データ解析)。 デフォルトでは、Excelのこのパッケージはアクティブではありません。 インストールするには、メニューを通過します ファイル –> パラメーター –> 上部構造。 階下ウィンドウズを開きました パラメーターエクセル フィールドを見つけます コントロール、 選択する 上部構造エクセルクリック go。 超構造の反対側のティックを確認してください 分析パッケージ。 A.をクリック ナリザデータ、オプションを選択してください 相関。 入り口間隔として、$ B $ 2:$ D $ 13を指定し、箱をチェックしてください。 最初の文字列のタグ出力間隔として、$ B $ 16:$ E $ 19を指定します。
もう一つの機会は、半相関関係を判断することです。 たとえば、成長と年齢の影響を体重によるものとします。 したがって、あなたは2つの予測変数 - 成長と年齢、および1つの予測される可変重量を持つ。 Prevation artive変数の影響を排除したいが、投影された変数に対しては除外したい。
ここで、nは高さ(高さ)、W体重(重量)、および - 年齢(年齢)です。 セクタ相関係数のインデックスでは、丸括弧が使用され、それが示される、どの変数が排除されるかの影響が排除される。 この場合、指定W(n.a)は、可変年齢の効果が成長変数から除去されるが、可変重量からではないことを示す。
問題が有意に重要ではなかったという印象を求めます。 結局のところ、最も重要なことは、一般的な回帰式が正確に動作しているのでしょうが、全体の説明分散に対する個々の変数の相対的な寄与の問題は二次的に見えます。 しかし、これはそうではありません。 複数回回帰式で変数を使用する価値があるかどうかについて考え始めるとすぐに問題が重要になります。 それは分析のためのモデルの選択の正確さの評価に影響を与える可能性があります。
第4章機能Linene()
linear()関数は10回帰統計を返します。 線形関数()はアレイの関数です。 入力するには、5行と2列を含む範囲を強調表示し、式を入力してをクリックします。
線形(B2:B21; A2:A21;真実;真実)
図。 9. Linene():A)D2:E6範囲、B)式に示すように式を入力します。
linear()関数は次のように戻ります。
- 回帰係数(または勾配、セルD2)。
- カット(または定数、セルE3)。
- 標準回帰係数のエラーと定数(範囲D3:E3)。
- 回帰に対するR 2決定係数(セルD4)。
- 標準推定エラー(E4セル)。
- 完全回帰のF基準(セルD5)。
- 正方形の残差和の自由度(セルE5)。
- 正方形の回帰量(セルD6)。
- 正方形の残差(セルE6)。
これらの統計のそれぞれとそれらの相互作用を考慮してください。
標準誤差 私たちの場合、これはサンプリングエラーについて計算された標準偏差です。 それら。これは、一般的な集合体が1つの統計を持っており、サンプルは別の状況です。 回帰係数を標準エラーに共有すると、2.092 / 0.818 \u003d 2.559の値が表示されます。 言い換えれば、2.092に等しい回帰係数は、2つの標準誤差に対してゼロである。
回帰係数がゼロの場合、予測変数の最良の推定値はその平均値です。 2標準誤差はかなり大きい値であり、一般的な人口の回帰係数がゼロ以外の値を持つと自信を持って信じられます。
一般セット内の実際の値が関数を使用して0.0の場合、2.092の選択回帰係数を取得する確率を決定できます。
student.rasp.ph(t-criterion \u003d 2.559;自由度数\u003d 18)
一般に、自由度\u003d n - k - 1、ここで、nは観測数であり、kは予測変数の数である。
この式は、0.00987の値、または丸みを帯びた1%の値を返します。 それは次のことを知らせます:一般的な人口の回帰係数が0%であるならば、回帰係数の推定値が2.092である20人のサンプルを得る可能性は、最適な1%です。
F基準(図9のセルD5)は、単純なペア回帰係数に関してT基準としての完全回帰に関して同じ機能を実行する。 F基準は、R 2決定係数が回帰に十分に確かに十分にあるかどうかを検証するために使用され、それは一般セットでは0.0の値が0.0であることを示す仮説を廃棄することを可能にする十分に大きい量があるかどうかを検証する。予測子と予測変数によって説明されています。 正確に正方形のT基準と正確に等しい予測因子変数F基準が1つしかない場合。
これまでのところ、私たちは間隔変数を検討しました。 単純な名前である数値がいくつかある場合は、例えば男性や女性や爬虫類、両生類、魚のような数値である場合は、数字コードの形で想像してください。 そのような変数は公称と呼ばれます。
統計R 2。 説明された分散のシェアの定量的評価を与えます。
標準評価エラー図1において、No。 4.9可変成長との接続に基づいて得られたプリペイド可変重量値。 E2範囲では:E21は可変重量の残りの値を含みます。 より正確には、これらの残余はエラーを呼び出します - ここから標準評価エラーという用語に従います。
図。 10. R 2と推定の標準誤差は、回帰によって得られた突起の精度を表します。
標準推定誤差が小さいほど、回帰方程式と、式を使用して得られた任意の予測のより正確な一致が、実際の観察が期待されます。 標準評価誤差は、これらの期待を定量化するための方法を提供します。 いくつかの成長を伴う人々の体重95%が範囲内になるでしょう:
(身長* 2,092 - 3,591)±2,092 * 21,118
F統計- これは、グループ間分散の間の分散の関係です。 この名前は、20世紀の初め(分散分析)の分散分析を開発したSIRを記念したGeorge Snedelによって統計によって導入されました。
判定係数R2は、回帰に関連する二乗和の総和の割合を表す。 値(1 - R 2)は、残高 - 予測エラーに関連する全角のシェアを表します。 F基準は、分散画分(G14:J15範囲)を用いて、正方形(範囲G10:J11)を用いて、線形関数(図11のセルF5)を用いて得ることができる。 式は添付のExcelファイルで調べることができます。
図。 11. F基準の計算
公称変数を使用する場合、架空の符号化が使用される(図12)。 値を符号化するために、値0と1を使用するのが便利です。確率fは関数を使用して計算されます。
F.Resp.ph(k2; i2; i3)
ここで、f.resp.ph()関数は、セルI2およびI3に与えられた自由度の数の2組のデータの中央F分布(図13)について、中央のF分布(図13)を得ることの尤度を返す可能性を返す。その値は、C2細胞で与えられた値と一致する。
図。 架空変数を用いた回帰分析
図。 λ\u003d 0での中央のF分布
第5章複数回帰予約
1つの予測因子変数を複数回帰にすると、1つ以上の予測値変数を追加します。 たとえば、3つの予測子の場合には、2つの予測子またはA、B、およびCの場合、隣接する列に、隣接する列の値を隣接する列に保ちます。 linear()関数を含む式を入力する前に、Preditor変数があるため、5行目や多くの列を選択してください。 2つの予測変数を使用した回帰の場合は、次のような構造を使用できます。
リネン(A2:A41; B2:C41;真実)
同様に、3つの変数の場合:
リネン(A2:A61; B2:D61;;真実)
アテローム性動脈硬化性プラークの形成に関与しているLDL - 低密度リポタンパク質の維持に関する年齢と食事の可能な効果を勉強したいとします。
図。 14.複数回帰
R 2複数回回帰(F13セルに反映されています)、任意の単純な回帰のR 2以上(E4、H4)。 複数回帰では、複数の予測変数が同時に使用されます。 この場合、R 2はほとんど常に増加します。
単純なので 線形方程式 この式では、予測子の値に1つの定数が乗算され、各作業に別の定数が乗算されるため、投影値と予測値変数の値との間の1つの予測変数を持つ回帰は常に理想的な相関関係になります。 この効果は、複数回帰では保持されません。
複数回回帰のためにlinear()関数によって返された結果を表示します(図15)。 回帰係数は、Linene()の関数によって返された結果の一部として導出されます。 変数の逆の位置の順に (G - H - IはC - Aに対応する)。
図。 15.係数とその標準エラーは、作業シートに次のような順序で表示されます。
1つの予測因子変数を用いた回帰分析で使用される原理と手順は、いくつかの予測変数を考慮するように簡単に適合されています。 この適応の中では、予測変数の影響が互いにの影響を排除することによることがわかります。 後者はプライベートおよびセミパーティの相関関係に関連しています(図16)。
図。 16.複数の回帰は、残留物の対の回帰を通して表現することができます(フォーム、Excelファイルを参照)。
Excelでは、T分布とF分布に関する情報を提供する機能があります。 student.rasp()とf.rasp()などのレシートの一部が含まれている関数は、t \u003dまたはfの基準を引数として取り、指定された値を守る可能性を返します。 学生のようなORPの一部が含まれている機能。exeps()とf. produce()は、確率値を引数として取り、指定された確率に対応する基準の値を返します。
テールエリアのエッジを切り取る重要なT分類値を探しているので、私たちは学生の関数の1つの引数として5%を送信します。この確率に対応する値を返す産生() 。17,18)。
図。 17.二国間T検定
図。 18.片面T検定
1時間のアルファ領域の場合に意思決定規則を確立することによって、テストの統計的な力を増やします。 実験を開始した場合は、正(または負の)回帰係数を予想するすべての理由があることを確認してください。その後、1時間のテストを実行する必要があります。 この場合、あなたが取るものの可能性 正しい解決策一般的な人口におけるゼロ回帰係数の仮説を拒絶することはより高くなるでしょう。
統計情報を使用することを好みます 方向性テスト 用語の代わりに シングルテスト そして用語 無指向性テスト 用語の代わりに 2忙しいテスト。 目的と未軽減の用語は、それらが仮説の種類に焦点を当てており、流通テールの性質上ではないので好ましい。
モデルの比較に基づく予測因子の影響を評価するためのアプローチ図1において、No。 回帰式への可変食の寄与が試験された回帰分析の結果を示す。
図。 19.結果の違いをチェックすることによる2つのモデルの比較
LINEIN()関数の結果(範囲h2:k6)は、LDL変数の回帰が可変の食事、年齢、およびHDLに対して実行されるフルモデルを呼び出すものに関連しています。 H9:J1Zの範囲では、予測因子変数食を考慮せずに計算を示します。 私はそれを限られたモデルと呼びます。 フルモデルでは、従属変数LDLの49.2%の分散を予測変数によって説明します。 限られたモデルでは、LDLの30.8%のみが可変の年齢とHDLによって説明されています。 モデルからの可変食を除いて、損失R 2は0.183です。 G15:L17の範囲では、0.0288の確率でのみ、可変食いの効果がランダムであることを示す計算が行われます。 残りの97.1%の食事療法はLDLに影響を与えます。
回帰分析のための第6章前提と注意
「仮定」という用語は十分に厳密に定義されておらず、それを使用する方法は、仮定が尊重されない場合、分析全体の結果は少なくとも疑わしい、または力を持たないことを意味する。 実際、これは当てはまらないが、もちろん、根の仮定の乱れが絵を変える場合がある。 主な仮定:a)変数yの残りは通常、回帰線に沿って任意の点xに分布しています。 b)v値はInです 線形依存 X値から。 c)残留物の分散は各点Xにおいてほぼ同じである。 d)残余物間に依存はありません。
仮定が重要な役割を果たしていない場合、統計は障害に関して分析の堅牢性について話しています。 特に、群平均の違いをテストするために回帰を使用して、yの値が通常分布しているという仮定は、正常な役割を果たさないという仮定は、正規性の欠如に関する堅牢な役割を果たしていない。 ダイアグラムを使用してデータを分析することが重要です。 例えば上部構造に含まれる データ解析 ツール 回帰.
データが線形回帰前提条件に対応していない場合、線形以外の他のアプローチがあります。 そのうちの1つはロジスティック回帰です(図20)。 予測値変数の上限値と下限値の近くでは、線形回帰は非現実的な予測につながります。
図。 20.ロジスティック回帰
図1において、No。 6.8年収と住宅を買う可能性との関連性の検討を目的としたデータ分析のための2つの方法の結果を表示する。 明らかに、購入する可能性は、収入の増加と共に増加するでしょう。 チャートは、リニア回帰を通じて家を購入する可能性を予測する結果の違いを簡素化し、あなたが別のアプローチを使って得ることができる結果。
統計学者の言語では、廃棄されるゼロ仮説は、それが真実であるとき、私は私の種類の誤差と呼ばれます。
上部構造で データ解析 乱数を生成するための便利なツールが提供され、ユーザに所望の分布形式(例えば、通常、二項またはポイソン)、ならびに平均値および標準偏差を提供することができる。
student.rasp()ファミリの機能の違いExcel 2010から入手可能です 異なる形式 指定されたT基準値の左および右側の分布に戻る機能。 学生機能RASP()指定した指定されたT基準の左側にある領域の左側にある領域の杭を返します。 36の観察があるとします。したがって、分析の自由度数は34に等しく、T基準\u003d 1.69の値です。 この場合、式
student.rasp(+1.69; 34;真実)
0.05、または5%の値を返します(図21)。 student.rasp()の関数の3番目の引数は、真実の意味を持つことがあります。 それが真実に等しく指定されている場合、この関数は、シェアの形で表される、与えられたT基準の左側に曲線の下の累積領域を返します。 それが嘘と等しい場合、関数はT基準に対応する点で曲線の相対的な高さを返します。 student.rasp()関数 - student.raspの他のバージョン。px()とstudent.rasp 2x() - T基準の値と自由度の数だけを引用し、そのタスクを必要としない3番目の引数
図。 21.分布の左尾の暗い陰影領域は、T基準の大きな正の値の左側の曲線の下の面積の割合に対応します。
T基準の右側の領域を決定するには、式のいずれかを使用します。
1 - shadent.rasp(1,69; 34;真実)
student.rasp.ph(1.69; 34)
曲線の下の領域全体が100%であるべきであるため、関数を返すT基準値の左側にある領域の1つのシェアから差し引き、T基準の右側にある領域のステークを与えます。値。 Student.ph()関数であなたに興味を持つ関心のある分野の直接的なオプションのより好ましい選択肢は、それが分布の正しい尾だ(図22)。
図。 22.方向性試験のための5%アルファ面積
student.rasp()またはstudent.raspの機能を使用してください。px()は、あなたが指示された作業仮説を選\u200b\u200b択したことを意味します。 5%のレベルでのアルファ値の設置と組み合わせた方向性の作動仮説は、分布の右側の尾に5%すべてを置くことを意味します。 T基準の値の確率が5%以下である場合にのみ、ゼロ仮説を拒否する必要があります。 方向性仮説は通常、より敏感な統計的検定をもたらします(このより高い感度はより大きな統計的な電力とも呼ばれます)。
無限のテストでは、アルファ値は同じレベルの5%のままですが、分布は異なります。 2つの結果を許可しなければならないので、誤プラスの結果の可能性は2つの流通尾の間に分散されなければなりません。 この確率を等しく分散させることが一般に受け入れられている(図23)。
前の例と同様に、T基準の同じ値と同じ自由度の値を使用して、式を使用してください。
student.rasp 2x(1.69; 34)
特に理由がないと、student.sps()関数は、最初の引数として負のT基準値を提供する場合、エラーコード#番号!を返します。
サンプルに異なるデータが含まれている場合は、パッケージに含まれているさまざまな分散液を使用して2採掘T検定を使用してください。 データ解析.
グループ平均間の違いをテストするための回帰の使用
この章では、予測変数の名前で以前に表示されている変数は効率的な変数と呼ばれ、Predictorの変数の代わりに変数という用語が使用されます。
公称変数の符号化へのアプローチの最も単純なものは フィクシブコーディング (図24)。
図。 架空のコーディングに基づく回帰分析
どのような種類の架空のエンコーディングを使用すると、規則に従うべきです。
- 新しいデータ用に予約されている列数は、マイナスの要素レベルの数に等しくなければなりません。
- 各ベクトルは1つのレベルの要因を表します。
- 多くの場合、制御グループがすべてのベクトルでコード0を受信するレベルの1つの件名。
セル内の式F2:H6 \u003dリネン(A2:A22; C2:D22;真実)回帰統計を返します。 図5の比較のために、 24ツールによって返された従来の分散分析の結果を表示する 単一因子分散分析 上部構造 データ解析.
エンコード効果別のタイプのコーディングでは、呼び出されます エンコード効果 各グループの平均値と平均群平均と比較されます。 符号化効果の態様は、全てのコードベクトル(図25)において同じコードを受信するグループのコードとして0の代わりに値-1を使用することによるものである。
図。 25.エフェクトコーディング
架空の符号化が使用されるとき、linear()関数によって返される定数の値は平均グループと一致し、このゼロコードはすべてのベクトル(通常はコントロールグループ)で割り当てられます。 符号化の場合、定数の影響は一般的な平均(セルJ2)に等しい。
合計線形モデルは、結果の変数の値の成分を概念化するための便利な方法です。
y ij \u003dμ+αj+εij
ラテン語の代わりにこの式のギリシャ文字の使用は、それが一般的な人口に属するという事実を強調しており、そこからサンプルが抽出されますが、それが公開されている一般集団によって回収されたサンプルを指すことを示す形式で書き換えることができます。
y ij \u003dyı+ a j + e ij
このアイデアは、各観測y ijが次の3つの成分の合計と見なすことができるということです:一般平均μ。 処理J、J。 E ijの値は、全平均の合計値からの個々の量的インジケータy ijの偏差を表す。 効果J-TH 処理(図26)。 回帰式の目的は、残基の正方形の合計を最小限に抑えることです。
図。 26.一般線形モデルの構成要素に配置された観察
因子分析。効果的な変数と同時に2つ以上の要因を調べた場合、この場合、因子分析の使用について話します。 1つまたは複数の要因を単一因子分散解析に追加すると、統計的な電力が増加する可能性があります。 1対ファクタ分散分析では、要因に起因できない効率的な変数の変動は残留平均正方形に含まれています。 しかし、この変動が他の要因でニットされていることがよくあるかもしれません。 次に、この変動を平均二乗誤差から取り除くことができ、その減少は、F基準の値の増加をもたらすので、試験の統計力の増加につながる。 上部構造 データ解析 2つの要因の処理を同時に提供するツールを含む(図27)。
図。 分析パッケージの繰り返しを用いたツール2係数分散解析
この図で使用されている分散解析ツールは、効率的な変数の平均と分散、およびプランに含まれる各グループのカウンタ値を返すことに役立ちます。 テーブル 分散解析 分散解析ツールのシングルファクタバージョンの出力情報に欠落している2つのパラメータが表示されます。 バリエーションの原因に注意を払う サンプル そして 列 27行目と28行目に。バリエーションの源 列 床を指します。 ソースバリエーション サンプル 任意の変数を指します。その値はさまざまな行を占有します。 図1において、No。 27穀物群の値は、7~11行目の2~6行目、脳群群、および12~16行目の脳群のグループに位置しています。
主なポイントは、床の両方、床(E28セルの列の署名)および治療(E27細胞内のサンプルシグネチャ)が、変形源として表分散分析に含まれていることです。 男性のための中間は女性のために中程度と異なり、それは変動の原因を生み出します。 3種類の治療の平均も区別されています - 今や別の変動源があります。 セックス変数と治療の組み合わせ効果を指す3番目のソース相互作用もあります。
第8章共分散分析
共分散分析、またはANCOVA(共用の分析)はオフセットを削減し、統計的な電力を増加させます。 信頼性を評価する方法の1つを思い出させてください 回帰方程式 Fテストです。
F \u003d MS回帰/ MS残差
ここで、MS(平均正方形)は中四方であり、回帰および残留指標はそれぞれ回帰および残留成分を示す。 MS残差の計算は式で行われます。
MS残差\u003d SS残差/ DF残差
ここで、SS(四角の合計)が正方形の合計である場合、DFは自由度の数です。 回帰方程式に共分散を追加すると、正方形の全角の一部のシェアはSS Residuaiに含まれていませんが、SS回帰には含まれていません。 これにより、SS Residua Lが減少し、したがってMS残差につながります。 より小さいMS残差は、平均の間の違いがないことについてのゼロ仮説を拒否する、F基準および最も可能性が最も高い。 その結果、実効変数の変動性を再配布します。 ANOVAでは、共分散が考慮されていない場合、ばらつきは間違いになります。 しかし、以前に誤差を信じていた変動のANCOVA部分では、共変量に割り当てられ、SS回帰の一部になります。
ANOVAを使用して最初に同じデータを分析し、次にANCOVAを使用している例を検討してください(図28)。
図。 ANOVA分析は、回帰式を使用して得られた結果が信頼できないことを示します
この研究は、物理的な運動の相対的な影響、筋力の発現、および認知的な運動(クロスワード)を活性化し、脳活性を活性化します。 実験の開始時に両方の群が同じ条件であるように、被験者を2つのグループに無作為に分布させた。 3ヶ月後、被験者の認知特性を測定した。 これらの測定結果は列Vに与えられます。
A2範囲:C21では、エフェクトエンコードを使用して分析を実行するためにLinear()関数に送信されたソースデータが投稿されます。 線形()の関数の結果はE2:F6範囲に与えられます。ここで、E2セルでは衝撃ベクトルに関連する回帰係数が表示されます。 E8細胞はT基準\u003d 0.93を含み、このT基準の信頼性はE9細胞において試験される。 E9セルに含まれる値は、この実験で観察された群平均の差を36%)となる可能性が36%であると述べている。 この結果が統計的に重要であることを認識しているわずかしかありません。
図1において、No。 図29は、分析に共変動を追加するときに起こることを示しています。 この場合、各被験者の年齢を一連のデータに追加しました。 共変速機を使用する回帰式の判定係数R 2は0.80(セルF4)である。 共変量を使用せずに得られたANOVAの結果を再現したF15:G19範囲のR 2の値はわずか0.05(セルF17)である。 その結果、共変量を含む回帰式は、ベクトルのみの使用を使用するよりもはるかに正確な可変コグニティブインジケータの値を予測します。 ANCOVAの場合、F5セルに表示されているF基準の値を取得する確率は0.01%未満です。
図。 29. Ancovaはまったく異なる絵を返します。
Excelプログラムの回帰
統計データ処理は、サブパラグラフ「サービス」メニューの分析パッケージの上部構造を使用して実行することもできます。 開封の場合、Excel 2003で サービス、タブを見つけないでください データ解析マウスの左ボタンをクリックすると、タブを開く 上部構造 そして反対のアイテム 分析パッケージ マウスの左ボタンをクリックすると、ダニを入れます(図17)。
図。 17.ウィンドウ 上部構造
その後メニューの後 サービス タブが表示されます データ解析.
インストールのためのExcel 2007で パッケージ分析 シートの左上隅にあるOfficeボタンをクリックする必要があります(図18A)。 次にボタンをクリックしてください Excelの設定。 表示されるウィンドウで Excelの設定 アイテムの左ボタンをクリックします 上部構造 そしてリストのリストの右側にはアイテムを選択します 分析パッケージ次にクリックします OK.
![](https://i0.wp.com/konspekta.net/studopediaorg/baza2/54936631787.files/image480.gif)
![](https://i2.wp.com/konspekta.net/studopediaorg/baza2/54936631787.files/image482.jpg)
図。 18.インストール パッケージ分析 Excel 2007で。
分析パッケージをインストールするには、ボタンをクリックしてください。 go開いたウィンドウの下にあります。 図1に示すように見える。 反対にダニ パッケージ分析タブに データ ボタンが表示されます データ解析(図19)。
提案されたアイテムからアイテムを選択します」 回帰「マウスの左ボタンでクリックします。 次に[OK]をクリックします。
ウィンドウが表示されている。 21。
分析ツール」 回帰»小さな正方形の方法を使用して、一連の所見のスケジュールを選択するために使用されます。 ReceScencyは、1つ以上の独立した変数の別々の変数値に対する影響を分析するために使用されます。 例えば、運動選手の陸上競技は、年齢、成長、重量を含むいくつかの要因に影響を与えます。 運動選手の性能の結果に基づいて、これら3つの要因のそれぞれの影響度を計算してから、取得したデータを使用して別の運動選手の性能を予測することができます。
ReCession Toolは機能を使用しています lin lin.
ダイアログボックス「回帰」
タグ入力範囲の最初の行または最初の列にヘッドラインが含まれている場合は、ボックスをオンにします。 ヘッダーがない場合は、このチェックボックスを削除してください。 この場合、データ出力テーブルの適切なヘッダーが自動的に作成されます。
信頼性レベル出力テーブルの追加レベルを有効にするには、チェックボックスをオンにします。 適切なフィールドに、デフォルトで使用されている95%のレベルに加えて、適用する信頼性のレベルを入力します。
定数 - ゼロ回帰回線が座標の原点を通過するようにチェックボックスをオンにします。
出力間隔出力範囲の左上のセルへのリンクを入力します。 結果の出力表に少なくとも7列を取ります。これには、分散解析、係数、y、radial defiations、観測数、係数の標準誤差の結果が含まれます。
新しい作業リストこの位置にスイッチを設定して、本の中で新しいシートを開き、A1セルから始めて分析結果を挿入します。 必要に応じて、スイッチの対応する位置と反対側のフィールドに新しいシートの名前を入力します。
新しい作業ブックこの位置にスイッチを設定して、結果が新しいシートに追加される新しい本を作成します。
出力テーブルをオンにするには、チェックボックスをオンにしてください。
標準化された残基出力テーブルの標準化された残余を有効にするには、ボックスをオンにします。
各独立変数の残差グラフィックを構築するには、スケジュールが残ります。
観測値から予測値の依存性を構築するために選択スケジュールを選択します。
普通確率のチャート ボックスをチェックして、通常の確率のチャートを作成します。
関数 lin lin
計算を実行するには、平均値を表示したいセルにカーソルを割り当て、キーボードキー\u003dをクリックします。 [名前]フィールドに、希望の関数を指定します。 Srnzoke. (図22)。
図。 22機能検索Excel 2003プログラム
フィールド内の場合 名前 関数名が表示されていない、次にマウスの左ボタンがフィールドの横にある三角形をクリックします。その後、関数のリストのウィンドウが表示されます。 この機能がリストにない場合は、マウスの左ボタンがリスト項目に押されます。 その他の機能ダイアログボックスが表示されます 機能のマスター、垂直スクロールの助けを借りて、目的の機能を選択し、カーソルで強調表示してをクリックします。 OK (図23)。
図。 23.機能の修士号
Excel 2007プログラムで関数を検索するには、メニューで任意のタブを開くことができ、次に計算のために、平均値を表示したいセルにカーソルを割り当て、キーボードキー\u003dをクリックします。 [名前]フィールドに次に機能を示します Srnzoke.。 機能を計算するためのウィンドウは、Excel 2003で与えられたものと似ています。
式タブを選択してボタンのマウスの左ボタンをクリックすることもできます」 関数を挿入します(図24)、ウィンドウが表示されます 機能のマスターそのタイプはExcel 2003に似ています。メニューでも、希望の機能を検索する機能カテゴリ(最近使用、財務、論理、テキスト、日時、数学、その他の機能)をすぐに選択できます。
![](https://i1.wp.com/konspekta.net/studopediaorg/baza2/54936631787.files/image496.gif)
![](https://i0.wp.com/konspekta.net/studopediaorg/baza2/54936631787.files/image497.gif)
![](https://i0.wp.com/konspekta.net/studopediaorg/baza2/54936631787.files/image498.gif)
![](https://i1.wp.com/konspekta.net/studopediaorg/baza2/54936631787.files/image501.jpg)
図。 24 Excel 2007で機能を選択します
関数 lin lin 利用可能なデータを最もよく近似する直接線を計算し、その結果として生じるストレートを記述する配列を返す直接線を使用して、最小二乗法を使用して系列の統計を計算します。 機能を組み合わせることもできます lin lin 多項式、対数、指数関数的、電源行を含む、不明なパラメータ(そのリニアのパラメータであるパラメータが不明である)で線形である他の種類のモデルを計算するための他の機能と。 値の配列が返されるので、関数は配列式として設定されます。
直線の方程式は次の形式です。
(いくつかの範囲のX値の場合)、
依存値yが独立値xの関数である場合、値Mは各独立変数xに対応する係数であり、bは一定である。 y、x、mはベクトルになることができます。 関数 lin lin 配列を返します . lin lin それはまた追加の回帰統計を返すかもしれません。
lin lin(既知_stations_y; known_stations_x; const;統計)
既知の_Stations_yは、比率で既に知られているY値のセットです。
know_stations_yの配列に1つの列がある場合、Arounding_Stations_Xの配列の各列は別の変数として解釈されます。
know_stations_yの配列に1行がある場合、Arounding_Stations_Xの各行は別の変数として解釈されます。
既知の_name_xは、比率が既に知られているオプションのX値のセットです。
既知のandnation_xの配列は、1つ以上の変数を含めることができます。 1つの変数のみが使用されている場合は、Arrays_night_date_yとknown_name_xで、同じディメンションを持つことができればいいです。 複数の変数が使用されている場合、既知の_Stations_yはベクトルでなければなりません(すなわち、1行または1列の幅の間隔)。
reference_stations_xの配列が省略されている場合は、この配列(1; 2; 3; 3; ...)が参照_yの配列と同じサイズであると仮定されます。
const - 定数bが0に等しいかどうかを示す論理値。
「const」議論が真のまたは省略された場合、定数Bは通常の方法で計算されます。
「const」議論が嘘をついた場合、値Bは0に等しく、値Mは比率が実行されるように選択される。
統計 - 回帰に追加の統計を返すかどうかを示す論理値。
"statistics"引数がmatters trueの場合、線形関数は追加の回帰統計を返します。 返されたアレイは次の形式を持ちます。(Mn; Mn-1; ...; m1; b:SEN-1; SEN-1; SE1; SEB:R2; SEY:F; DF:SSREG; SSRESID) 。
「統計」議論が嘘または省略された場合、線形関数は係数mと永続的bのみを返します。
追加の回帰統計
下の図は、追加の回帰統計が返される次のものを示しています。
備考:
任意の直接は、その勾配とy軸との交差によって記述することができます。
傾斜(M):通常Mで表される直線の傾きを決定するために、2点を直接服用する必要があります。 斜面は等しくなります .
Y交差点(B):y交差直接、通常Bで表されるy値は、直接がy軸と交差する点のY値です。
直接式は形式を持ちます。 値MとBとBが既知である場合は、yまたはxの値を式に代入して、直線上の任意の点を計算することができます。 Trend関数を使用することもできます。
独立変数Xが1つしかない場合は、次の式を使用して勾配とY字句を直接取得できます。
Tilt:Index(Linear(known_damations_y; known_stations_x); 1)
y交差点:Index(Linear(known_stations_y; known_stations_x); 2)
直接計算された関数を有する近似の精度は、データ散乱の程度によって異なります。 直線にデータが近いほど、線形関数によって使用されるモデルはより正確です。 線形関数は、データの最良の近似値を決定するために最小二乗法を使用します。 独立変数Xが1つしかない場合、M、Bは次の式に従って計算されます。
ここで、xとyは選択的な平均値、たとえばx \u003dсраснова(known_stations_x)、およびy \u003d srnvov(admanic_des_y)です。
線形とLGRFPRBLBの近似の関数は、データを最もよく表す直接曲線または指数関数曲線を計算できます。 しかし、彼らは2つの結果のどれがタスクを解決するのに適しているのかという問題に答えません。 拡張機能の直接または関数(known_stations_x)の傾向関数(known_stations_x)を計算することもできます。 これらの関数は、new_nation_xの引数を指定しない場合は、ストレートまたはカーブに従って、実際のX値の場合は計算値Yの配列を返します。 その後、計算値を実際の値と比較できます。 視覚的比較の図を構築することもできます。
回帰分析を実施すると、Microsoft Excelは、Yの予測値とYの実際の値の差の各点数を計算します。 これらの違いの合計は、正方形の残差(SSRESID)と呼ばれます。 Microsoft Excelは次に正方形の合計(Sstital)の合計を計算します。 const \u003d truthまたはこの引数の値が指定されていない場合、正方形の合計は、yの値の値と平均値の値の差の正方形の合計に等しくなります。 y。 サスペンション\u003d嘘をつくと、正方形の総量は有効値yの二乗和(プライベート値yからの平均y値を引いて)に等しくなります。 その後、回帰量の正方形は次のように計算できます.SSREG \u003d SSTOTAL - SSRESID。 正方形の残差和が小さいほど、決定論係数R2の値が大きくなり、回帰分析によって得られた方程式が変数間の関係を説明するかを示す。 R2係数はSSREG / SSTOTALに等しい。
場合によっては、1つ以上の列X(値YおよびXが列にある)は、他の列Xに追加の刑務所の値を持たない。つまり、1つ以上の列Xの削除は同じ精度で算出されたYの値。 この場合、余分な列Xは回帰モデルから除外されます。 余分な列Xはいくつかの空でない列の合計として表すことができるので、この現象は「共線性」と呼ばれます。 線形関数は、それらがそれらを検出した場合、回帰モデルから余分な列Xをすべて削除します。 リモート列Xは、0の係数0、および0のSE値によって線形の出力で定義できます。列xの数に依存するため、DFの値はDFの値を変更します。実際の目的のために使用される現実。 DFの値の計算について詳しくは、例4の下記を参照してください。余分な列の削除により、DFが変更された場合は、SEYとF値も変更されます。 しばしば共線性を使用することはお勧めできません。 ただし、実験が別のグループに含まれているかどうかを示している場合は、X列には0または1が表示されている場合は適用されるべきです。 const \u003d truthまたはこの引数の値が指定されていない場合、Linene関数は交差点をシミュレートするために追加の列Xを挿入します。 男性と0を示すために値1の列がある場合は、女性と0を示すために値1を持つ列がある場合は、最後の列は最後の列が削除されます。 「男性インジケータ」を列から入手する。
コリニアリティのためにモデルからX列が削除されない場合のDFの計算は、次のように発生します.K列がK列と接続値\u003d真理値がある場合、または指定されていない場合は、DF \u003d N - K - 1がある場合const \u003d嘘、次いでdf \u003d n - k。 どちらの場合も、相反性による列Xの除去はDFの値を1に増加させます。
戻り配列を配列式として導入することを計算する。
たとえば、constantsの配列を入力すると、既知の引数_name_xは、1行の値を1行に分離するためにコンマのあるポイントを使用して、行を分割するように使用します。 コントロールパネルの[言語と標準]ウィンドウで指定されたパラメータによって、仕切りは異なる場合があります。
回帰式を使用して予測されるYの値は、それらがyの値の値の値の外側に位置していなければ、式を決定するために使用された場合には正しくないかもしれない。
関数で使用される主なアルゴリズム lin lin主な機能アルゴリズムとは異なります 傾く そして セクション。 アルゴリズム間の違いは、未定義および同時系データでさまざまな結果をもたらします。 たとえば、Andigure_Stations_Yのデータポイントが0に等しく、Andigure_Stations_Xのデータポイントは1に等しい場合は、次のようになります。
関数 lin lin 戻り値0に等しい値。関数アルゴリズム lin lin コリニアデータに適切な値を返すために使用され、この場合、少なくとも1つの回答が見つかります。
関数チルトとカットリターンエラー#問題/ 0! アルゴリズム関数チルトとカットは1つの応答のみを検索するために使用され、この場合はいくつかがあるかもしれません。
他の種類の回帰についての統計量の計算に加えて、線形関数は、変数xおよびyの行として変数xとyの行として変数xとyの関数を入力するときに、線形関数を使用することができます。 たとえば、次の式があります。
LINEAR(VALUES_Y、VALUES_X ^列($ A:$ C))
次の形式のキューブ(多項式3RD度)の近似値を計算するために、Yの値の値と値Xの列の1列の存在下で動作します。
式を変更して他のタイプの回帰を計算することができますが、場合によっては、出力値とその他の統計データを調整する必要があります。
従属変数にある、ある値(独立した、独立)の効果を示します。 たとえば、企業数の経済的に積極的な人口の数として、賃金などの値は異なります。 または:外国投資、エネルギー価格などに影響を与える方法GDPのレベルで。
分析の結果、優先順位を強調することができます。 そして主な要因に基づいて、管理の決定を下すために、優先順位の開発を予測し、計画します。
回帰が起こります:
・線形(y \u003d a + bx)。
・パラボラ(Y \u003d A + BX + CX 2)。
・指数関数(Y \u003d A * EXP(BX))。
・電源(y \u003d a * x ^ b)。
・双曲線(y \u003d b / x + a)。
・対数(y \u003d b * 1n(x)+ a)。
・示す(y \u003d a * b ^ x)。
例では、Excelの回帰モデルの構築と結果の解釈を考慮してください。 線形の回帰を取ります。
仕事。 6つの企業では、月平均給与の平均給与と廃止された従業員数が分析されました。 廃止された従業員数の平均給与からの依存性を判断する必要があります。
線形回帰モデルは次の形式です。
y \u003d A 0 + A 1 x 1 + ... + Aからxへ。
ここで、Aは回帰係数、X - 変数に影響を与えることです。
この例では、労働者が蒸留した人の指標があるかのように。 影響率 - 賃金(X)。
Excelには、リニア回帰モデルのパラメータを計算できる関数が組み込まれています。 しかし、それはより速くそれがアドインの「分析パッケージ」を作ります。
強力な分析ツールを起動します。
1.「Office」ボタンを押して「Excel Settings」タブに移動します。 "加える"。
2.下部のドロップダウンリストで、「コントロール」フィールドは碑文「Excelアドイン」になります(いいえ、右側のチェックボックスをクリックして選択)。 そして「GOボタン」。 クリック。
3.利用可能な上部構造のリストのリスト。 [分析のパッケージ]を選択して[OK]をクリックします。
起動後、アドインは[データ]タブで使用可能になります。
今度は直接回帰分析に対処します。
1.「データ解析」ツールメニューを開きます。 「回帰」を選びます。
2.メニューが開き、入力値と出力パラメータ(結果を表示する場所)を選択します。 ソースデータのフィールドには、説明されているパラメータ(y)の範囲を示し、それに因子(x)に影響を与えます。 残りは記入できません。
3. [OK]をクリックすると、プログラムは新しいシートの計算を表示します(現在のシートに表示する間隔を選択するか、新しい本に出力を割り当てることができます)。
まず、R四角形と係数に注意を払ってください。
R平方根 - 決定係数 この例では、0.755、または75.5%。 つまり、モデルの計算されたモデルのパラメータは75.5%が検討されたパラメータの関係を説明することを意味します。 決定係数が高いほど、モデルはより良くなります。 良い - 0.8。 BAD - 0.5未満(そのような分析は妥当とはほとんど考慮されません)。 この例では、「悪くない」
係数64,1428は、検討中のモデル内の全ての変数が0になるとyがどのようになるかを示している。すなわち、モデルに記載されていない他の要因は分析されているパラメータの値の影響を受ける。
係数-0,16285は、変数Xの重量を示しています。すなわち、このモデル内の平均月間賃金は、重量で引用されている-0,16285の量に影響を与えます(これは小さな影響です)。 「 - 」は悪影響を示しています:より多くの給与、廃止されません。 正しいこと