動的計画法、基本原則

1950年代に、アメリカの数学者R.ベルマンと彼の多くの共同研究者は、動的計画法と呼ばれる変分問題を解決するための新しい一般的な方法を開発しました。この方法は、あらゆるものを最適化するのに適しています複雑なシステム、変数に制約がある場合とない場合の微分方程式だけでなく、さまざまな静的システム、QS、経済システムなどの他の数学的装置によっても記述されます。

MDPの考え方は、古典的な変分法やポントリャーギンの最大原理とは大きく異なります。最後の2つの方法を解決するための手法は、最適な軌道がすでに見つかっている何らかの方法で既知であると見なされることです。次に、この最適な軌道全体が全体として変化します。一般に、最適な軌道は一連の可変軌道から検出されます。

MPEでは、最適な軌道を見つける別の方法が採用されています。これは、最適な軌道と対応する方程式が別々のセクションまたはステップで求められるという事実にあります。言い換えると、それらはいくつかの段階に分割するのが簡単であり、各段階には一連の軌道と対応するコントロールがあります。これで、すべての軌道を整理して最適な軌道を選択するだけで十分に思えますが、これは不合理な巨大な作業です。 TIRの作成者は、異なるパスを取りました。各段階で、最適なものを選択し、軌道の最適ではない、見込みのないセクションを破棄します（セクションの別の段階では、軌道としての軌道よりもこれを行う方がはるかに簡単です。全体）。この場合、この段階での軌道の最適でない部分だけでなく、検討中の段階での見込みのない部分を含む軌道全体も破棄されることがわかります。この場合、最適な軌道の選択ははるかに簡単で短いです。

言われたことを確認するために、最適な軌道を選択するという静的な問題を考えてみましょう。

例.

ポイントの間に置き、最小コストの鉄道または高速道路を敷設する必要があります。地形は非常に困難であり、予備調査によると、道路が直線状に敷設されている場合、そのコストは非常に高くなります。測量士と経済学者は、との間の別々の比較的簡単に構築できるセクションを調べ、これらのセクションを構築するコストを決定しました。道路の建設費は、これらのセクションの建設費の合計になります。この仕事との間のすべての可能な軌道を列挙し、最も安い軌道を選択することで解決できます。ただし、このパスは事実上無限です。したがって、途中でTIRが見つかります。建設エリア全体をステージに分割して、同じステップ数で開始点または終了点に到達できるようにします。 TIRでは、決定は最後から始まります。私たちの場合、最初と最後は区別できませんが、TIRの伝統によれば、決定は最後から始まります。ステージからポイントへの移行について考えてみましょう。さらに、私たちは運動の先史時代、すなわちどのようにしてステージに到達したかですが、ポイントまたはに到達した場合、ポイントから8またはポイントから9のコストで、1つのステップでポイントに到達できます。これらのコストを適切なサークルに入れます。ステージからポイントへの他の軌道はありません。

ステージに一歩戻って、ポイントからステージへの2つのステップで到達できる軌道を分析してみましょう。独自の方法で到達でき、1つの軌道に沿って2つのステップでポイントに到達できます。このサイトの費用は8通貨単位です。そして、あなたは唯一の方法でポイントからステージへ行くことができますこのプロットのコストは25ユニットです。そして、あなたは2つの方法（コスト10マネーユニット）と（コスト11マネーユニット）でポイントからステージに行くことができます。そして、この段階で（軌道全体ではなく）、最適なパス（）を選択し、見込みのないパス（）を拒否するのは非常に簡単です。この場合、見込みのないパスだけでなく、ポイントから出てセクションkを含むすべての軌道も拒否されます。パスの最小コストである単位単位を円で囲みます。

理解しやすい動きを続け、見込みのない軌道を切り落とすと、ステージへのパスが2つあるポイントに到達し、最適でないパスを切り取って、4ユニットユニットのコストで最適なパスを選択します。

ここで、拒否されていない軌道に沿ったポイントから移動し、ユニットのコストをかけて最適なパスを選択します。

ステージ間の見込みのない小さなセクションを拒否することにより、これを直接行うことなく、この拒否されたセクションを含むすべての非最適な軌道を拒否することは明らかです。最適な軌道を選択する効率は非常に高いです。

次に、6番目の典型的な制御問題に目を向けましょう。制御オブジェクトが方程式によって特徴付けられる動的問題に .

さらに -状態座標のベクトル

-制御ベクトル

なりましょう積分を最小化する必要があります

TIRは、最適性の原則に基づいています。この原理は、R。ベルマンによってさまざまなシステムのために策定されました。その将来の動作は、現在の状態によって完全に決定されます。したがって、それは彼らの「先史時代」の性質に依存しません。システムが現在この状態にある限り、過去のシステムの動作。説明のために、でとで等しいベクトルの初期値と最終値を持つ次元位相空間での最適な軌道を考えてみましょう。

初期条件を与えてみましょう。一般的に言って、値は不明です。

いくつかの中間点、に対応する軌道をマークしましょう。ここで、軌道セクションを最初から1番目、およびから-2番目と呼びます。

2番目のセクションは、に等しい積分（1）の部分に対応します。

軌道の2番目のセクションは、独立した軌道と見なすこともできます。それに対応する積分が最小であれば最適です。最適性の原則は次のように定式化できます。

これは、システムの初期状態がであり、初期の瞬間である場合、システムがこの状態になった方法に依存しないことを意味します。その最適な後続の動きは軌道2になります。実際、反対のことが当てはまります。その場合、からまでの時間間隔で考慮される基準（1）は、軌道2ではなく、ポイントから出て行く他の軌道で最小になります。図2の点線で示されている..。ただし、この場合、軌道1-2よりも「優れた」軌道を構築することが可能であり、最初の問題では、記述された軌道が1になるようにコントロールを選択する必要があります。一方、軌道1-2が最適であるという仮定から進めます。矛盾は、軌道2よりも小さい値を提供する軌道が存在する可能性がないことを証明します。したがって、軌道2が最適です。

上で定式化された最適性の原則は、最適なプロセスに非常に一般的に必要な条件であり、連続システムと離散システムの両方に有効です。

最適性の原則はほとんど些細なことのように見え、一見したところ、内容が不十分なステートメントです。しかし、ベルマンが示したように、系統的に推論することは可能です必要条件最適な軌道のために、それは決して些細なことではありません。実際、最適性の原則は、最初に思われるほど簡単ではありません。これは、少なくともそれを一般化したように見えるステートメントが「最適な軌道のどのセグメントも最適な軌道である」という事実から見ることができます-一般的に言えば、真実ではありません。したがって、たとえば、図2の軌道の最初のセグメントは、それ自体が最適な軌道ではない可能性があります。積分に最小値を与えないでください初期条件のみが指定されている場合。

このステートメントを基本的な図で明確にしましょう。長距離を走るとき、良いランナーはどのように彼の力を分配しますか？それは原則に従って機能しますか：すべてのセグメントをできるだけ速く実行しますか？もちろんそうではありません。なぜなら、ランナーはゴールに到達するずっと前に「フィズアウト」する可能性があるからです。究極の目標に合わせてリソースを賢く配分することで、最初のランナーは距離の終わりで「飛び出さない」ように力を節約します。同様に、いかなる管理も「近視眼的」であってはならず、最高の瞬間的な局所効果の達成によってのみ導かれるべきではありません。それは「先見の明」でなければならず、最終的な目標に従属している必要があります。からまでの全区間での関数（1）の最小化。最初のセクションの終点が指定されている場合にのみ、最初のセクション自体も最適なパスになります。

最適性の原則の別の定式化を与えることができます：

システムの「履歴」から、代表点がその位置に到達した軌道1を理解すれば、これと以前の定式化の同等性は明らかです（図2）。検討中の現時点でのシステムの状態は、次のように理解されます。この場合のポイントに正確に対応する状態。

ベルマンの推論の方法を説明しましょう単純な原理コントロール付きの管理対象オブジェクト

システムの唯一の座標はどこですか：

特定の領域に限定された、唯一の制御された影響。

初期条件を与えましょう。最小積分の制御則を見つける必要があると仮定しましょう

便宜上、ゼロに等しい時間を取ります。 ; 簡単にするために、値は固定されていると想定されます。

まず、問題を離散化します。連続システムの値で近似されるのは離散連続です。この理由は次のとおりです。まず、離散化は、コンピューター上で問題を解決するための問題を準備する上で避けられない段階です。

第二に、推論の方法は離散の例で説明するのが簡単です- 連続システム..。一般的に言えば、メソッドの適用の主な領域動的計画法離散-連続または純粋に離散的なシステム、またはシステムの領域にあり、それらの近似は還元可能です。

間隔を短い長さの等しいセクションに分割し、離散値と瞬間のみを考慮します。次に、オブジェクトの微分方程式（27）は、有限差分の方程式に近似的に置き換えることができます。

初期状態は変わりません

間隔（28）はおおよそ合計に置き換えられます

ここでのタスクは、制御アクションの離散値のシーケンスを決定することです。このようにシステムに課せられた条件（4）、（30）、および（31）の下で合計（32）を最小化する値では、いくつかの変数の複素関数の最小値を見つける必要があります。ただし、MPEを使用すると、この操作を一連の最小化にさらに減らすことができます。シンプルな機能 1つの変数。

この問題を解決するために、プロセスの終わりについての「理解できる」動きで構成される手法が使用されます。その瞬間からその始まりまで。まず、その瞬間を想定しましょう ..。最後の値を除くすべての値は、すでに何らかの形で実現されており、その瞬間に対応する値もあります。 ..。最適性の原則によれば、影響はシステムの「先史時代」に依存せず、管理の状態と目的によってのみ決定されます。

からの軌道の最後のセグメントを考えてみましょう前。数量は、このセクションに関連する合計（32）の項にのみ影響します。

これらの項の合計をで示しましょう。

（30）から

したがって、それも依存します。探す許容値（4）を満たし、値を最小化します。見つかった最小値をで表します。この量は明らかにシステムの状態に依存しますそれらの。（33）と（34）に含まれる値について。そう

複雑な式（32）の単純な式（33）の1つの変数（多くの変数での最小化ではなく）でのみ最小化を実行する必要があると判断するには、このプロセスを実行すると、次のようになります。からの関数の形式; この関数は、ソリューションの後続の段階への移行中に、たとえば、コンピューターで計算するときに一部のストレージデバイスに記憶する必要があります。

プログラミングタスクを実行するときに最適なソリューションを選択するには、繰り返し処理する必要がある場合がありますたくさんのメモリをロードするデータの組み合わせパソコン..。そのような方法には、例えば、「分割統治」プログラミング方法が含まれる。この場合、アルゴリズムはタスクを個別の小さなサブタスクに分割します。この方法は、小さなサブタスクが互いに独立している場合にのみ使用されます。処刑を避けるために残業サブタスクが相互に依存している場合は、50年代にアメリカのR.ベルマンによって提案された動的計画法が使用されます。

メソッドエッセンス

動的計画法は、n次元問題の最適解を決定し、それをn個の別々の段階に分割することで構成されます。それらのそれぞれは、1つの変数に関するサブ問題です。

このアプローチの主な利点は、開発者がn次元の問題ではなく、サブタスクの1次元の最適化問題に取り組んでおり、主な問題の解決策がボトムアップで行われていることです。

サブタスクが相互接続されている場合、つまり、動的計画法を使用することをお勧めします。共通のモジュールがあります。アルゴリズムは、各サブ問題の解決策を1回提供し、回答は特別なテーブルに保存されます。これにより、同様のサブタスクに直面したときに回答を再計算しないことが可能になります。

最適化動的計画問題。この方法の作成者であるR.Bellmanは、最適性の原則を定式化しました。各ステップの初期状態とこのステップで決定された解が何であれ、システムが終了時にとる状態に関して、以下のすべてが最適に選択されます。ステップ。

このメソッドは、オプションまたは再帰を列挙することによって解決されるタスクのパフォーマンスを向上させます。

問題のアルゴリズムの構築

動的計画法は、問題のアルゴリズムの構築を前提としています。このアルゴリズムでは、問題の解決策が、それに含まれるすべてのサブタスクの最適な解決策で構成されるように、問題が2つ以上のサブタスクに分割されます。さらに、漸化式を記述し、問題全体のパラメーターの最適値を計算する必要があります。

場合によっては、3番目のステップで、各サブタスクの進行状況に関するいくつかの補助情報を追加で記憶する必要があります。これはバックトラッキングと呼ばれます。

メソッドの適用

動的計画法は、次の2つの特徴がある場合に使用されます。

サブタスクの最適性。
問題に重複するサブタスクが存在する。

動的計画法を使用して解く場合、最初に解の構造を説明する必要があります。問題の解決策がそのサブ問題の最適な解決策で構成されている場合、問題は最適化されます。この場合、動的計画法を使用することをお勧めします。

問題の2番目の特性。これはこの方法、-少数のサブタスク。再帰的な問題解決では、同じ重複するサブ問題が使用されます。その数は、元の情報のサイズによって異なります。答えは特別なテーブルに保存され、プログラムはこのデータを使用して時間を節約します。

動的計画法の使用は、本質的に問題を段階的に行う必要がある場合に特に効果的です。たとえば、機器の交換と修理の問題の簡単な例を考えてみましょう。タイヤ鋳造機で、タイヤが2つで同時に製造されているとします。さまざまな形..。フォームの1つが失敗した場合は、マシンを分解する必要があります。次の段階でこのフォームが機能しなくなった場合に備えて、車を分解しないために2番目のフォームを交換する方が有利な場合があることは明らかです。さらに、両方の作業フォームが失敗し始める前に、それらを置き換える方が簡単な場合があります。動的計画法は、金型の継続的な運用によるメリット、機械のダウンタイムによる損失、タイヤの不良品のコストなど、すべての要因を考慮して、そのような金型を交換するための最良の戦略を決定します。

動的計画法（別名「動的計画法」）は、意思決定を最適化するための特別な方法であり、いわゆる「マルチステップ」（または「マルチステージ」）操作に特に適合しています。

いくつかの操作を想像してみてください Ơ, 一連の連続する「ステップ」または「ステージ」に分解します。たとえば、数経済年にわたる業界のブランチの活動。または航空機のグループによるいくつかの防空レーンの克服。または装置を制御するために使用される一連のテスト。一部の操作（上記の操作など）は、自然にステップに分割されます。場合によっては、分割を人為的に導入する必要があります。たとえば、ミサイルをターゲットに誘導するプロセスは、条件付きで段階に分割できます。各段階には時間がかかります。

だから、操作を検討してください Ơ からなる NSステップ（ステージ）。操作の効率をいくつかの指標によって特徴付けましょう W, これは、簡潔にするために、この章では「ゲイン」と呼びます。ペイオフを想定します Wオペレーション全体は、個々のステップでの賞金で構成されています。

どこ Wi - の賞金私-番目のステップ。

もしも Wそのような性質を持っているので、それは「加法基準」と呼ばれます。

手術 ああああ私たちが話しているのは制御されたプロセスです。つまり、そのコースと結果に影響を与えるいくつかのパラメーターを選択でき、各ステップでいくつかの決定が選択されます。このステップでのペイオフと操作全体のペイオフ。このソリューションを「ステップ制御」と呼びます。すべてのステップ制御の全体は、操作全体の制御を表します。文字で示しましょう NS、およびステップコントロール-文字 X1、x2、...、Xm:

NS = (NS1 , NS2 , …, Xm). (12.2)

それは心に留めておくべきです X1、x2、 …., Xm一般的な場合、数値ではなく、ベクトル、関数などです。

そのようなコントロールを見つける必要があります NS、ゲイン W最大になります：

その管理 NS *、この最大値に達したときに、最適制御と呼びます。これは、一連の最適なステップ制御で構成されています。

X * =(). (12.4)

このコントロールで達成される最大のペイオフは、 W *:

W * = {W（NS）} . (12.5)

式（12.5）は次のようになります：値 W* すべての最大値があります W{ NS} さまざまな管理下で NS（すべてのコントロールで最大値が使用されます NS、これらの条件下で可能）。この後者は式で指定され、次のように記述される場合があります。

マルチステップ操作のいくつかの例を考えてみましょう。それぞれについて、「制御」とは何か、「ゲイン」（効率指標）とは何かを説明します。 W。

1.産業企業グループP1、P2、...、Pの活動が計画されている Kの期間 NS経済年（ NS-させて）。期間の初めに、グループの発展のためにいくらかの資金が割り当てられました。 NS、これはどういうわけか企業間で分散されている必要があります。企業の運営の過程で、それに投資された資金は部分的に使われ（償却され）、部分的に保存され、再び再分配することができます。各企業は、それに投資された金額に応じて、1年間の収入を生み出します。各会計年度の初めに、利用可能な資金は企業間で再分配されます。問題が提起されます：毎年の初めにどのくらいのお金を各企業に割り当てる必要がありますか？ NS年が最大でしたか？

賞金 W（総収入）は、個々のステップ（年）の収入額です。

したがって、それは加法性の特性を持っています。

コントロール NS私オン私-最初のステップは私NS年、いくつかの資金は企業に割り当てられます NS私1 、NS私2 、…、NSIk （最初のインデックスはステップの番号、2番目は企業の番号です）。したがって、ステップ制御は次のベクトルです。 Kコンポーネント：

Xi = (Xi1 , Xi2 , …, Xik). (12.7)

もちろん、量 Wi式（12.6）は、企業に投資された資金の額によって異なります。

コントロール NS操作全体は、すべてのステップコントロールのセットで構成されています。

NS = (NS1 , NS2 , …, Xm ). (12.8)

企業や年ごとにそのような資金の分配を見つける必要があります（最適な管理 NS* ）、その量で W最大になります。

この例では、ステッピングコントロールはベクトルでした。次の例では、それらはより単純で、単純に数値で表されます。

2.宇宙ロケットは NSステージ、および軌道への打ち上げのプロセス-から NS各ステージの終わりに、次のステージがリセットされます。すべてのステップ（キャビンの「有用な」重量を除く）には、いくつかの総重量が割り当てられます。

NS = NS1 + NS2 + … + Gm,

どこギ - 重量私-番目のステップ。

結果として私ステージ（第1ステージの燃焼と落下）では、このステージの重量と残りのすべての総重量に加えてキャビンの重量に応じて、ロケットの速度が増加します。問題は、重量をどのように配分するかです NSロケットの速度が上がるようにステップ間 V軌道への打ち上げ中は最大でしたか？

この場合、効率指標（ゲイン）は次のようになります。

V = (12.9)

ゲイン（速度増分）はどこにありますか私-番目のステップ。コントロール NSすべてのステージの重みのセットですギ:

X =（ギ, ギ, …, Gm).

最適制御 NS *速度が上がるステップ全体の重みの分布になります V最大。この例では、ステップ制御は1つの数値、つまり指定されたステップの重みです。

3.車の所有者は、 NS年。毎年の初めに、彼は次の3つの決定のいずれかを行うことができます。

1）車を販売し、新しいものと交換します。

2）修理し、運用を継続します。

3）修理せずに運転を継続します。

ステップ制御は、これら3つのソリューションのいずれかを選択することです。それらは直接数字で表されていませんが、最初のものに起因する可能性があります数値 1、2番目、2番目、3番目3。操作、修理、および新しいマシンの購入の総コストを最小限に抑えるために、年ごとにどのような決定を行う必要がありますか（つまり、コントロール1、2、3をどのように変更するか）。

効率指標（この場合、それは「利益」ではなく「損失」ですが、問題ではありません）は次のようになります。

W = (12.10)

どこ Wi - の費用私-私の耳。数量 W最小化する必要があります。

NS = (3, 3, 2, 2, 2, 1, 3, …),

つまり、最初の2年間は修理せずに車を運転し、次の3年間は修理し、6年目の初めに販売し、新しい車を購入し、修理せずに再び運転するなどです。。コントロールはベクトル（数値のセット）です。

NS = (NS1 , NS2 , …; Jm), (12.11)

それぞれの番号はどこにありますか NS1 , NS2 , …, Jm 1、2、または3の3つの値のいずれかがあります。値（12.10）が最小になる数値のセット（12.11）を選択する必要があります。

4.線路の一部がポイント間に敷設されています AとB（図。 12.1）。地形は険しく、樹木が茂った地域、丘、沼地、川があり、そこを通って橋を建設する必要があります。から道路を引く必要があります AとB、そのため、サイトの建設にかかる総費用は最小限に抑えられます。

この問題では、前の3つの問題とは異なり、ステップへの自然な分割はありません。たとえば、セグメントなど、人為的に導入する必要があります。 AB割る NSパーツ、分割点を通る直線を垂直に描画します AB、そして、そのような直線から別の直線への移行を「ステップ」と見なします。それらを互いに十分に近づけると、パスのセクションが各ステップでまっすぐであると見なすことができます。ステップ制御をオンにしますステップ直線でパスのセクションを構成する角度です AB。操作全体の制御は、一連のステップ制御で構成されます。

X = ().

そのような（最適な）制御を選択する必要があります NS*、すべてのセクションの建設にかかる総費用が最小限になる場合：

W = => 最小 . (12.12)

そこで、マルチステップのオペレーションズリサーチタスクの例をいくつか見てきました。では、この種の問題をどのように解決できるかについて話しましょう。

マルチステップの問題は、さまざまな方法で解決できます。ソリューションのすべての要素を一度に検索するか、 NSステップ、または1つのステップのみを最適化する計算の各段階で、ステップバイステップで最適制御を構築します。通常、2番目の最適化方法は、特にステップ数が多い場合、最初の最適化方法よりも簡単です。

段階的で段階的な最適化のこのアイデアは、動的計画法の中心です。通常、ワンステップ最適化はより簡単な最適化プロセス全体の中で：複雑な問題を一度解決するよりも、比較的単純な問題を何度も解決する方が良いことがわかります。

一見、アイデアはかなり些細なことに思えるかもしれません。確かに、もっと簡単に見えるものは次のとおりです。

操作全体を最適化することが難しい場合は、一連の手順に分けてください。このような各ステップは、個別の小さな操作であり、最適化するのはもはや難しくありません。このステップの効果が最大になるように、このステップでそのような制御を選択する必要があります。そうではありませんか？

いいえ、まったくありません！動的計画法は、各ステップが他のステップとは独立して個別に最適化されることを意味するものではありません。それどころか、ステップ制御は、将来のすべての結果を考慮して、先見の明を持って選択する必要があります。このステップで、このステップの有効性が最大になる管理を選択した場合、このステップが後続のステップでうまく勝つ機会を奪う場合、どのような用途がありますか？

たとえば、ある産業企業のグループの作業が計画されており、そのうちのいくつかは消費財の生産に従事し、残りはそれらのための機械を生産するとします。操作のタスクは取得することです NS年消費財の最大生産量。設備投資は初年度に予定されているとしましょう。このステップ（年）の狭い関心に基づいて、消費財の生産に利用可能なすべての資金を投資する必要があります。しかし、そのような決定は、全体としての運用の効率の観点から正しいでしょうか？明らかにそうではありません。この決定は無駄で、近視眼的です。将来を念頭に置いて、機械の生産に一定の資金を割り当てる必要があります。これにより、初年度の生産量はもちろん減少しますが、その後は増加する条件が整います。

もう一つの例。問題4（から線路を敷設する）で NS v V）私たちはすぐに最も簡単な（最も安い）方向に急ぐという考えに魅了されます。将来、それが私たちを（文字通りまたは比喩的に）「沼」に導く場合、最初のステップでの貯蓄の使用は何ですか？

意味、 マルチステップ操作を計画するときは、次のステップでの将来のすべての結果を考慮して、各ステップで制御を選択する必要があります。の管理私-thステップは、この特定のステップでの賞金が最大になるように選択されるのではなく、最後まで残っているすべてのステップでの賞金の合計にこれを加えたものが最大になるように選択されます。

ただし、この規則には例外があります。すべてのステップの中に、将来を見据えることなく簡単に計画できるステップがあります。このステップは何ですか？明らかに最後のもの！このステップは、すべての中で唯一のものであり、それ自体が最大の利益をもたらすように計画することができます。

したがって、動的計画法のプロセスは通常、最後から最初まで展開されます。まず、最後のプロセスが計画されます。 NSステップ。そして、最後から2番目がどのように終わったかわからない場合、どのように計画するのですか？つまり、最後のステップに進む条件がわかりませんか？

ここから最も重要なことが始まります。最後のステップを計画するときは、最後から2番目がどのように終了したかについてさまざまな仮定を立てる必要があります。 （NS - 1）第3ステップ、およびこれらの仮定のそれぞれについて、条件付き最適制御を見つけます。 NS-番目のステップ（最後から2番目のステップがそのような方法で終了したという条件に基づいて選択されるため、「条件付き」）。

これを実行し、最後から2番目のステップの可能な結果のそれぞれについて、条件付き最適制御とそれに対応する条件付き最適ペイオフがわかっているとします。 NS-番目のステップ。罰金！これで、最後から2番目のコントロールを最適化できます。 （NS- 1）第ステップ。繰り返しになりますが、前のものがどのように終了したかについて、考えられるすべての仮定を行います（（ NS-2）番目のステップであり、これらの仮定のそれぞれについて、（ NS— 1）最後の2つのステップ（うち NS-thはすでに最適化されています！）が最大です。したがって、結果ごとに（ NS-2）-条件付き最適制御をオンにします （NS - 1）最後の2つのステップでのthステップと条件付き最適ペイオフ。さらに、「逆行」して、（ NS-2）最初のステップに到達するまでのステップなど。

プロセスの「テール」全体（指定されたステップから最後までのすべてのステップ）について、すべての条件付き最適制御と条件付き最適ペイオフがわかっているとします。つまり、ステップの開始時にプロセスがどのような状態にあるかに関係なく、何を行う必要があるか、特定のステップでどのように管理するか、そしてこのために何を「テール」にするかを知っています。これで、条件付きで最適ではなく、単に最適な制御を構築できます。 NS *条件付きで最適ではなく、単に最適な見返りを見つけます W*.

確かに、どのような状態で私たちに知らせてください NS0 制御されたシステム（制御オブジェクト）がありました NS）最初のステップの開始時。次に、最初のステップで最適な制御を選択できます。これを適用することで、システムの状態を新しい状態に変更します。この状態で、2番目のステップに進みます。次に、条件付き最適制御もわかります , これは、2番目のステップの終わりまでに、システムを状態に移行し、以下同様に続きます。最適なペイオフについては W *オペレーション全体について、私たちはすでにそれを知っています。結局のところ、最初のステップでマネージャーを選んだのは、その最大性に基づいていました。

したがって、動的計画法による制御の最適化のプロセスでは、マルチステッププロセスが2回「ウォークスルー」されます。1回目は最後から最初まで、その結果、残りの条件付き最適制御と条件付き最適ペイオフが発生します。プロセスの「テール」が見つかりました。 2回目-最初から最後まで、私たちがしなければならないのは、すでに準備された推奨事項を「読んで」、無条件の最適制御を見つけることだけです。 NS *、最適なステップ制御で構成

最初の段階（条件付き最適化）は、2番目の段階よりも比類のないほど困難で時間がかかります。第2段階では、追加の計算はほとんど必要ありません。

著者は、動的計画法のこのような説明から、今まで彼に会ったことがない読者が彼の考えを本当に理解することを期待して、自分自身を喜ばせません。考えると真の理解が生まれます具体例、次に進みます。

経済学と経営の問題について

経済は、個人や社会全体の存在や生活に必要なさまざまな商品の使用、生産、消費を決定し、保証する、個人の種類を含む環境に対する個人の一連の態度によって形成される動的な社会システムです。（社会的個人的パラダイムで使用される定義）

経済は人間の人格や社会との関係で二次的なものであり、環境を達成する方向へと変化させることとして、創造する能力と能力を持った個人の存在方法の1つを反映しています（創造と混同しないでください）。存在の快適さ、そして自分自身と他人の発達（または劣化）。
経済と経済関係の中心にあるのは、人間の個性と、それを形作る固有の属性と機能のすべてを備えた、その方向性のある生活活動です。社会の存在を保証するプロセスの基礎を構成するのは、環境と、そして社会で実現された人々の間の物質的および経済的関係であり、単純な推論と合理の両方で、人の種の生命の出発点です。）。
一方、経済は、他のすべての関係と同様に、世代から世代へと受け継がれてきた以前の社会的経験の結果です（経験が失われると、社会的および個人的な劣化が発生し、「自由な競争」による存在、それは直接的な暴力によるもの）。
経済関係の基礎は、開発または劣化に焦点を当てた一連の個人的本質および社会的本質（特定の「視野角」から認識および伝達される蓄積された社会的経験）としての目標設定の原則です。
まったく同じ目標設定の始まりは、現在の現実における自然法則の現れと、この段階存在。
人格の発達への志向の実現は、「毎日のパン」、「頭の上の屋根」、「生活"。余暇は、活力を取り戻すだけでなく、環境の把握（新しい経験の蓄積）や個人の調和（心身の健康の確保、次世代の世話）にも必要です。

存在に必要な条件（境界）は、人間の動物の原理に従って設定され、与えられたとおりに、実際の環境条件での彼の存在と生命活動に必要な、個人の特定の範囲のニーズを形成します。
それらは、当然、感情的および肉体的計画を含む人格の形成および発達とともに変化します（社会的に発達した人格ではなく、個人に限定されている場合）。知的計画の存在は動物を知的にしますが、知性を提供しません。合理性は、前世代の有意義な（ただし、常にそうであるとは限らない）経験の移転としての、特定の育成と教育によって定められた社会的始まりであり、その妥当性は現実にあります。

経済関係の領域は、主に、既存の社会を通じて直接的および間接的に自分自身の存在を保証するために、人が変換および/または使用するために利用できる物質的なオブジェクトで動作します。
経済は、他の関係や関係と同様に、個人的なニーズに基づいて発生します。
最初は、それは人の動物の性質を反映しています（体を機能的な状態に維持する必要があります）。
社会的および個人的な発達の特定のレベルでは、それらはまた、人格の社会的要素（特定の考え方と意識）としての創造的な（合理的な）始まりの現れであり、彼女に指示された発達を達成する機会を提供します彼女の存在（経済活動を含む）。
このように、個人は、与えられた存在の必要性に恵まれた対象として、そしてこの関係の領域での生活を通して創造性の必要性を実現する主体としての両方の役割を果たします。
その結果、主語-目的語および主語-主語関係は経済関係の基礎を形成し、そもそも個人の存在に対する物質的（物理的）支援に基づいて、それらを社会的関係のセット全体から区別します。

そのような関係の目的と方向性は、個人のニーズを満たし、環境の中で許容できる、または快適な存在を提供することであると言われていることから導き出されます。この存在環境の資源に基づいて、そして個人の努力によって、独立して、または社会の他の部分と相互作用して、両方を提供しました。また、社会の努力の成果を、自らの参加なしに利用することも可能です。
したがって、経済関係の主な問題は、個人的な努力の尺度とその結果、および社会全体の努力の個人的に消費された結果の問題です。
システムとしての経済の安定性または不安定性について語り、力の適用場所とその方向性を示すのは、確立された（「確立された」）措置の全体です。（現在の社会的目標設定で行われている、または生じている）措置の分析から得られる結論は、経済の現在の状態と、経済のさらなる発展の可能性、外部破壊へのコンプライアンス、または自己の傾向の両方です。破壊、および同時に他のどのような社会的プロセスが影響を受ける可能性があります。このアプローチにより、開発における決定を（マクロ管理のレベルで）モデル化し、考えられる結果に基づいて、誤った決定を拒否することにより、（明白な兆候を待たずに）公共生活における望ましくない傾向を防ぐことができます。
現在の状況下での経済関係におけるプロセスの過程の「正確さ」の下限としての基準は、人間の動物の性質を反映して、生物の物理的（本能に基づく）ニーズのレベルでの個人的な満足度です。特定の社会のすべてのメンバー。これは、動物界の存在を決定する自然の予定説の適合性を反映しています。
上限を反映する基準（より正確には、一連の基準）は、この関係システムにおいて、自分の能力（才能、スキル、知識）社会と彼自身の利益のために。社会の劣化の方向での個人の社会的機能の実現は、その破壊の方向でのシステムの不均衡を示し、その入ってくる要素の劣化を伴います。最終的に-ホモサピエンスの種の消失に。
この点で、既存の関係のシステムとその変化の役割機能が決定的であり、それを実現する人は従属的です。パーソナリティとシステムによって「指示された」機能的な社会的役割との間の不十分さ（不一致の尺度）は、ポジティブとネガティブの両方である可能性があります。これは、歴史における個人の役割が現れる場所です。
現在の社会構造の一般的な積極性では、矛盾は通常否定的なものを運びます、そうでなければ、それは肯定的な要因です（個人的な生活のアクティブなコンポーネントに埋め込まれた支配原理の要素を運び、肯定的な方向への追加の変換に）
現在の社会構造の一般的な否定性により、不一致は肯定的である可能性があります（その実装が原則的に可能である場合、個人原則の肯定性のため）、そうでなければ、それは悪化する否定的要因です（制御原則の要素を持っています）、もちろん、それが質的な再編成、特に撤退につながる自然に与えられた社会的サイクルではない場合、システムのさらなる劣化の方向でさらに大きな劣等性に、個人的な生活のアクティブなコンポーネントに埋め込まれています存在のグローバルシーケンスのフレームワーク内の特定の社会の）

上記に基づいて、制御について言えば、制御は常に動的プロセスであるということをすぐに修正する必要があります。これは、制御をコマンドの単純な実行と本質的に区別し、その実装は制御されたステップ（サイクル）の1つを反映します。処理する。これらのステップが何らかの一般的な制御アルゴリズム（それに含まれている）によって接続されていない場合、制御は断続的であり（おそらく無秩序で本能的でさえあります）、実際には制御ではなく、「風の中のスズの羽ばたき」を表します。

経済の管理は、存在の物理的な面にあり、オブジェクトの相互作用と、この相互作用への個人的な参加に、可能な限り許容される範囲で関連付けられています。可能なものと許容されるものの組み合わせは、制御対象の現在の目標設定の始まりに従って、制御の特定のシーケンス（「コリドー」として）を形成します。これは、制御オブジェクトとの両方で、特定の関係と相互関係にあります。一般的な制御アルゴリズムの実装のためのアクティブなサブジェクト。
物理的な平面の能力は、経営上の決定を実行する被験者の活動における動機付けの原則による主観的な能力によって補完されます。
したがって、変容する（管理的、創造的）原則は、主観的・社会的として、存在の感情的な面に属します。
この場合、管理プロセス全体は、オブジェクトで発生する変更の本質を決定する自然な（主に物理的な）プロセスの開発に関する知識、理解、および先見性、および推進力の主観的な要素に関する同じ理解に基づいています。グローバルな視点で社会と個人に利益をもたらす客観的なプロセスへの積極的な参加に使用されます（目標設定、生命のベクトルに基づいて、選択されたものを遵守するための「回廊の境界」を見つけるための基準を決定します）。
制御のダイナミクスは、何が起こっているのかを分析するための接続法と、指定された回廊とのリンクを使用して達成されます。
（これは特に、歴史的なものを含む認知の方法を反映しています-「歴史は、与えられたように、接続法を持っていません」が、歴史的分析の方法は「接続法」である可能性があります-与えられた歴史を特定する一般的、自然社会的、機能的の社会的個人的理解のためのアルゴリズム）。
制御（および認知）シーケンスの各ステップ（サイクル）で修正を導入し、プロセスを最初に指定されたコリドーに維持できるようにするのは、受信した一連の回答です。
管理のダイナミズムは、存在の知的計画と、何が起こっているのかを認識するための使用された意識的な（「タイピングの方法」-感情的な計画の特権とは対照的に）方法を反映しています。
経営陣の「最終的な和音」は先見の明であり、質問をすることです。
これは、展開プロセスを理解するという現在の論理に基づいていませんが、起こっていることの「頭に浮かぶ」可能性を反映しています（通常は偶然として解釈されますが、正確には個人的な誤解のためであり、客観的に発達する自然の反映としてではありません処理する）。この質問への答えは、個人的な（そして社会的な）発達の一般的な機能を含む精神的な面に「あります」。ある程度の個人的なリテラシーを活用することで、先験的（直感的）な「知識」の分野から、すでに起こっていることだけでなく、主観的な可能性のレベルでの未来（どこから）についての回答を受け取ることが可能になります。運命は続く」とはいえ、特定の人にとって意味のあるこのチャネルに十分にアクセスできる人だけです）。

したがって、それはいずれにせよ社会システム要素（特定の個人）とシステム内のそれらの位置（機能的な社会的役割の実装を引き起こす）の最適な（一般に、時間とともに変化する）比率があります。
結果として生じる社会的および個人的な関係（特に経済的）のシステムは、「自発的に」そして合理的な方法の両方で、管理の主な目的です。

密閉