投資

月光為替のマーケットよもやま話

ブログでは書けない、書かない、相場観や銘柄選定手順、AIの話やヘッジファンドの中の人だから話せる業界事情、はたまたプライベートな話やおすすめのうまい店紹介など、ヘッジファンドの現役ポートフォリオマネージャーのよもやま話を週刊でお届け。配信は毎週日曜日。

全て表示する >

第16回 データスヌーピングバイアスとは

2017/07/23

今回は、トレードを行う者が陥りやすく、かつ影響も大きい問題の一つである、データスヌーピングバイアスというものについて話して行きたいと思う。


(ちなみに、一々バックナンバーを見て記事を考えているのではなく、その場の思い付きで書いているので、若し同じような記事を昔に書いているなぁと思った時は、ぼけているんだなぁかわいそうにと暖かい目で見守ってやってほしい)



データスヌーピングバイアスとは、簡単にいうと、「意味のないものに意味があるように見えてしまうこと」だ。


どういうことかというと、例えば過去1年で、何か効いている手法はないかと、虱潰しにいろいろとインジケータを変えて、探したとしよう。



例えば簡単に、移動平均線やMACD、RSIなど、ありとあらゆるテクニカル指標を説明変数として、実際のローソク足の上下だったり、リターンだったりを目的変数とすることで、相関をみるとしよう。



そうすると、何百個も試していれば、必ずこの1年で相関の高いテクニカルというのは見つかる。では、果たしてそのテクニカルは実際に相場を表しているのか?今後も効き続けるのか?という疑問に立つと、「極めて厳しい」というのが実際の解答になる。



では、なぜそのテクニカルはその1年で相関が高かったのかというと、それは統計的なデータのいたずら、「データスヌーピングバイアス」によるものだということになる。



もう少し詳しく説明すると、統計的なエラーには、第一種過誤と第二種過誤というものが存在する。それぞれ英語では、Type 1 error, Type 2 errorと呼ばれる。


前者は、意味のないものに意味を見出してしまうエラーのことで、後者は、本当は意味があるのに、意味がないとしてしまうエラーのことだ。


例えばがんの検査とかだったり、エイズ検査だったり、そういう検査ものは、このType 2 errorを消すことが重大になる。


つまり、本当はがんなのに、がんではないと検査されることが一番起こってはならないので、多少Type 1 errorが増えても、Type 2 errorを最大限除去するように、検査は組み立てられているのだ。(なので、検査キットで陽性でも、ちゃんと調べると陰性ということは、時々起る)


対して、トレードで最大限除去すべきは、このType 1 errorということになる。

どういうことかというと、意味が本当はないのに、意味があるように見えるということは、その時たまたまうまくいっただけということだ。


これは、繰り返すと必ず期待値がマイナスになる。損をすることになる。


だが、意味があるものを見落としているだけでは、機会損失はするが、損はしない。


なので、なるべくType 1 errorを減らすことで、トレードのトータル損益は改善していくというわけだ。ちなみに、データスヌーピングバイアスというのは、このType 1 errorに分類される。



さて、ではこのType 1 errorとType 2 errorを消すにはどうすればよいのだろう。
一つの解決法としては、閾値の設定というものがある。


ここでいう閾値とは広義の閾値であり、例えば先程の相関に話を戻すと、相関係数がx以上の時有意とする、という時のxのことである。


想像に難くないと思うが、xが高ければ、Type 1 errorは減少する代わりに、Type 2 errorは増加する。低ければ、Type 1 errorは増加するが、Type 2 errorは減少する。



では、先程の議論でいくと、xを高くすることで求める状態が手に入るのだろうか?ことはそう単純ではない。


つまり、xを高くすればType 1 errorが減ることは確かなのだが、ではその閾値で出てきた指標は全て有意かというと、理想的な状況では限りなくそうなのだが、マーケットではそうではないのだ。


マーケットは、そのデータの分散が、不均一であることが知られている。つまり、正規分布には従っていない。

分布の話をすると長くなるのだが、分かりやすくイメージ論で行くと、普段のマーケットのボラティリティと、リーマンショックの時のボラティリティを較べれば一目瞭然だが、分散が不均一であれば、実は統計的な最小二乗法などの信頼性は一気に落ちてしまう。

当然そういった分散不均一なものに対して分析をうまくするためのアルゴリズムは世の中には沢山あるが、高度に専門的なことであり、一般個人投資家が自在に扱うことを考えるとハードルは相当高い。



そして、この分散不均一性が原因となって、有意だと思われた説明変数がその実ほとんど有意でなかったということが簡単に起こりうるし、さらに悪いことに、マーケットは構造変化するものなので、その構造変化によって、「やっとみつけたダイヤモンドの原石」が、次の瞬間ただの石になる、ということが頻繁に起こってしまうのだ。


俺はブログでも頻繁に、「ルールの裏にある理論を抑える」ことを特段重要視すべきだということを伝えている。

何故そういうことを伝えるかというと、その理論こそが、今のルールによるリターンが、Type 1 errorによるものなのか、それとも苦心して見つけたダイヤモンドなのかを選別する、唯一の方法なのだ。



こういった理論なしに、「こうやったら儲かりまっせ」というルールを遂行することは、ほとんどの場合徒労に終わる。何故なら、ほとんどの「儲かりまっせ」ルールは、背景理論が薄い場合、たまたまバックテストで結果が出ただけの、データスヌーピングバイアスの賜物であるからだ。


このメルマガを購読されている諸氏は、常に自分のルールに対して理論的背景があるかどうかのチェックを怠らないようにしてほしい。


更に詳しいことを学びたい場合は、ブログでも一度紹介したが、

Ludwig B. et al 「Quantitative Equity Portfolio Management」

を読み込むと良いかと思う。ちなみに、扱う商品がEquityだろうが、Forexだろうが、得るものは大きいはずだ。



ということで、今週は終了。また次週をお楽しみに。




後、これは切なるお願いなのですが、ブログランキングをぽちっとお願い致します。
ここから→http://kawasegekko.com/

なんだかんだブログ等、情報発信の分かりやすい対価としてこれでやる気が変わりますので。
あんまり、怪しい感じのブログとかに負けてると、なんかやっててもあんまり意味ないのかなと思ったりするので、是非にお願い致します!

規約に同意してこのメルマガに登録/解除する

メルマガ情報

創刊日:2017-03-09  
最終発行日:  
発行周期:週刊  
Score!: 98 点   

コメント一覧コメントを書く

この記事にコメントを書く

上の画像で表示されている文字を半角英数で入力してください。

※コメントの内容はこのページに公開されます。発行者さんだけが閲覧できるものではありません。 コメントの投稿時は投稿者規約への同意が必要です。

  • コメントはありません。