天竜川サツキマス白書 vol.23 多変量解析編

天竜川サツキマス白書、とうとう多変量解析まで到達しました・・・
(過去の記事をまとめて見るには、左のカテゴリ欄で『天竜川サツキマス白書』を選択して下さい)


ここまで来るのが、長かったなぁ~~


これまでに記事にしてきたものは、データを集計したり解析したものの中から
トピックになりそうなものを選んで載せてきたのですが、その陰には


大量のボツになった集計結果や解析結果があるわけでして・・・・


しかも、統計学やら多変量解析なんてことまで始めちゃったので
解析結果が合っているかを確かめるために、教科書のデータで同じことを解析計算して
検算したりしていたので、中々先に進まないったら、ありゃしない


ですが、今日が最後です! (ホントか?)



では、早速、目的変量(尾又長)と説明変量(釣期,場所,ミノー長)の相関を見てみましょう

<2000~2009年の231尾のデータを多変量解析>
尾又長[cm]、解禁からの経過日数[日]、河口からの遡上距離[km]、ミノー長[cm]を
それぞれ、y,x1,x2,x3 とし、尾又長の予測値[cm]をYすると、


多変量解析結果から尾又長を求める重回帰式は次のように求められます

Y = 0.067 * x1 - 0.15 * x2 - 0.01 * x3 + 32.6



この重回帰式が因果関係をよくあらわしているか? どの程度、表現できているのか?
これを調べるために、重回帰式の”あてはまり”を見ます
予測値Yを、実際のx1,x2,x3と重回帰式から求め、予測値と実測値の分散の比をとってみる

寄与率(決定係数) R^2(Rの2乗)=予測値の分散/実測値の分散 = 0.05

寄与率が1に近い程、”あてはまり”が良く、0に近い程悪いのですが、
この0.05という寄与率は多変量解析上は、極めて”あてはまり”が悪い状況


ということは、この重回帰式から予測値を計算することはあまり意味が無いということになります

とはいえ、この式からでないと、判らないこともあります

この重回帰式は、それぞれの説明変量(x1,x2,x3)の影響量を純粋に表しています
前回までの記事中で扱ってきた、一つ一つの要因同士の相関係数には、その他の要因の影響が含まれてしまいますが、この重回帰分析では他の要因の影響を除いたその変量の影響量が回帰係数として求められています

a1= 0.067  ・・・x1の回帰係数
a2= -0.15  ・・・x2の回帰係数
a3= -0.01  ・・・x3の回帰係数
a0= 32.6   ・・・定数項(切片)


これらの回帰係数から判るのは、その影響の程度と正負の方向、例えば
a1から、30日経過すれば約2cm尾又長が伸びている傾向が判ります
a2からは、上流で釣れるほど(x2が大きくなるほど)尾又長は小さい、7km上がると1cm小さい
a3は、ほぼゼロですから、ミノー長が尾又長に及ぼす影響は無いと言える

その反面、この重回帰式だけでは、どの変量が最も尾又長に影響を及ぼしているかは判りません
それぞれの変量の単位(日、km、cm)が異なるからです
それは、後述のデータを標準化した際に見極めることができます


余談ですが、x1の回帰係数(経過日数の影響)は重回帰分析を実施した結果では、0.067
ところが、経過日数と尾又長だけを単回帰分析した場合には、0.036 となります
エクセルなどの表計算ソフトで、近似直線を引いたときの傾きがこれになりますが、
これが他の要因の影響を含んでいるわけでして、そういった影響を排除したのが
多変量解析(重回帰分析)ってことになるわけですemoticon-0126-nerd.gif (らしいですよ、、、あんまり自信なし)


では、データを標準化して説明変量の大きさの影響を評価してみます
各データの平均を0に、分散を1になるようにデータを変換してから、標準化した重回帰式を求め直しますと、

Y* = 0.33 * x1* - 0.21 * x2* - 0.02 * x3*


a1= 0.33   ・・・x1の標準回帰係数
a2= -0.21  ・・・x2の標準回帰係数
a3= -0.02  ・・・x3の標準回帰係数


この式からはすぐに目的変量(尾又長)を求めることは出来ませんが、各説明変量(日数、距離、ミノー長)の目的変量への寄与の評価には役立ちます。

a1(x1の標準回帰係数)が最も大きく、やはり釣れたサツキマスの尾又長には経過日数が最も影響していることが判ります


先ほどは、”あてはまり”の良さを寄与率で見てましたが、寄与率は説明変量が多くなるほど高くなるなど当てにならない一面もあるそうなので(とはいえ、その寄与率でさえ、既に”あてはまっていない”と結論づけているわけですが・・・)、この標準化した重回帰式が目的変量の予測に役立つのかを、再度、他の方法で検定します

面倒な計算や、F-分布表や自由度などの理屈はすっとばして、
検定に用いる分散比F0ってのを比べてみますと、

F(p,n-p-1;0.01)=3.7816 < F0=4.0 < 4.2794=F(p,n-p-1;0.005)
危険度1%のとき、この重回帰式は予測に成り立つが、0.5%のときには成り立たない

という結果を得ます

この結果は、重回帰分析上ではあまり悪くなく、式は十分に役立つということになりますが、
これには、データ数(231)が十分に多かったという事実が効いているわけで・・・
なにせ寄与率(0.043=標準化した重回帰式の場合)が低いのが気になります


重回帰分析の鉄則の一つに、互いに相関の高い説明変量を用いないこと、
というのがあります。互いに相関の高い説明変量による多重共線性の問題があるから
というのが、その理由だそうですemoticon-0126-nerd.gif(詳しいことは判りませんemoticon-0125-mmm.gif

そこで、互いの相関が非常に高い”経過日数”と”距離”のうち、単独での尾又長への相関が低い方の”距離”を除いて、もう一度、重回帰分析を行ってみますと、

その結果は、寄与率=0.032と、さらに低下。 重回帰の検定結果も、
危険度2.5%のときこの重回帰式は予測に成り立つが、1.0%のときには成り立たない
となって、”あてはまり”が悪くなってしまいました


元々の3説明変量のものの方がマシなようです


ということで、結局は、

多変量解析で尾又長予測式を導き出して、重点的に大物サツキマスを狙う!
という目論見は失敗!


無念・・・emoticon-0106-crying.gif


ただ、昔から持っていた疑問や、グラフをぼんやりと眺めたときに感じた疑問

川に入ってからサツキマスは毎月3~6cmも成長するのか?
大物は、後半戦に多いようだけど、成長しているのか?大きな群れは後から遡上するのか?
上流で大型って本当なのか?
ミノー長と尾又長の関連は?小さいほど上流で成果ありそうだけど、小さいと大物に効くの?

こんな疑問の解明に少しですが役立った気がします


川に入ったサツキマスが成長するか、遅れて遡上開始した群れが大きいかは判らないが、30日経過するごとに釣れるサツキマスは平均で2cm大きい。ということは、結果的に後半戦ほど大物の可能性高いわけです。重回帰式から単純計算すると、7月以降は40cm超の予測値となりますが、これは実績ともそう離れている印象はありません。
そして、場所やミノー長は大物狙いには関係無さそうです。特に上流ほど大物ということは無し。ミノー長と尾又長には何の関係も無いと言って良いかと思います。



あくまでも、多変量解析結果(統計学の机上の計算)では、こうなるということです


以上で、サツキマスのデータの多変量解析はおしまい


っていうか、ここまで読んでいる読者の方は何名おられるのだろうか????

[PR]

  by fish_anecdote | 2010-03-13 15:50 | 天竜川サツキマス白書

<< 平成22年度天竜川年券購入 天竜川サツキマス白書 vol.... >>

SEM SKIN - DESIGN by SEM EXE