福浦 附属病院 大庭です。 手塚先生とともに、大学でよく統計解析についての質問を受けるのですが、ある程度同じ内容について違う人から質問されることが多くなってきました。 そのため、手塚先生と相談して、基礎的な統計の知識について、皆様が見えるところに書いておいておくことにしました。 細かい部分の間違いがあるかもしれませんが、もし見つけたら m126014a@yokohama-cu.ac.jpまでおしらせください。 では第一回目の内容です。 データの種類 われわれが通常、研究で扱うデータは概ね次の三つに分類される。
① 連続変数―数値で表される定量的データ 例)身長、体重、年齢など、 ② 順序変数―数字やアルファベットで順序づけられているが、その数字を足し引きすることには意味がない 例)ステージ分類、グレード分類など ③ 名義変数―分類などを表すが、順序の関係がない 例)性別、血液型など 名義変数のうち、生死、効果あり、なしなど2つの値のみをとるものを2値変数と呼ぶ。 なぜ、これらの分類を知っている必要があるかというと、集めたデータを統計ソフトで解析するときに、このデータは上記のどれに分類されるものであるのか、をソフトウェアの方に教える手順をとる必要があるからです。
例えば、生存=1、死亡=0と決めたデータがあり、その表を統計ソフトに読み込ませると、通常ソフトウェアはまず上記①の連続変数であると認識することが多いです。また、Grade A, B, Cなど文字でデータを読み込ませた場合の、AとBとCの順序について例えばAが一番良い(悪い)、その次にB,C、と続く順序についても、人間からすれば「アルファベット順」で自明のことですが、これもソフトウェアに伝える必要が(通常)あります。
それぞれの変数の種類によって、用いる解析手法も異なります。
大切なことは、
・データを収集する時点で、このデータは上記の3つのうちどれに当てはまるのかを理解した状態であること
・統計解析する際、ソフトウェア上でそれぞれのデータがそれぞれの分類の変数として、ソフトウェア上で正しく認識されているか(されていなければ修正する)を確認すること
の二つになります。特に、自分の研究のアウトカムになるデータが、上記のどれになるかは研究全体の方向性にもかかわる重要なことになります。
Comentarios