再考シングルケースデザイン:吉田寿夫先生からの問いかけに答える(その6):統計的分析の適用について

吉田先生からの問いかけ:

○多くの人が同じように判断できるようになることは重要(ないし,必ず必要なこと)なのか?
○一律の判断基準などというものを想定すべきか?
○個々の状況を踏まえた職人芸的な面は本来存在すべきものでは?
 *ただし,職人芸的な面の言語化(の努力)は必要

 たとえば、減らそうとしている行動の頻度がベースラインで減りつつあるのに介入を始めてしまうなど、シングルケースデザインの基本原則を理解せずに研究や実践を行っている人も、残念ながら多数います。
 そのような現状を考えると、基本的な「一律の判断基準」をよりわかりやすく言語化し、教え、普及させるという仕組みが必要だと思います。
 その上で、個々のデータの読み取りについては、その研究で扱われている行動の特性や対象としている状況など、様々な変数によって影響される言語行動になるので、「職人芸的な面」も残ると思います。天気図やMRIの画像を読み取る力に個人差があるのと同じで、どれだけ判断基準を明確にしても、機械的に結論をだすのは難しい領域ではないかと思います。

○視覚的判断においてどのように考えたか(思考過程・判断の基準など)について各研究者がていねいに記述する必要があるのでは?
 (そうでないと)
・判断が甘くなってしまいがちでは?
・精緻な判断ができるようにならないのでは?
・(完全な収束というものを追求する必要はないと思うが)判断基準の(ある程度の)収束がなされないのでは?

 まったく同感です。多くの基礎研究では研究計画時点で条件の変更基準を設定します(例:連続した5セッションにおける生起頻度が平均値の上下10%以内に収まったらなど)。残念ながら応用行動分析学の研究でこうした基準を明確にしている研究は少ないです。もちろん、剰余変数を最初からなるべく統制している基礎実験と、フィールドで行う応用実験とでは、やってみないとわからない予測が難しい変数があることは確かで、研究計画時点で事前に設定した条件をそのまま突き通すことが無意味なことさえありますので、せめてベースラインを取りながら(私の研究室ではベースラインのベースラインを取ったりします)、介入の変更基準や中止条件を決めておき、それを論文でもそのように設定した理由と共に報告すべきだと思います。

○そもそも「視覚的判断 vs. 統計的分析の適用」というように択一視する必要があるのか?
・各研究において,両方とも適用しても良いのでは?

 「択一視」という主張はあまりみかけません。統計的検定をするべきだと主張している人もその多くは「併用」を主張していると思います。その根拠となるのは、視覚的判断のみでは主に第一種の過誤を犯す危険があるときがあるからです(第二種の過誤は起こりにくいとされています)。
 そもそも第一種の過誤が起きるようなデータは、行動の水準や傾向が介入によって明確に変わっていない場合ですから、本来なら、介入の条件を変えたり、別の介入を探すべきなのです。そのようなときに統計的検定を使って、たとえ統計的有意差が得られたとしても、それは社会的妥当性が低い結果である可能性が高いことになります。つまり、研究者の行動を強化すべき条件は、問題とされたことが標的行動の制御変数を明らかにしながらどれだけ解決できたかであり、目標は統計的な有意差ではないのだという考えが根本にあり、これが統計的分析を適用することへの本来の反論だと私は考えています。
 実際には、研究者の行動を強化する(あるいは引き出す確立操作として)、できるだけ早く論文を書き、できるだけ早く投稿、掲載するという随伴性もあり、これが十分に長いベースラインをとったり、行動が明確に変わるまで介入を続けるという行動を阻止する傾向にあることは否めません。査読者、編集者側の行動にも、時に同様の随伴性が働きます(こうした問題はどの分野でも似たり寄ったりではないかと思います)。でも、統計的分析を適用することがこの問題の解になるとは思えません。

○検定の適用が可能なようにデザインを考えてはいないか?
・「こうまでして検定を持ち込む必要があるのか」と思えてしまうデザインがある。
・「実験デザインや介入法の臨機応変な変更」という利点であるはずのことを反故にしてはいないか(「手段の目的化」ではないのか)?

 これも統計的検定の重視に反対する理由の一つです。そもそもシングルケースデザインで統計を使った研究は少なく、ご批判されているような「無理矢理な」論文を私は読んだことがありませんが、もしあれば同様の感想を持つと思います。

 同じシンポジウムで話題提供して下さった岡山大学の山田剛史先生にシンポジウム後にお話をお聞きしたところ、ランダマイゼーション検定には、事前に介入開始時点を決めなくてもいい変形版もあるそうですが、そうでないなら「臨機応変な変更」を失うのはもったいないと思うと話されていました。

 統計についてはさらに数々の重要な問題提起をいただきました。私は統計の専門家ではないので、かつ、シングルケースデザインで行う研究について最初から検定を前提にすることには懐疑的なので、以下、提起された問題はご紹介しますが、直接の回答はしないでおきます(それこそ山田先生などにご参加いただき、もっと詳しく、徹底的にこのあたりのことを集中して話し合うセッションなどをやってみれたらいいですね)。

○検定に関する種々の問題(有意水準の恣意性やデータ数によって検定力が大きく左右されることなど)について,どう考えるのか?
・検定をやっても,(現実には)外的妥当性の問題は解決しない。
・検定をやっても,内的妥当性への脅威(種々の攪乱要因の介在可能性)は解決しない。
○種々の検定法や記述統計量をどう使うか(ないし,どう使い分けるか)。
・従属変数(標的行動)の内容や,それに関してどのような状態になることを目指すのかなどによって,適切であろう統計量(効果量の指標)は異なる。
・各研究において,どれか1つのみを選択しなければならないわけではない。基本的には,多面的に記述する方が望ましいと考えられる。
・「平均値差÷標準偏差」という標準化された効果量よりも,単なる平均値差の方が適切な場合もあると考えられる(行動分析学では,通常,具体的な行動を従属変数としているのだから,値そのものの変化に関する意味づけが,ある程度,可能だと考えられる)。
・「臨床的に意味のある効果(差)」ということを意識した考察をしているか?
○効果の規定因分析に関するメタ分析は有用だと考えられるが,この領域では公表バイアスが顕著に生じているのでは?
○統計的分析の基本的な考え方に習熟することは,視覚的判断を精緻なものにすることにつながるのでは?

 応用行動分析学の研究では、上述したように、統計的な有意差よりも、臨床的、教育的、あるいは経済的な有意差の方が重視されます。たとえば、100点満点のテストを考えたときに、元々50点くらいの成績だったお子さんを指導によって60点とれるようになったとして、その差に統計的有意差があったとしても、それでほんとうに教えたことになりますか?という話です。「臨床的に意味のある効果(差)」とか「値そのものの変化に関する意味づけ」は常にしなくてはならないこと、論文でも「考察」で論じられるべきことです。

 このブログでもシリーズで紹介してきたように(下記に列挙します)、現在、心理学や関連分野でシングルケースデザインに統計的分析を使うことに注目が集まっているようです。しかし、ほとんどは、シングルケースデザインで行われた研究成果を集めてメタ分析するための議論です。シングルケースデザインで研究を行うのは、目の前の標的行動を社会的な要請に応じて変える制御変数を見つけるためであり、メタ分析を行うのは、そうした変数が世の中の類似の行動に、全体的にどのくらいの効果をもたらすかを推定するためです。つまり、研究の目的が異なります。目的によって必要な情報が異なるわけで、制御変数を「見つける」ためには効果量の測定は必ずしも必要ではないと私は思います。
 ですから、個人的な見解は、応用行動分析学の研究で統計的分析をする必要は多くの場合はないが(逆に統計的有意差を重視する随伴性は本来すべきことを妨害する危険もあるので反対するが)、後でメタ分析をする人がしやすいようにデータを提供するのはいいことだ、ということになります。学術誌の電子出版も普及してきていますから。たとえばシングルケースデザインのローデータを、論文のPDFと一緒にダウンロードできるようにする環境設定などを進めるべきだと思います。

アーカイブ

法政心理ネット