再考シングルケースデザイン(番外編):統計的分析の適用について(実は疑問だらけ。どなたかご教示下さい)

 番外編は7月末の日本行動分析学会創立三十年記念シンポジウムで岡山大学の山田剛史先生から話題提供のあった「シングルケースデザインにおける統計分析」についてです。シンポジウムの後、山田先生に個人的に質問させていただいたことも含めて書いておきます。
 私は統計の専門家ではないので、おそらくはトンチンカンになると思いますが、実は疑問だらけの話なのです。こういうのは、自分以外にも疑問に思う人がいるはずだが、きっと恥ずかしくて口に出せないのだ、だから自分が人柱となって恥をかいてでも質問するのだという思い切りが必要で、清水の舞台から飛び降りる気合いで書いてみます。

 シングルケースデザインのデータは個人の(あるいは同じ集団の)時系列データです。時系列データには系列依存性があることがわかっています。系列依存性があるかどうか、あるいはどのくらいあるかは自己相関を計算すればわかります。t検定やF検定を自己相関のあるデータに適用すると結果が歪みますから、他の方法を使わなくてはなりません。これが、シングルケースデザインの実験から得られたデータに、標準的なt検定や分散分析が使えない理由です。
 そして、この問題を回避するためにいくつかの検定方法が開発されていているのですが、山田先生が行動分析学研究でも紹介されている「ランダマイゼーション検定」は、自己相関の問題もクリアでき、多層ベースライン法など、AB法やABA法以外の実験デザインに適用する方法も開発されているので、検定方法としてはお奨めということでした。

  • 山田剛史(2000) 単一事例実験データへの統計的検定の適用 : ランダマイゼーション検定とC統計 行動分析学研究,14(2), 87-98.
  • 山田剛史(1999)単一事例実験データの分析方法としてのランダマイゼーション検定 行動分析学研究, 13(1), 44-58.

 ただし、標準的なランダマイゼーション検定では、介入を始める前にあらかじめ無作為に選んだ介入開始時期を決めなくてはなりません。これは、データをライブで監視しながら、それに応じて介入開始時期や介入方法を決めるときがある(そしてそれが臨床的に有意義でもある)シングルケースデザインの特性を失うものです。この点について山田先生に質問したところ、介入開始時期を後から決められる、ランダマイゼーション検定の変形もあるそうです。これについてはまた勉強しないとならないなと思いました。

追記:山田先生からさっそくご指導いただきました(ありがとうございます!)。上記の山田(1999)でも紹介されている Ferron & Ware (1994) がそれだそうです(後で読んでみます)。

  • Ferron, J., & Ware, W. (1994). Using randomization tests with responsive single-case designs. Behaviour Research And Therapy, 32(7), 787-791. doi:10.1016/0005-7967(94)90037-X

 さて、素朴な疑問です。

 「時系列データには系列依存性がある」とはいっても、どれくらいあるかは実験によって異なるようです。山田先生が引用されていたShadish & Sullivan  (2011)では、サンプリングした研究における自己相関の平均値を問題にしていて、非常に小さいが無相関ではないとしています。しかし、範囲が -.931〜.780、平均が -.08、標準偏差が.36ですから、特定のデータセットによっては自己相関が0に限りになく近いものもあるはずです。

  • Shadish, W. R., & Sullivan, K. J. (2011). Characteristics of single-case designs used to assess intervention effects in 2008. Behavior Research Methods, 43(4), 971-980. doi:10.3758/s13428-011-0111-y

 こうした研究から「(すべての)時系列データには系列依存性がある(はずだ)」、「(だから)得られたデータセットに自己相関があるかどうかには関わらず、t検定もF検定も避けるべきである」というロジックになるという理解でいいのでしょうか? もしそうなら、実験参加者や標的行動や状況や随伴性など、諸々の影響は無視し、「時系列データ」という枠組みでくくった母集団を想定し、得られたデータセットに自己相関がなかったとしても、それは偶然(サンプリングエラー)であるとみなすということでしょうか。

 なんでこんなことを考えているかというと、たとえば、まずは得られたデータセットに自己相関があるかどうかを確認し、なければt検定や分散分析、ごく小さければ二項検定、大きければランダマイゼーション法などの方法を使うというように、データセットの特性次第で分岐するような作業フローは作れないものなのでしょうか?

 でも、そうすると、たとえば、たかだが4つ、5つのデータポイントから(あるいはJABAの平均である10個前後から)、信頼性をもって自己相関を計算できるのかということにもなると思います。そしてそうなると、そもそもデータポイント数が少ない場合の自己相関は記述統計として意味を持つのか?ということになるかと思います。あるいは、ここでも推測統計をするのでしょうか? だとすると、その場合の母集団は何を想定することになるのでしょうか?

 シングルケースデザインで得られたデータの平均値をベースライン期と介入期とで比較するということは、何らかの母集団を想定していることになるのではないかと思うのですが、果たして何を母集団としているのでしょうか?(ランダマイゼーション検定はベースライン期と介入期のデータのすべての組合わせを母集団にする特殊な方法だと思うので、この話はあてはまらないのかもしれませんが)。
 同じ条件でその行動を記録し続けたときを母集団とするのでしょうか? その実験参加者のその標的行動の観察時間以外の自発を母集団とするのでしょうか? たとえば、算数の時間の課題従事行動を測定しようとして、60分の授業の中盤20分だけ、しかも週に4回ある授業の2回だけを抽出して測定し、かつ、測定方法が60秒間隔のタイムサンプリングだったとすれば、母集団は全算数の授業の全時間で、そこからサンプリングした標本から母集団を推定するというのもわからなくもありません。でも、たとえば、一日に2回ある登下校時の靴の履き替えを標的行動とし、毎日測定したら、それは全数調査になり、母集団の推定は必要ないのではないかと思います。このような検討は必要ないのでしょうか?
 そして、たとえ前者のようなケースであっても、測定対象を介入対象とし、その限定された条件で行動が変わるかどうかを問うなら、測定対象イコール母集団とはならないのでしょうか? (研究の目的に応じ、その他の場面への影響は「般化」として検討するとして)
 その場合、全数調査ですから、平均(を計算したとして)の差がそのまま母集団の差になるわけですから、検定する必要さえないのではないでしょうか?(それが教育的に有意な差かどうかは別の文脈での検討がもちろん必要として)。

 どなたか親切にご教授いただければ幸いです。

 最後に:山田先生も論文を引用されていたHuitema先生ですが、私はWestern Michigan University に留学中、彼の基礎統計の授業を受講したことがあります。とてもわかりやすく教えてくれる先生でした。発音は「ヒューテマ」ではなく「ハイテマ」だったと記憶しています。

アーカイブ

法政心理ネット