Bulté & Onghena (2008) に紹介されている, Rでランダマイゼーション検定をするためのパッケージ SCRT の情報はここに掲載されています。

 SCRTをインストールすると,実験計画の時点で条件のセッションへの割当てを無作為化するために指定した条件で考えられるすべての組み合わせを算出するassignments()など,各種関数が組み込まれます(「依存パッケージも含める」にチェックを入れておけば作図関数graph()が含まれるSCVAや効果量計算のSCMAも同時にインストールされるようです)。今学期に3年生が取り組むことになっている実験で試しに使ってみようかと思います。

 ちなみに,Ferron & Ware (1994)や山田(1999)にあるように,事前に決めた介入開始条件を反映した(制限した)場合のランダマイゼーション検定に使えるかどうかはわかりません(なんとなく使えないような気がする)。

  • Bulté, I., & Onghena, P. (2008). An R package for single-case randomization tests. Behavior Research Methods, 40, 467-478.
  • Ferron, J., & Ware, W. (1994). Using randomization tests with responsive single-case designs. Behaviour Research And Therapy, 32, 787-791.
  • 山田剛史 (1999). 単一事例実験データの分析方法としてのランダマイゼーション検定 行動分析学研究, 13, 44-58.

関連する過去記事

このシリーズの最後に、吉田先生からいただいた問いかけの中で後回しにしたものに、まとめて回答します。おかげさまであらためてシングルケースデザインについて考えることができ、よい勉強になりました。三十周年記念のシンポジウムへのご協力と、このブログで記事を書くことをお許しいただいたことに感謝致します。吉田先生、ありがとうございました。

吉田先生からの問いかけ:

○効果の規定因分析に関するメタ分析は有用だと考えられるが,この領域では公表バイアスが顕著に生じているのでは?

  「この領域」というのがシングルケースデザインを用いた研究という意味なのか、応用行動分析学の研究という意味なのか、もっと別のことを参照されているのか不明ですが、一般的に、応用行動分析学の研究では、行動変容が確認できるまであの手この手で介入を変え、探索的に実験を続けますから、最終的には行動が変わることが多いのです。仮説検証を一発ですますことが多い群間比較法を用いた研究との違いがでるところかもしれません。ですから、研究の数を分母に、行動の変化が確認できた研究の数を分子にとれば、その割合が高くなったとしてもさほど不思議ではありません。
 ただし、行動が変容しただけでは論文は受理されないことが多いです。つまり、行動が変わっても、なぜ変わったのかが実験計画により明らかになっていなければ出版されないことになります。
 公表バイアスが実験計画種別によってどれだけ変わるかはわかりませんが(ちょっと調べたところではそのような研究は見当たりませんでした)、論文を投稿しない(もしくは投稿しても採用されない)理由は、介入に効果がなかったからではなく、因果関係を示せなかったという場合が多いのではないかと、個人的には思います(例:応用行動分析学の博論で、結論が「効果がありませんでした」というのは聞いたことがありませんが、博論を学術誌に投稿しても実験統制が不十分だったりして不採用になったというのはよく聞く話です)。

○統計的分析の基本的な考え方に習熟することは,視覚的判断を精緻なものにすることにつながるのでは?

 はい。少なくとも、平均、傾向、分散、差のような基礎概念は必要だと思います。ただ、それだけでは不足するようです。一応、基礎統計は学んでいるはずの大学生、大学院生、あまつさえ大学教員でさえも誤反応しますから。おそらく、確実な習得には、それなりのツールを用意し、使用を練習する訓練が必要なのだと思います。以下にそのような文献を一例としてご紹介します。

  • Fisher, W. W., Kelley, M. E., & Lomas, J. E. (2003). Visual aids and structured criteria for improving inspection and interpretation of single-case designs. Journal of Applied Behavior Analysis, 36(3), 387-406. doi:10.1901/jaba.2003.36-387
  • Stewart, K. K., Carr, J. E., Brandt, C. W., & McHenry, M. M. (2007). An evaluation of the conservative dual-criterion method for teaching university students to visually inspect AB-design graphs. Journal of Applied Behavior Analysis, 40(4), 713-718.


○ short reports というものについて
・「これだけのデータで論文にしてしまうの」と思ったものがたくさんありました。
*個々の介入に時間がかなりかかるので致し方ないのかもしれませんが(特に,大学院生の人たち などの場合は)。

 これはシングルケースデザインについてではなく機関誌の編集方針についてのコメントだと思います。また、投稿論文の数と質の確保はどこの学会の編集委員会でも課題に取り組まれている課題ではないかと推察します(「これは!」という研究は海外の雑誌に投稿する傾向がある我が国においては特に)。
 機関誌の編集方針や査読の基準という随伴性は、もちろん個々の投稿者の行動に影響する要因でありますが、その成果はより長い時間の広がりの中で評価すべきことと考えます。
 創立三十周年を迎えたとはいえ、日本行動分析学会はまだまだ若く、これからの学会です。現在は、まだ、できるだけたくさんの研究をできるだけ早く掲載し、研究や執筆の回転を早める段階だと私は思います。つまり、シェイピングの初期段階だと個人的にはみなしています(編集委員会には質を重視すべきであるというもっともな意見もあります)。そして、シェイピングの初期段階では、今できていることよりほんの少しだけ上を狙って強化するのが常です。
 現在の状況が四十周年でも変わっていなければ、この方針を修正すべきでしょうが、今のところはこれでいいのではないかと思います。
 こう書いてしまうと、なんだかとても質の低い仕事をしているように読めてもしまいますが、それは、たとえば JEABやJABAなどとは要求水準が違いますという意味であり、具体的な名前は差し控えますが、国内の心理学関係諸学会のジャーナルに比べて、ことさらにハードルが低くなっているということはなく、むしろ高い方ではないかとさえ感じることもあります。

○方法の why に関する記述の必要性について
・なぜ,そのデザインを適用したのか?
・なぜ,そのような介入パッケージにしたのか?
・各期のセッション数の判断基準は?
・(行動間マルチベースラインデザインを用いた場合) 複数の標的行動に対する介入の順序はどうやって決めたのか? etc.

 ご指摘の通り、論文に書くべきことも多いですし、専門家には自明のことでも専門外の方には明示しないとわかりにくいこともありそうです。
 書くべきことでも、紙面の都合で(頁数、文字数制限で)、相対的な重要性判断から省略するものもありますから、このあたりは難しい判断が必要で、万人が満足する正解はなさそうな課題のような気もします。

 次の質問については教科書的な回答になりますが(あるいは、私の研究室ではやっていますが、ということになりますが)、それぞれ回答します。

○以下のような基本的なことをきちんとしているか?

・ベースライン期の変動に実際に注目しているか?

 ベースラインもしくはベースラインの測定を開始する準備段階の観察や測定で、変動を探し、それを制御変数の特定に活かします。

・標的行動を定義するためのパイロット観察をきちんとしているか?

 上述のように、しています(すべきです or しないと次の段階で大抵コケます)。

バイアスの異なる複数の方法による測定をしているか?

 具体的なイメージがわきませんが、一度に複数の測定方法を実施するということはその比較検討が目的の研究でない限り、あまりないことだと思います。ただ、測定してみたけれどうまくいかない(信頼性が確保できなかったり、妥当性が怪しかったり)ときに、うまくいくまで他の測定方法を順次試していくということはよくあることです。

・観察の一致度のチェック以前に,訓練や定義の精緻化などに手間暇をかけているか?

 観察対象によります。一致度が低くなる要因は定義が不鮮明だったり、訓練が不足していることが多いので、高い一致度をゴールにしておけばある程度自動化されるプロセスです。もちろん、たとえば九九の計算を回答シートで数えるような場合には、このあたりのプロセスは簡略化できます。なので、観察対象によりますとなります。

以上です。

吉田先生からの問いかけ:

○結果を一般化する際の限定条件についての論述の必要性について
・このようなことについての記述が考察であまり(ないし,ほとんど?)なされていないのでは?

 まず、その8に書いたように、シングルケースデザインは母集団についての仮説を演繹的に検証する実験計画法ではありません。ですから、群間比較法を用いた実験論文のように、その実験のデータから母集団について結論をだすという意味で「結果を一般化」することはしません(できません)。シングルケースデザインで得られたデータからは、その研究で対象にしたことについてしかわかりませんし、それでいいのです。

 ただし、先行研究の再現、系統的再現をしている研究については(ほとんどの研究は何らかの再現をしているはずなのですが)、先行研究の手続きと、その研究の手続きにおける各種変数の相違点と結果一致/不一致について述べ、先行研究の結果を「再現」したのか、しなかったのかを書く必要があります。その中で、先行研究(や先行研究の積み重ね)でわかったことがさらに確認できたのか、それともできなかったのかは論述すべきです。前者は帰納的な文脈での「一般化」になりますし、後者は推測ではなく、先行研究と当該の研究における違いを事実として書くということで、「一般化」に制限がかかる、もしくはかかる可能性を示唆することになります(ほんとうに制限がつくのかどうかは、さらなる再現が必要になります)。

 どの研究の再現なのかを論文中に明記することで、後でメタ分析をするときに研究をまとめやすくなるというメリットも生まれると思います。このあたりは、現状、公刊されている論文では必ずしも実現されていませんが、それは、ある実験がどの実験の再現にあたるかついて、実験者の視点は唯一無二のものではなく、視点によって変わってくるということもあると思います。

吉田先生からの問いかけ:

○内的妥当性への脅威(種々の攪乱要因の介在可能性)について
*実際には内的妥当性が高いデザインによる検討を行なうことが困難である場合が多いであろうから,この問題の顕現性は高いと考えられる。
・多標本群間比較法よりも(個人変数以外の変数に関する)交絡に関する配慮の必要性が高い?
・実験者(期待)効果,要求特性の効果,ホーソン効果,評価者のバイアスなどは,群間比較法と同様(ないし,それ以上に)に介在する?
・特に実験者の行動に関わる攪乱要因については注意が必要では?
・(特に ABデザインによる研究では)介入が長期にわたる場合の自然変動などについても考慮する必要性が高いのでは?
*以上のことについてのクリティカルな検討が不十分では?
・考察において他の解釈可能性をもっと慎重に論じるべきであるとともに,(研究者にとってはリスキーなものである)種々の攪乱要因の介在に関する情報を積極的に集めようとすべきでは?

 ご指摘されている種々の脅威についてはその通りで、内的妥当性に対する脅威は、群間比較法を用いた場合と同じ程度、存在すると思われます(シングルケースデザインを用いた研究の方がより高い脅威にさらされているという主張の根拠はわかりませんでした。すみません)。

 実験者効果などの剰余変数について:

 まず、実験者効果をできるだけ除外するように要因分析をすることが考えられます。たとえば「授業中に発言する前には挙手して指名されたら席を立って話をする」を標的行動とする場合、最初に教員による教示のみの条件から始め、それでも効果がなかったときに、たとえばトークンなどを使った条件に移行するのであれば、教員の期待の効果は相殺できます。
 もちろん、教示+「期待」では不十分で、教示+「期待」+トークンで効果がでたと考えれば、「期待」の効果を除外したことにはなりません。ただし、これは臨床的に考えればあまり意味のある議論ではありません。なぜなら、「期待」を除外してこの手続きを導入することがそもそも難しいからです。
 むしろ、同じ手続きを他の学級、他の教員で試していくうちに(再現、系統的再現を続けていくうちに)、児童と教員の組合わせによっては、同等の効果が得られないときがでてくるかもしれません。そのときには、たとえば、教員からの指示に従うことが日頃からどのくらい強化されているかとか、教員の意図を予想する児童の行動頻度とか、意図どおりになることの強化力などが、この介入に影響することが推察され、その条件が実験で確かめられることになるでしょう。
 内的妥当性の検証は、当該の研究内で行われるべきものと、一般的には考えられているかもしれませんが、シングルケースデザインの場合は、このように再現、系統的再現の試みの中でも進行するものと考えられます。

 評価者(観察者)のバイアスなどについて:

 シングルケースデザインでも群間比較法でも同じように脅威になる要素ですが、一般に、応用行動分析学における研究の方が、その他の教育・発達心理学よりも、この点に関するチェックは厳しいように思います。つまり、行動の直接観察だけではなく、行動の所産についても独立した観察者間の一致度を測定するし、そのための各種観察法も開発されているし、その上で生じる観察者ドリフトやその対処法なども考慮されているからです。つまり、バイアスのリスクは認知されていて、できるだけ排除、低減する措置がとられていることが多いと思います(たとえば、行動の直接観察をしている実験論文を各種学術雑誌から取り上げ、観察者間の一致率を求めているかどうか、またその測定や算出方法の妥当性を比較すればわかることかもしれません)。

 他の解釈可能性について:

 よっぽど怪しい変数があれば考察で議論する価値があると思いますが、それほどでもなければ(他の研究でもありえる、一般的なリスクであれば)、わざわざ取り上げる必要はないかもしれません。なぜなら、もし剰余変数が実験変数よりも効いていて、それが介入手続きに内在しないのであれば、再現、系統的再現されるときにわかるし、逆に、それまではわからないからです。

吉田先生からの問いかけ:

○検討していることの新奇性・脱常識性について
・反証を求めている(リスキーな検討をしている)か?
*率直に申し上げて,門外漢が読んで「へえー」とか「なるほど」とは思えない論文がたくさんありました(人間というものは,基本的・単純な原理の適用の積み重ねで変わるものなのかもしれませんが)。
*「分からなくならないと認識は進展しない」,「自分を分からなくさせることが大切」だと思っています。
・「このことについてはこれまでに検討がなされていない」という理由だけでは当該のことについて検討することを正当化するための論拠として脆弱では?
*ただし,実践を兼ねているから仕方がない面が多分にあるのかもしれません。
・実践の場ないし世間にとっての新たな知 vs. 学界にとっての新たな知 ・前者も実践上大切だが,後者が重視されていないのでは?
*以上のことは,リプリケーションにおいても同様に該当する。

 3月に慶應義塾大学の渡辺茂先生の最終講義「八つ当たり心理学批判-言いたい放題-」を拝聴させていただきました。渡辺先生は行動分析学に対する「批判」として「面白さに欠ける」とおしゃっていました。行動分析学の考え方とか研究とか方法論はよく理解し、その意義もわかっていながら、このように考えて、それゆえに(それだけではないでしょうが)行動分析学を専門とはしない実験心理学の先生方は他にもいらっしゃると思います。

 行動分析学の研究は、結局のところ、そのほとんどが行動随伴性に帰結します。もしそうならない現象が発見され、積み重なり、そうした説明不可能な現象をもまとめて説明可能な枠組みがでてきたら、そのときこそクーンのいうところのパラダイムシフトが起こるべくして起こるわけです。でも、そのときが来るまでは、なんでもかんでも行動随伴性みたいになるわけです。

 私は、これだけ複雑で多様な事柄がこんなに単純な原理で「解釈」でき、かつ役に立つように使える(行動を「制御」するのに有効)ことを「面白い」と感じ、価値を見いだしているわけですが、そういうことよりも意外性や「新奇性」や「脱常識性」に面白さを感じる人が多いことも理解できます。

 ここのところは、もしかしたら突き詰めれば「趣味」の問題かもしれません。なので議論にはならないし、議論すべきことでもないかもしれませんが、それでも議論するのなら、何が科学者の行動を強化しているか、研究行動を制御している変数は何か、ということになるのかなと思います。

 ただ私も、世間一般の人たちにとって「面白い」と思われるような研究がもう少し増えてもいいのではないとは考えていて、だから「忍者の修行」とか「幻臭」とかについて、行動分析学から研究したりしているわけですが、日本だけではなく、国際学会でもこういう実験をする研究者は少数派です。

 「分からなくならないと認識は進展しない」について:

 基礎研究(実験的行動分析学)では「わからないこと」の探求が多く行われています。直接の応用可能性は不明だが、「学界にとっての新たな知」を純粋に追求している諸研究は、たとえば Journal of the Experimental Analysis of Behavior などをご参照下さい。

 応用研究の目的はどうしても「どうすればこの行動が変わるか」になります。ある意味でベースライン条件では「どうしたらいいかわからない」のでわざわざ介入をするわけですから、その都度、わからないことをわかろうとするプロセスにはなっているはずです(もちろん、行動が変わったことが、なぜその行動が変わったのかがわかったことでは必ずしもないことには注意しなくてはなりませんが)。

 ご存知の通り、シングルケースデザインは再現に依存する研究法です。母集団を想定し、仮説を作り、標本抽出し、無作為に実験条件を割り当てた群間比較から仮説を検証し、演繹的に母集団についてものをいうわけではありません。シングルケースデザインでわかることはその実験のその行動の制御変数についてのみ。その一般性は同じような介入をどこかで繰り返し行い、その効果を確認していくようになっています。
 だからこそ、群間比較実験より、再現が必要だし、それこそ命といってもいいと思います。だからこそ、似たような介入方法の研究が多いことは、むしろそれだけ再現(や系統的再現)が繰り返されているということで、変数の外的妥当性が検証されつつある、望ましい状況ととらえます。

吉田先生からは「多くはシングルケースデザインによる研究のみに該当することではありません」という注釈つきで、数多くの「実際の適用に対する批判的コメント」をいただきました。

ここから先はその中からいくつか選んで回答させていただきます。

○副作用について考慮しているか?(物事は基本的には「両刃の剣」)
・標的行動以外の側面(変数化されていない側面)への影響にも目を向けているか?
・社会的妥当性に関する検討において,当事者からのコメントに対する価値判断が短絡的、一面的では?
例:
・「10 分間に作文を5行以上書く」ということの促し
・促進すべきこと? ・質の良くない作文を書くようにはならないか?
・(他者からの賞賛や叱責のような)強化がないと行動しない人間にしてしまうことはないのか? そうだとしたら,それは望ましくないことではないのか?
・相互依存型集団随伴性 ・正反応を示さなかった子に対する否定的な評価・行動を誘発しないか?

 応用研究では、標的行動以外の行動の共変化についても考慮すべきだと思います。事前に予測可能な変化であれば、何かしらの測定をすべきですし、そうでないものも事後にできるだけ情報収集すべきだと思います。
 実際には「社会的妥当性」の検討のために、対象となった本人や周囲の人たちからアンケートやインタビュー形式で情報収集することが多く、ポジティブな副作用も、ネガティブな副作用もそれである程度把握できると思います。もちろん、そうしたデータの信頼性、妥当性については慎重に検討すべきで、「当事者からのコメントに対する価値判断が短絡的、一面的」にならないように注意すべきです。
 一方で、応用行動分析学の研究のように対象者の行動を継続して長期間にわたって測定し、対象者やその環境にあわせて介入を計画するアプローチにおいては、研究遂行に当事者たちの協力が欠かせません。ある意味、周りの人たちからの積極的な参画行動を引き出し、維持しないと研究そのものができないこともあるわけで、こうした事情が、社会的妥当性アンケートに対する回答にバイアスをかけることは十分予想できます。
 しかしながら、研究でわかったことを実際に使うときには、やはりそうした関係者からの協力の取付が必要になるわけですから、そのこと自体に妥当性がないわけではないと私は考えます。むしろ、その研究がどのような人のどのような協力を得て成立したか、その協力はどのように勝ち得たかを論文に書く方が生産的なのかもしれません。
 なお、「社会的妥当性」の概念は応用行動分析学にのみ適用されるべきものではないと思います。それこそ「教育心理学研究」などに掲載される応用研究でも、こうした概念が適用され、測定、検討がなされるようになるといいと思います。

 作文の例、集団随伴性の例についてのご指摘はその通りで、各々の研究もしくはその追試で検討されるべき課題だと思います。つまり、実証的な問題(実験によって回答すべき問題)ということです。

 「強化がないと行動しない人間にしてしまうことはないのか? 」については、これも論理的には実証的な問題ですが、現実には実験するまでもないことだと思います。
 シングルケースデザインには無関係なコメントですが、行動分析学(というより行動分析学にもとづいた一部の臨床、教育活動)に対する批判としてはよくあるものなので回答しておきます。

 まず、ある人間のすべての行動に、他者からの賞賛や叱責を提示するのは現実的にも、もちろん倫理的にも不可能です。また、生きている限り、行動はありとあらゆる形で強化されます。言い換えれば、研究(や実践)で操作できる随伴性は、生体の行動全体にとってほんの僅かでしかありません。それだけ限られた随伴性の操作が、生体の行動全体に影響を与えることは、まずないと思います(もしあれば、何かしらの報告がなされているでしょうが聞いたことがありません)。さらに、そもそも賞賛や叱責なしに自発される行動が数多くあり、特に生きていくのに最低限必要な行動は賞賛や叱責なしにも自発されるはずです。
 単純な例:水を飲むたびに褒めたり、お金を払い、その後、褒めるのや支払をやめても、水を飲まなくなるわけではない。
 一方で、他者からの賞賛や叱責が人の行動に影響を与えることは、人が社会生活を営む上で、あるいは社会が社会として機能するために、ほぼ必須の条件です。親や教師が褒めることが行動を強化する機能を獲得できないと(発達障がい、知的障がいをもったお子さんにはこういうハンディキャップがありえるわけですが)、どれだけ教えるのがたいへんか、そういう仕事をされたことがある人ならよくわかると思います。
 単純な話:人が人として社会に適応していくためには、賞賛や叱責が行動を増やしたり減らしたりする機能を持つように教えることは、ほぼ欠かせない条件である。
 もちろん、できなかったことをできるように教える段階では賞賛が必要でも、その後は褒められなくてもやれるようにすべきだろうという指摘もあると思います。これはその行動の随伴性によると思います。放っておいたら使い方を学べないスマホでも、使い方を学んだ後は、電話したり、メールしたり、検索したりする行動を強化する内在的随伴性がありますから、賞賛いらずで維持できることでしょう。でも、たとえば歩きながらスマホを使う行動を減らそうとしたら、何かしらの随伴性を付加する必要がでてくる可能性が大きいです(歩きタバコでもいいし、健康のためにジョギングを続けることもでいいし、やりたくもないけどやらなくちゃらならない大学の仕事でもいいです;世の中には何かしらの教育、社会的随伴性なしには、望ましい行動が継続して自発されにくいことがあるのです)。
 現実的な話:人が人として社会に適応していくためには、賞賛にせよ、叱責にせよ、給与にせよ、法律と罰則にせよ、何かしらの随伴性を付加し、維持し続けないと難しい行動もある。

 番外編は7月末の日本行動分析学会創立三十年記念シンポジウムで岡山大学の山田剛史先生から話題提供のあった「シングルケースデザインにおける統計分析」についてです。シンポジウムの後、山田先生に個人的に質問させていただいたことも含めて書いておきます。
 私は統計の専門家ではないので、おそらくはトンチンカンになると思いますが、実は疑問だらけの話なのです。こういうのは、自分以外にも疑問に思う人がいるはずだが、きっと恥ずかしくて口に出せないのだ、だから自分が人柱となって恥をかいてでも質問するのだという思い切りが必要で、清水の舞台から飛び降りる気合いで書いてみます。

 シングルケースデザインのデータは個人の(あるいは同じ集団の)時系列データです。時系列データには系列依存性があることがわかっています。系列依存性があるかどうか、あるいはどのくらいあるかは自己相関を計算すればわかります。t検定やF検定を自己相関のあるデータに適用すると結果が歪みますから、他の方法を使わなくてはなりません。これが、シングルケースデザインの実験から得られたデータに、標準的なt検定や分散分析が使えない理由です。
 そして、この問題を回避するためにいくつかの検定方法が開発されていているのですが、山田先生が行動分析学研究でも紹介されている「ランダマイゼーション検定」は、自己相関の問題もクリアでき、多層ベースライン法など、AB法やABA法以外の実験デザインに適用する方法も開発されているので、検定方法としてはお奨めということでした。

  • 山田剛史(2000) 単一事例実験データへの統計的検定の適用 : ランダマイゼーション検定とC統計 行動分析学研究,14(2), 87-98.
  • 山田剛史(1999)単一事例実験データの分析方法としてのランダマイゼーション検定 行動分析学研究, 13(1), 44-58.

 ただし、標準的なランダマイゼーション検定では、介入を始める前にあらかじめ無作為に選んだ介入開始時期を決めなくてはなりません。これは、データをライブで監視しながら、それに応じて介入開始時期や介入方法を決めるときがある(そしてそれが臨床的に有意義でもある)シングルケースデザインの特性を失うものです。この点について山田先生に質問したところ、介入開始時期を後から決められる、ランダマイゼーション検定の変形もあるそうです。これについてはまた勉強しないとならないなと思いました。

追記:山田先生からさっそくご指導いただきました(ありがとうございます!)。上記の山田(1999)でも紹介されている Ferron & Ware (1994) がそれだそうです(後で読んでみます)。

  • Ferron, J., & Ware, W. (1994). Using randomization tests with responsive single-case designs. Behaviour Research And Therapy, 32(7), 787-791. doi:10.1016/0005-7967(94)90037-X

 さて、素朴な疑問です。

 「時系列データには系列依存性がある」とはいっても、どれくらいあるかは実験によって異なるようです。山田先生が引用されていたShadish & Sullivan  (2011)では、サンプリングした研究における自己相関の平均値を問題にしていて、非常に小さいが無相関ではないとしています。しかし、範囲が -.931〜.780、平均が -.08、標準偏差が.36ですから、特定のデータセットによっては自己相関が0に限りになく近いものもあるはずです。

  • Shadish, W. R., & Sullivan, K. J. (2011). Characteristics of single-case designs used to assess intervention effects in 2008. Behavior Research Methods, 43(4), 971-980. doi:10.3758/s13428-011-0111-y

 こうした研究から「(すべての)時系列データには系列依存性がある(はずだ)」、「(だから)得られたデータセットに自己相関があるかどうかには関わらず、t検定もF検定も避けるべきである」というロジックになるという理解でいいのでしょうか? もしそうなら、実験参加者や標的行動や状況や随伴性など、諸々の影響は無視し、「時系列データ」という枠組みでくくった母集団を想定し、得られたデータセットに自己相関がなかったとしても、それは偶然(サンプリングエラー)であるとみなすということでしょうか。

 なんでこんなことを考えているかというと、たとえば、まずは得られたデータセットに自己相関があるかどうかを確認し、なければt検定や分散分析、ごく小さければ二項検定、大きければランダマイゼーション法などの方法を使うというように、データセットの特性次第で分岐するような作業フローは作れないものなのでしょうか?

 でも、そうすると、たとえば、たかだが4つ、5つのデータポイントから(あるいはJABAの平均である10個前後から)、信頼性をもって自己相関を計算できるのかということにもなると思います。そしてそうなると、そもそもデータポイント数が少ない場合の自己相関は記述統計として意味を持つのか?ということになるかと思います。あるいは、ここでも推測統計をするのでしょうか? だとすると、その場合の母集団は何を想定することになるのでしょうか?

 シングルケースデザインで得られたデータの平均値をベースライン期と介入期とで比較するということは、何らかの母集団を想定していることになるのではないかと思うのですが、果たして何を母集団としているのでしょうか?(ランダマイゼーション検定はベースライン期と介入期のデータのすべての組合わせを母集団にする特殊な方法だと思うので、この話はあてはまらないのかもしれませんが)。
 同じ条件でその行動を記録し続けたときを母集団とするのでしょうか? その実験参加者のその標的行動の観察時間以外の自発を母集団とするのでしょうか? たとえば、算数の時間の課題従事行動を測定しようとして、60分の授業の中盤20分だけ、しかも週に4回ある授業の2回だけを抽出して測定し、かつ、測定方法が60秒間隔のタイムサンプリングだったとすれば、母集団は全算数の授業の全時間で、そこからサンプリングした標本から母集団を推定するというのもわからなくもありません。でも、たとえば、一日に2回ある登下校時の靴の履き替えを標的行動とし、毎日測定したら、それは全数調査になり、母集団の推定は必要ないのではないかと思います。このような検討は必要ないのでしょうか?
 そして、たとえ前者のようなケースであっても、測定対象を介入対象とし、その限定された条件で行動が変わるかどうかを問うなら、測定対象イコール母集団とはならないのでしょうか? (研究の目的に応じ、その他の場面への影響は「般化」として検討するとして)
 その場合、全数調査ですから、平均(を計算したとして)の差がそのまま母集団の差になるわけですから、検定する必要さえないのではないでしょうか?(それが教育的に有意な差かどうかは別の文脈での検討がもちろん必要として)。

 どなたか親切にご教授いただければ幸いです。

 最後に:山田先生も論文を引用されていたHuitema先生ですが、私はWestern Michigan University に留学中、彼の基礎統計の授業を受講したことがあります。とてもわかりやすく教えてくれる先生でした。発音は「ヒューテマ」ではなく「ハイテマ」だったと記憶しています。

吉田先生からの問いかけ:

○多くの人が同じように判断できるようになることは重要(ないし,必ず必要なこと)なのか?
○一律の判断基準などというものを想定すべきか?
○個々の状況を踏まえた職人芸的な面は本来存在すべきものでは?
 *ただし,職人芸的な面の言語化(の努力)は必要

 たとえば、減らそうとしている行動の頻度がベースラインで減りつつあるのに介入を始めてしまうなど、シングルケースデザインの基本原則を理解せずに研究や実践を行っている人も、残念ながら多数います。
 そのような現状を考えると、基本的な「一律の判断基準」をよりわかりやすく言語化し、教え、普及させるという仕組みが必要だと思います。
 その上で、個々のデータの読み取りについては、その研究で扱われている行動の特性や対象としている状況など、様々な変数によって影響される言語行動になるので、「職人芸的な面」も残ると思います。天気図やMRIの画像を読み取る力に個人差があるのと同じで、どれだけ判断基準を明確にしても、機械的に結論をだすのは難しい領域ではないかと思います。

○視覚的判断においてどのように考えたか(思考過程・判断の基準など)について各研究者がていねいに記述する必要があるのでは?
 (そうでないと)
・判断が甘くなってしまいがちでは?
・精緻な判断ができるようにならないのでは?
・(完全な収束というものを追求する必要はないと思うが)判断基準の(ある程度の)収束がなされないのでは?

 まったく同感です。多くの基礎研究では研究計画時点で条件の変更基準を設定します(例:連続した5セッションにおける生起頻度が平均値の上下10%以内に収まったらなど)。残念ながら応用行動分析学の研究でこうした基準を明確にしている研究は少ないです。もちろん、剰余変数を最初からなるべく統制している基礎実験と、フィールドで行う応用実験とでは、やってみないとわからない予測が難しい変数があることは確かで、研究計画時点で事前に設定した条件をそのまま突き通すことが無意味なことさえありますので、せめてベースラインを取りながら(私の研究室ではベースラインのベースラインを取ったりします)、介入の変更基準や中止条件を決めておき、それを論文でもそのように設定した理由と共に報告すべきだと思います。

○そもそも「視覚的判断 vs. 統計的分析の適用」というように択一視する必要があるのか?
・各研究において,両方とも適用しても良いのでは?

 「択一視」という主張はあまりみかけません。統計的検定をするべきだと主張している人もその多くは「併用」を主張していると思います。その根拠となるのは、視覚的判断のみでは主に第一種の過誤を犯す危険があるときがあるからです(第二種の過誤は起こりにくいとされています)。
 そもそも第一種の過誤が起きるようなデータは、行動の水準や傾向が介入によって明確に変わっていない場合ですから、本来なら、介入の条件を変えたり、別の介入を探すべきなのです。そのようなときに統計的検定を使って、たとえ統計的有意差が得られたとしても、それは社会的妥当性が低い結果である可能性が高いことになります。つまり、研究者の行動を強化すべき条件は、問題とされたことが標的行動の制御変数を明らかにしながらどれだけ解決できたかであり、目標は統計的な有意差ではないのだという考えが根本にあり、これが統計的分析を適用することへの本来の反論だと私は考えています。
 実際には、研究者の行動を強化する(あるいは引き出す確立操作として)、できるだけ早く論文を書き、できるだけ早く投稿、掲載するという随伴性もあり、これが十分に長いベースラインをとったり、行動が明確に変わるまで介入を続けるという行動を阻止する傾向にあることは否めません。査読者、編集者側の行動にも、時に同様の随伴性が働きます(こうした問題はどの分野でも似たり寄ったりではないかと思います)。でも、統計的分析を適用することがこの問題の解になるとは思えません。

○検定の適用が可能なようにデザインを考えてはいないか?
・「こうまでして検定を持ち込む必要があるのか」と思えてしまうデザインがある。
・「実験デザインや介入法の臨機応変な変更」という利点であるはずのことを反故にしてはいないか(「手段の目的化」ではないのか)?

 これも統計的検定の重視に反対する理由の一つです。そもそもシングルケースデザインで統計を使った研究は少なく、ご批判されているような「無理矢理な」論文を私は読んだことがありませんが、もしあれば同様の感想を持つと思います。

 同じシンポジウムで話題提供して下さった岡山大学の山田剛史先生にシンポジウム後にお話をお聞きしたところ、ランダマイゼーション検定には、事前に介入開始時点を決めなくてもいい変形版もあるそうですが、そうでないなら「臨機応変な変更」を失うのはもったいないと思うと話されていました。

 統計についてはさらに数々の重要な問題提起をいただきました。私は統計の専門家ではないので、かつ、シングルケースデザインで行う研究について最初から検定を前提にすることには懐疑的なので、以下、提起された問題はご紹介しますが、直接の回答はしないでおきます(それこそ山田先生などにご参加いただき、もっと詳しく、徹底的にこのあたりのことを集中して話し合うセッションなどをやってみれたらいいですね)。

○検定に関する種々の問題(有意水準の恣意性やデータ数によって検定力が大きく左右されることなど)について,どう考えるのか?
・検定をやっても,(現実には)外的妥当性の問題は解決しない。
・検定をやっても,内的妥当性への脅威(種々の攪乱要因の介在可能性)は解決しない。
○種々の検定法や記述統計量をどう使うか(ないし,どう使い分けるか)。
・従属変数(標的行動)の内容や,それに関してどのような状態になることを目指すのかなどによって,適切であろう統計量(効果量の指標)は異なる。
・各研究において,どれか1つのみを選択しなければならないわけではない。基本的には,多面的に記述する方が望ましいと考えられる。
・「平均値差÷標準偏差」という標準化された効果量よりも,単なる平均値差の方が適切な場合もあると考えられる(行動分析学では,通常,具体的な行動を従属変数としているのだから,値そのものの変化に関する意味づけが,ある程度,可能だと考えられる)。
・「臨床的に意味のある効果(差)」ということを意識した考察をしているか?
○効果の規定因分析に関するメタ分析は有用だと考えられるが,この領域では公表バイアスが顕著に生じているのでは?
○統計的分析の基本的な考え方に習熟することは,視覚的判断を精緻なものにすることにつながるのでは?

 応用行動分析学の研究では、上述したように、統計的な有意差よりも、臨床的、教育的、あるいは経済的な有意差の方が重視されます。たとえば、100点満点のテストを考えたときに、元々50点くらいの成績だったお子さんを指導によって60点とれるようになったとして、その差に統計的有意差があったとしても、それでほんとうに教えたことになりますか?という話です。「臨床的に意味のある効果(差)」とか「値そのものの変化に関する意味づけ」は常にしなくてはならないこと、論文でも「考察」で論じられるべきことです。

 このブログでもシリーズで紹介してきたように(下記に列挙します)、現在、心理学や関連分野でシングルケースデザインに統計的分析を使うことに注目が集まっているようです。しかし、ほとんどは、シングルケースデザインで行われた研究成果を集めてメタ分析するための議論です。シングルケースデザインで研究を行うのは、目の前の標的行動を社会的な要請に応じて変える制御変数を見つけるためであり、メタ分析を行うのは、そうした変数が世の中の類似の行動に、全体的にどのくらいの効果をもたらすかを推定するためです。つまり、研究の目的が異なります。目的によって必要な情報が異なるわけで、制御変数を「見つける」ためには効果量の測定は必ずしも必要ではないと私は思います。
 ですから、個人的な見解は、応用行動分析学の研究で統計的分析をする必要は多くの場合はないが(逆に統計的有意差を重視する随伴性は本来すべきことを妨害する危険もあるので反対するが)、後でメタ分析をする人がしやすいようにデータを提供するのはいいことだ、ということになります。学術誌の電子出版も普及してきていますから。たとえばシングルケースデザインのローデータを、論文のPDFと一緒にダウンロードできるようにする環境設定などを進めるべきだと思います。

吉田先生からの問いかけ:

マルチベースラインデザインによる研究とリプリケーションの違いは?
そもそもベースラインがマルチなのか?

 私たちは “Multiple baseline design” を「多層ベースライン法」と訳しています(『行動分析学入門』産業図書)。いつ、なぜ、「マルチプル(Multiple)」が「マルチ」になってしまったのかは不明ですが、バーロー&ハーセンの訳本『一事例の実験デザイン』でも、アルバート&トルートマンの訳本『はじめての応用行動分析』でも確かに「マルチベースラインデザイン」と訳されています。
 私たちが「多層」という和訳を選んだのは、この実験デザインを用いて行った研究では、参加者間や場面間、あるいは行動間のデータを、縦に「多層」的に積み並べた折れ線グラフで表示し、分析するからです。そして、この実験デザインの特徴がまさにそこにあるからです。
 多層ベースライン法では、一つの折れ線グラフについて、ベースライン期と介入期を比較するだけではなく、そのときに、他の、まだ介入を開始していない折れ線グラフのベースラインで変化が起こっていないことを確認します。グラフを縦に多層的に積み並べているのは、横軸の時間軸をあわせ、同時性を確保し、介入を始めた条件では行動が変わっているのに、同時期に介入をしていない他の条件では行動に変化が起こっていないことを視覚的に確認するためです。他の条件で変化が起こらなければ、介入以外の剰余変数の影響を排除できる可能性が高まります。そして、介入が行動変容の主因であった可能性を高めます。
 逆に介入を開始していない他の条件でも行動が変化してしまったら、それは介入以外の剰余変数の関与、もしくは次のご質問にあるように「般化」を示唆することになります。これについては後述します。
 多層ベースライン法は、AB法(ベースライン期と介入期を比較する方法)の反復による再現(「リプリケーション」を私たちは「再現」と訳しています)をしていく方法ではありますが、同時に、複数の条件間で時間軸をあわせることで、上記のような剰余変数の排除を試み、結果として内的妥当性を確保しようとする実験デザインなのです。
 このあたりのロジックは、上記の本よりも、"White Book"という相性で呼ばれる、クーパー・ヘロン・ヒュワードの"Applied Behavior Analysis"の方に詳しく、よりわかりやく解説されています。この本は、応用行動分析学を勉強する人にとっては、必読書の一つだったのですが、ようやく日本語訳が出版されましたのでご紹介しておきます(私はまだ日本語訳は読んでいません)。

吉田先生からの問いかけ:

行動間 or 状況間マルチベースラインデザインによる研究において,最初の介入期に後続の検討対象となる行動や状況において効果が見られないことの意味は?
般化(?)が生じないものだと見なす根拠ないし論拠は?
以上の4つの事柄に関する各研究者の(当該の研究における)考えについて論述する必要はない のか?

 多層ベースライン法を適用するときの前提の一つは、各条件における行動が独立であること(共変化しないこと)、それでも行動のもつ機能はある程度、類似していることです。実験者は実験計画を立てる段階で、標的行動の随伴性を分析したり、先行研究を調べることで、この前提がどれだけ成立しているか「あて」をつけることになります。
 たとえば、発語のない知的障害があるお子さんにカードの交換で要求することを教える新しい方法を開発するとして、訓練場面が学校の給食時間、最初の訓練者が担任の先生、訓練する行動が「お茶」の要求だとします。給食の時間に副担任の先生もいつも同席していて、このお子さんに関わっているようなら、副担任に対するカード要求は訓練しなくても般化によって生じる可能性が大きいです。なので、カードによるお茶の要求訓練の効果を指導者間の多層ベースライン法で確認するのは難しいと判断します。
 そこで、「お茶」で訓練したカードによる要求が「チョコレート」を要求することに般化するかどうかを考えます。これなら機能は十分に類似していますが、先行研究から独立した行動であることが示唆されるので、行動間多層ベースライン法を適用できると判断します。
 判断がつきにくい場合もあります。このお子さんが自宅に帰って、夕食の時間に、お母さんに対して、「お茶」のカード要求ができるかどうか。これはグレーゾーンかもしれません。参加者間の多層ベースライン法を組むための参加者が他にみあたらず、どうしても新しいカード訓練方法の効果をこのお子さんで確認したいとゼミ生に言われたら、私なら暫定的に多層ベースライン法でやってみることを勧めるかもしれません。家庭で般化せず、家庭でのお母さんによる再訓練が必要なら多層ベースライン法が適用可となります。もし家庭でのやりとりにも般化したなら、この事例からは般化の可能性が示唆されたことになり、ただ、その再現はできていませんから、「般化」なのか、その他の剰余変数が効いているのかは判断できません。他のお子さんで再現できるかどうか、さらに研究を重ねることになります。
 多層ベースライン法を適用して開始した実験で、最初の条件で効果的だった介入が他の条件では効果がなかったり、不十分であるとわかることもあります。その場合には、その条件の随伴性を見直して、その条件で行動変容が起こるための追加の条件を導入することが多いです。つまり、多層ベースラインの条件によって、ABだったり、ABCだったりする場合です。
 こうなってくると、単なる再現は失敗しているので、解釈は難しくなります。制御変数を明らかにするという意味では、条件を増やしたり、別の参加者を使って、ABで行動が変容するときと、ABCで行動が変容するときの決定因を探していくことになります。
 ただし、制御変数の特定には失敗していても、介入には成功しているわけで、少なくとも、その参加者のその条件でのその行動を変えたという臨床的価値が残ります。これは仮説検証型の群間比較デザインにはない、シングルケースデザインの長所の一つだと思います。

応用行動分析学 応用行動分析学
ジョン・O・クーパー ティモシー・E・ヘロン ウイリアム・L・ヒューワード 中野 良顯

明石書店  2013-05-30
売り上げランキング : 249385

Amazonで詳しく見る
by G-Tools

(やたらと「私見」と断り書きするところが多くて歯切れが悪いのですが、学会という公的組織についての見解や、行動分析学という学問に関する私の理解について書いていますので、無用な誤解が生じないための配慮とお考え下さい)

吉田先生からの問いかけ:

心理的メカニズム(内的過程)についての論述は絶対不要なのか,(現在も)自明のことだと考えているのか?

 まず「内的過程」が実在するものなのか、それとも架空のものなのか(仮説的構成体なのか)に分かれると思います。
 前者の場合、たとえば「強化」にはどのような神経生理学的なメカニズムが関わっているのかといった問いに興味がある人は多いと思いますし、数多くの学際的な研究がすでに行われている領域です。
 ただ、そうした研究による知見によって行動の制御変数がより詳しくわかるようにならない限りは、本業の研究よりも、そちらの方に傾斜していく研究者は少数派ではないかと思われますし、行動分析学の学術誌においても背景にある仕組みを考察する必要はないと判断されるのではないかと思います。
 これは、メカニズムの研究に意味がないということではなく、単純に、隣接学問の研究であるということです。学際的研究の成果については、行動の制御変数に及ぼすメカニズムの影響を示した研究であれば行動分析学の雑誌に掲載されることもあるでしょう。それ以外の研究はそれぞれ専門の雑誌に掲載されていますし、これからもこうした分業体制に変わりはないのではないかと予想します。
 仮説的構成体については、今も昔も変わらずに、行動の制御変数を探すという仕事には必要ないし、むしろ妨害的に働くと考えるところが行動分析学の特徴の一つです。

吉田先生からの問いかけ:

このことに関して学会は一枚岩なのか?

 調査しているわけではないので断言はできませんが、常識的に考えたら「一枚岩」ではないと思います。
行動分析学会の会員にも、色々な領域で様々な仕事をしている人たちがいます。専門が行動分析学以外の会員さんもおられます。それぞれお考えをお持ちだと思います。
 これは私見ですが、他の心理学会と一番違うところは、やはり、行動の制御変数への興味だと思います。この行動はどうすれば変わるんだ?という問いに答えられる研究に価値を置く人が、基礎でも、応用でも、多い学会だと思います。逆に言えば、それ以外については、かなりバラバラだと思いますし、そのような多様性はむしろ健全だと私は思います。たぶん、三十年前の学会設立時には、当初の会員にも、回りで見ていた人たちも純粋無垢な「スキナリアン」の学会のように写っていたのではないかと思います。しかし、少なくとも、現在、会員の中で、自らをわざわざ「スキナリアンです」と呼ぶ人はむしろ少数派だと思われます(行動分析学を専門にしていますという人はいても)。「スキナリアン」って何ですか?と言う人がいても驚かないくらいかも。

吉田先生からの問いかけ:

「開かれた」というのならば,このことを再考する必要があるのでは?

 心理学界における学術団体は、各学会が学問(理念・哲学・方法論)というより、研究対象やトピックごとに構成されていることがほとんどです。日心でも教心でも基礎心でも、そもそも様々な学問を専門とする人たちで構成された組織なので、わざわざ「開かれた」と言う必要もないのでしょう。これに対して、行動分析学会は学問が構成員の主な共通要素で、その意味でも特異な学会です(ただし、これが特異なのは、もしかしたら心理学界のそれこそ特異な特徴なのかもしれません)。
 日本行動分析学会では年次大会でも他の学問領域や分野から専門家をお呼びして講演していただくことが多いですし、非会員に向けた公開講座も実施してきています。日本行動分析学会第5回論文賞を受賞した丹野・坂上(2011)では学際的研究の推進の必要性が主張されていました。日本行動分析学会の論文賞は会員からの投票によって選考されます。学際的研究の推進については、おそらく一定の指示を受けていると思われます。
 学際的な研究の推進は、他の学問の専門家で、行動分析学やその研究を知った人が「これは面白い!」、自分たちならこう取り組むと進めてくれることが、これまでは多かったのではないかと思います。「強化」の背景にある神経生理学的なメカニズムに関する研究もそうですし、行動経済学の専門の人たちが、実験的行動分析の選択行動の実験を引用するのもそういう流れです。
 行動分析学の専門家自らが学際的研究に取り組むのが消極的に見えるとすれば、それは研究者の総数が少ないためではないかと私は考えています。基礎系の専門家、研究者の数が増えれば、自然と研究対象も広がり、学際的研究をする余裕もでてくるのではないかと思いますが、昨今、どこも基礎系の研究者にとっては厳しい状況ですので、楽観視はしていません。

  • 丹野貴行・坂上貴之(2011)行動分析学における微視-巨視論争の整理 行動分析学研究, 25(2), 109-126.

吉田先生からの問いかけ:

「他の事象との関連性・共通性の高い心理過程を変容させる」という考え方が入り込む余地はないのか?
より上位の概念レベルでの理論構築の必要性はないのか?

 ごめんなさい。これはちょっと具体的なイメージがつかめず、回答できそうにないので、文献や情報の提供だけにさせて下さい。

 たとえば、望月・佐藤(2003)では「性格」を高次オペラントとして分析しています。第三世代の行動療法とされるACT(アクセプタンス&コミットメント・セラピー)は、その理論的基盤の一部をRFT(Relational Frame Theory)においています。RFTは、端的に言えば、関係性の学習を分析する枠組みです。
 前者は行動分析学の既存の概念で「性格」という人の行動傾向を記述、解釈できるかどうか検討しているのに対し、後者は、実験手法はこれまでの行動分析学の研究と変わりはないのですが、提唱者であるHayesらは「post-Skinnerian」をうたっています(それに対する異論反論もあります)。
 これは私見中の私見ですが、行動分析学の楽しさの一つは、一見複雑に見える行動現象が案外単純な変数で制御されていることをみつけることではないかと思います。“ストイック”なのかもしれませんが、既存の基本概念でまずは変数を探索し、どうしてもそれだけでは何がどうなっているかわからないときでさえ、それを説明するためだけに新しい概念を持ち込むのには躊躇する。そういう傾向は強くあると思います。

  • 望月 要・佐藤方哉(2003) 行動分析学における"パーソナリティ"研究 行動分析学研究, 17(1), 42-54.
  • Hayes, S. C., Barnes-Holmes, D., & Roche, B. (2001). Relational frame theory: A post-Skinnerian account of human language and cognition. New York, NY US: Kluwer Academic/Plenum Publishers.

○(その従属変数に対する,その介入は)
「不可逆的な変化をもたらすものか」
「持ち越し効果があるものか」
「効果が現れるまでに時間がかかるものか」
といったことについて,どう考えているのか?

前回のご質問(「フォローアップ」と条件反転による行動変容の有無について)と関連している問いですが、それぞれ回答します。

「不可逆的な変化をもたらすものか」
 行動の変化と維持をもたらした条件が継続する限り、原則的には、その行動は元には戻らないと考えますが、これを「不可逆」と言うかどうかは「不可逆」という言葉の定義次第だと思います。
 新しい行動レパートリーをシェイピングしたあとで、消去したら、次にまたその行動を強化するときには初回よりも短い試行数や時間で訓練可能ですが、こうした学習の累積性のようなものを「不可逆」と定義することもできるかもしれません。

「持ち越し効果があるものか」
 過去の強化歴は現在の行動に影響します(「強化歴」の効果として研究対象とされています)。また、直前の反応率が現在の反応率や行動の変化に影響することもわかっています(「行動慣性」や「変化抵抗」として研究されています)。こうした文脈からすれば「持ち越し」効果はあって、研究されていると言えます。

「効果が現れるまでに時間がかかるものか」
 随伴性が変化してから行動が変化し、安定するまでには時間がかかるときもあれば、かからないときもあります。これは制御変数次第です。たとえば、随伴性を記述した言語行動(ルール)の介在によって行動が変容するときには、ルールが自発されてすぐに行動が変わることもあります。随伴性が変化した後も、これまで自発されていた行動が間欠的に強化される場合には、行動の変容までに時間がかかったり、場合によっては変化しないこともありえます。

 随伴性の変化から行動の変化までに時間がかかることもあることから、シングルケースデザインの研究法の多くでは、介入前後の二点比較(事前事後の比較)ではなく、比較的長期間にわかる多時点での時系列測定をするわけです。
 シングルケースデザインで複数の介入方法の効果比較がしにくいのも、介入の相互作用を無視できないという、こうした事情によるものです。

吉田先生からの問いかけ:

ベースラインに戻したときに従属変数の値が介入前の値(の方向)に戻ることの意味について
・介入の効果を主張するための強い証拠?
・効果の持続性がない(強い効果がない)ことの証拠?
これらは矛盾することではないのか? 各研究では,どうなることを目指している(ないし,想定している)のか?
・介入の除去とフォローアップの違いは?

 最後のご質問に最初に回答します。 「フォローアップ」は学術的な定義がない用語です。なので「フォローアップ」と命名された条件でどのような手続きが用いられていたかについては各論文にあたるしかありません。ご指摘の通り、介入をそのまま続けて、介入の持続効果を評価した研究もあれば、介入を除去し、それでも行動が維持されるかどうかを検討した研究もあります。さらに、たとえば実験終了後、実験者が介入場面から去った後で、教員や保護者が同じ介入をどれだけの精度でどれだけの頻度続けたかはわからない状況で、とりあえず従属変数だけは測定したということもありえます。
 つまり「フォローアップ」と命名された条件で実際にどのような手続きがとられていたのかは、論文中にできるだけ詳細に書くか、あるいは「放置状態で不明」と書くべきであり、もし「フォローアップ」という名称だけ書いてあってそれ以外の情報が見当たらないようであれば、それは論文の不備にあたると思います(著者、査読者、編集委員会・長による査読&編集過程で確認、修正されるべきことだと思います)。

 介入を中止して行動が元に戻る、もしくは戻らないことをどのように解釈するかですが、これは標的行動に関する随伴性の解釈がどうなっているか、そもそもベースラインで標的行動が自発されなかった(あるいは自発されすぎていた)理由をどのように解釈するかによると思います。
 たとえば、大人の手をとってお茶の方に近づける反応(その形態から「クレーン反応」と呼ばれます)で要求していた子どもに、カードの交換でお茶を要求することを分化強化手続きで教えたら、分化強化手続きを継続しなくても、日常の随伴性がカードを見せる行動を強化し、維持することでしょう。その場合は、ベースラインに戻しても行動は反転しない可能性が高いです。つまり、日常生活には標的行動を強化する随伴性があるけれど、その行動レパートリーが未形成もしくは標的行動と両立しない行動が強化されていて自発されないときに、新たな、より望ましい標的行動を形成した(と解釈する)場合です。
 逆に、たとえば、登校してからの着替えに、他の子どもや教員にちょっかいをだしたり、座って自己刺激行動をしたりするなどの逸脱行動が多くて、時間がかかっていた子どもに、着替えが終わったらゲームができるといった随伴性を提供すれば、逸脱行動が減り、着替え時間も短縮できる可能性がありますが、この場合、介入前後で他に随伴性が変わらない限り(例:着替えが早く終わることでゲーム以外に何か楽しいことができるとか)、行動は元に戻る可能性が高いと考えられます。これは、日常生活に標的行動を強化する随伴性がないか微弱で、行動レパートリーはすでに習得されていても自発されない(と解釈する)場合です。
つまり、介入中止によって行動が元に戻るかどうかは、ベースラインと介入の随伴性を記述し、比較することで、予測し、解釈することになります。

 シングルケースデザインは介入の効果を検証する方法ではありますが、同時に、行動の制御変数をみつける方法です。たとえば介入が複数の独立変数からなるパッケージになっている場合などは、どの変数が効いたのかはわからないので、効果検証のみで制御変数の同定までには至らないケースもありえます。
 上記のような随伴性の分析により、介入中止後の予測をして、それがはずれる場合もあります(日常生活で強化・維持されると想定した新しい行動レパートリーが維持されないとか、介入を継続しないと維持できないと想定された標的行動が維持されたときなど)。こういう場合は、行動観察などから事後的に随伴性を再分析し、結果を解釈することも可能で、これは論文でいえば考察で論じるべきことでありますが、こうなると、その実験では制御変数が明らかになっていないことになるので、条件を追加してさらに実験を追加するとか、再試、追試をして不明な制御変数を明らかにする方が生産的であり、価値があると考えるのが、行動分析学では一般的です(推測や解釈より、条件操作による実証が重視されるという意味です)。

 ただし、これがそのまま学術論文の査読基準にあてはめられているわけではありません。「理想」的な、高水準の論文しか受理しないとしたら、掲載論文数が発刊に至るまでに足らないということになるかもしれません(これは国内の、研究者の会員数が少ない、小さな学会では、どこでも抱えている課題ではないかと思います)。
 つまり、機関誌に掲載されている論文がすべて「理想」的な研究論文ではないということです(ちなみに、行動分析学研究ではこれまで「原著」と「短報」という区分けで、この違いを明示してきています)。
 吉田先生がシンポジウムでご指摘下さったように、なぜそのような介入をするのか、どのように介入の結果を解釈するのかを、もう少し丁寧に書くべきとの印象を与える論文があることには私も同意見です。特に、推定される行動随伴性は明確に書き、論じるべきだと考えていますが、これは学会内で一致した見解ではありません。

8月は学会、研究会、研修会、里帰り旅行と、行事が目白押しで、7月末の日本行動分析学会創立三十年記念シンポジウムで関西学院大学の吉田寿夫先生から投げかけられたいくつもの重要な問いかけにブログで答えるという仕事が置き去りになってしまっていました(吉田先生、ごめんなさい)。

とぎれ途切れになりそうですが、一つずつ考え、個人的な見解を書いていこうと思います。形式的には公開返信のようになりますが、吉田先生に宛てて書くわけではありません。吉田先生はもちろんご存知であることも書くことになるからです。吉田先生個人に対する回答ではなく、これを機会に物事を整理し、吉田先生以外の方にも共有させていただくための記事ですので、ご了解下さい。吉田先生は、記念シンポジウムのために行動分析学研究を何号も読んで下さり、下調べをして下さったそうです。残念ながらシンポジウム当日にはせっかくの興味深い論点がほとんどふれられずじまいでした。吉田先生への感謝の気持ちとお詫びの気持ちの両方をこめて書かさせていただきます。

まずは、これから。

吉田先生からの問いかけ:

 そもそも、シングルケースデザインという名称は適切か? ケース数が重要なのではなく、個人内(での操作した独立変数と測定された従属変数の間の)共変動に基づいた検討をしていることがポイントでは?

 名称の妥当性については後述するとして、群間比較デザインに対する参加者内(個体内)比較デザインという意味では、ご指摘の通りだと思います。
 ただし、単なる参加者内比較デザインではありません。他の実験心理学の実験でも、たとえば記憶の実験で刺激の特性による差を参加者内で比較するように、参加者内比較デザインを援用することもありますが、シングルケースデザインでは、一つの独立変数に対して従属変数が《変化する》まで《繰り返し測定》すること、そしてそうすることで両者の因果関係を判定するところに特徴があります。
 通常の実験心理学の実験で群間比較デザインを用い、代表値の比較をする場合には、たとえば参加者内変化量(例:事前事後テストの差)の平均値を群間で比較することになりますが、仮説とは逆の方向や傾向を示す参加者がいても、それはそのままです。個人差が相殺された上での群間の差が問題とされるため、《変化する》まで条件を変えていき制御変数を探すことはしませんし、変化するまでの過程(例:独立変数が投入されて急激に変化したのか、徐々に変化したのかなど)も検討されません(多くの場合、事前事後などの二点測定しかないので)。
 現在「シングルケースデザイン」と呼ばれている方法論を、たとえば「参加者内比較デザイン」と呼んでしまうと、こうした違いが強調されなくなったり、見落とされてしまうと思います。

 “シングル”ケースデザインという名称でありながら、重要なのはケースの数ではないことはご指摘の通りです。“シングルケースデザイン”という名称を“一事例の実験デザイン”と訳してしまうことで、n=1の実験計画法なのだという誤解が生まれてしまったことからすれば、確かに適切な名称ではなかったのかもしれません。
 しかし、こうした誤解は名前を変えるだけでは修正できないようにも思えます。シングルケースデザインを用いて行われた実験の結果は、ほとんどが比較的単純な折れ線グラフによって提示されます。そのことで、この研究法そのものが「単純」であると思われがちなのですが、原理原則は単純だとしても、正しく実行し、正しく解釈するための条件や配慮すべき事項は数多く、習得はそれほど簡単ではありません。したがって、名称というよりも、むしろ内容が正確に理解されるような参考書や教材や指導が重要なのだと思います。

 とりあえず今日はここまでです。続きはまた来週に。

Th_ncser

National Center for Special Education Researchが提供するビデオ講義。全部観たら40時間ぶんくらいあるのではないだろうか。

The purpose of this training institute is to increase the national capacity of education researchers to conduct methodologically rigorous single-case intervention studies.

素晴らしい。せっかくだから日本にいながらおっそわけしてもらいましょうと思いつつ観たけど、音が途切れる。最後まで観る(聞く)のは苦痛だ。スライドとスクリプトはダウンロードできる。音声もダウンロードできるようにしてくれたらiPhoneで聴けるのにね。

字幕つきなので大学生/大学院生には英語のリスニングの練習になるかも(笑)。

Th_scr

このSingle Case Research というサイトでは、前回ご紹介したTau-Uなどを計算するwebアプリが提供されています。

他にも参考になる論文が無料で(いいんだろうか?著作権とか)入手できます。クレームはいってダウンロードできなくなるかもしれないから、興味がある人はお早めに。

 シングルケースデザインの研究を評価する指標について文献調査継続中(以前の記事はこちら)。

 でも、とてもじゃないが、全部読みきれません。文献が掲載されているジャーナルは多岐にわたるし、行動分析学以外の時系列分析(daily diaryやecological momentary assessment: EMAや社会科学的データなど)まで含めて議論されていることもあるし、行動分析学で伝統的に行われてきた目視による評価と直観的には同じ"nonoverlap"な計算法ならまだしも、データに内在する自己相関や傾向などの構造をモデル化する方法は、さすがについていけません。行動分析学家がAMOSを使う日がくるのだろうか...まさかね。

 行動分析学プロパーではない人たちが、ここまでシングルケースデザインに興味を持つのは、もちろん臨床研究での使い勝手の良さということがあり、また、行動分析学以外の雑誌に投稿し、受理されるためには何らかの統計をしないとならないということがあり、さらに、どうやらアメリカではその手の研究にファンドをつけて、膨大なシングルケースデザインのデータをメタ分析できるようにしようという流れがあるのではないかと思う。

 たとえば、National Center for Special Education Research のこの告知(2010年らしい)。統計の専門家たちに、シングルケースデザインのデータをメタ分析する手法を開発するように促している。

 この前後で関連文献の数が急増しているし、色々な雑誌で特集も組まれている(Journal of Applied Sport Psychologyだけ、ちょっとニュアンスが異なるけれども)。

 これまで読んだ論文で、もっともわかりやすく、全体的な流れをつかめたのが以下の3本。最初のはWWC(What Works Clearinghouse)の標準化作業をまとめたもの。

Kratochwill, T. R., Hitchcock, J. H., Horner, R. H., Levin, J. R., Odom, S. L., Rindskopf, D. M., & Shadish, W. R. (2013). Single-case intervention research design standards. Remedial And Special Education, 34(1), 26-38.

Parker, R. I., Vannest, K. J., & Davis, J. L. (2011). Effect size in single-case research: A review of nine nonoverlap techniques. Behavior Modification, 35(4), 303-322.

Smith, J. D. (2012). Single-case experimental designs: A systematic review of published research and current standards. Psychological Methods, 17(4), 510-550.

 効果量の計算法としては、Parkerら(2011)が推奨するTau-Uが優れているように思われる。全データポイントを使い、ベースライン、介入時、両方ともの傾向も考慮される。

Parker, R. I., Vannest, K. J., Davis, J. L., & Sauber, S. B. (2011). Combining nonoverlap and trend for single-case research: Tau-U. Behavior Therapy, 42(2), 284-299.

 それにしても、この件について、JABAには論文が見当たらないし、ABAIの年次大会プログラムで「effect size」を検索してもヒットしないのはどうしてなんだろう? もう何年もABAIに参加していないので、学術雑誌を読んでいるだけではわからない、研究の「流れ」とか「雰囲気」とか、あるいは大人の事情とかがつかめていない(←学会に行くのは、研究仲間に会いにいくのと、こうしたインフォーマルな情報収集が実はメインですよね)。

 月末のABAI@ミネアポリスに参加される方は、ぜひそのあたりの情報を探ってきて、こっそり(?)教えてください。

 シングルケースデザインの研究で効果量を計算する方法を探していたら、こんな資料(Kratochwillら, 2010)を見つけた。

Kratochwill, T. R., Hitchcock, J., Horner, R. H., Levin, J. R., Odom, S. L., Rindskopf, D. M. & Shadish, W. R. (2010). Single-case designs technical documentation. Retrieved from What Works Clearinghouse website: http://ies.ed.gov/ncee/wwc/pdf/wwc_scd.pdf.

 

What Works Clearinghouse(WWC)は米国の教育省の研究機関である Institute of Education Sciences (IES)が設置した、教育に関する科学的なエビデンスを評価し、まとめる組織である。

 教育の様々な分野で、どのような方法論にどのくらいエビデンスがあるのかが、あらかじめ策定された評価基準に基づいて評価され、その結果が公表されている。

 元々は医療サービスの効率化が狙いで、今や教育の領域にも浸透しつつあるこのエビデンス重視の考え方においては、無作為化比較対照試験(randomized controlled trial: RCT)で示された結果が最も強いエビデンスであると評価される。RCTであれば群間比較法なので、効果量の算出方法もすでに標準化されている(APAの新しいPublication Manual で effect sizeの記載が求められるようになったのも、このことと無関係ではあるまい)。

 これに対し、シングルケースデザインを主に用いる行動分析学の研究においては、効果量の算出方法についていくつか提案されてはいるが標準化はされておらず、主要雑誌(たとえば Journal of Applied Behavior Analysis )の投稿の手びきに記載はない。かつ、その前に、効果量を算出するに値する内的妥当性、つまり、実験計画法によって条件が十分に統制されていて独立変数と従属変数の因果関係が特定できているかどうかについても、研究者間の大まかな同意しかないのが現状であり、このため、上述のWWCのような組織においても、シングルケースデザインの積み重ねを評価していない、もしくはできない、あるいは間違って過小評価してしまうという事態が生じている(たとえば、Lovaasらのプログラムの効果が間違って過小に評価されているという批判はこちらから)。

 Kratochwillら(2010)が今どのような段階にあるのかはよくわからないのだが(こうした基準を元にシングルケースデザインの膨大な研究が再評価されているのかどうかわからないということ)、たとえば、必要な反転の数(ABAでは不十分で最低限ABAB)とか、最低限必要な再現の数(たとえば多層ベースラインは3層以上で同じ結果が再現されること)とか、同一フェイズ内のデータポイント数は最低でも5つ以上とか、たとえこうした基準の一つひとつに統計的な根拠がなくとも業界内の目安というかガイドラインとして示すことには意味があると思う。

 そもそもシングルケースデザインによる研究にはRCTでは得られないメリットがあり、特に教育や臨床など、目の前の子どもやクライアントに即した指導や介入が必須となるヒューマンサービスの領域ではそれらがもっと重視されてもいいと考える。そのあたりの議論を深めるのにもよいきっかけかもしれない。

 シングルケースデザインについては日本行動分析学会創立三十年記念シンポジウムのテーマになっており、岡山大学の山田剛史先生による統計に関する話題提供もあるようなので、楽しみにしたい。

法政心理ネット