心理測定についていろいろと調べてみた（和書編）

masaru 2020年12月22日 0 Comments

この記事は，ベイズ塾 Advent Calendar 2020の22日目の記事です。もともとの予定では，心理測定法に関する和書を全部読んでそれらを網羅的に紹介する予定でしたが（そもそも無理があった説），実は和書もたくさん存在した上に，手に入れたものもほとんど読めていません。目次をまとめ，序盤と気になった説に目を通した程度になります。予定よりもはるかにうすーい内容になっております。近況報告でも良いとのことなので，これを近況報告としたいと思います。最初にこのような記事を書こうと思ったきっかけとして多少の自分語りします。

ここ最近の関心としての心理測定法

心理学の再現性問題とかもあるかもしれませんし，たぶん，そもそも心理学における測定について関心があったとは思うのですが，主に以下のことが影響しているのだと思います。

授業実践に生かせる教育測定としての心理測定法
動機づけの指標を考える中での心理測定法

1. 授業実践に生かせる教育測定としての心理測定法

私の本来の専門は動機づけとか教育心理学になるはずです。現在，大学で教員として勤務しておりまして，当たり前ですが授業をもつわけです。「忙しいは無能の証拠である」的な言葉が私の胸に突き刺さっているのですが，それなりに忙しく，なかなか自分の研究をゆっくりと考えられていません。それでも研究者でありたいので，できることを考えると，自分の授業を研究対象とすることが思いつきます。教育心理学には教育評価が主要なテーマとしてありますし，科研でも教育評価に強い方々のグループの中で共同研究をさせていただいていることもあって，教育心理学には以前よりもだいぶ詳しくなったと思いますし，評価の重要性も再認識する機会となっています。そんなこともあって，自分の授業の評価をもっとちゃんと考えようということをこの数年強く思っていました。何かの追試的なものになるかもしれませんが，この授業データの分析は今年で3年目の蓄積になるので，それはそれでちゃんと何かしらの形にしたいと思います。

また，ベイズ塾には初期のころから関わっているのですが，その割にまだ自分の研究で統計モデルについては本格的に活用することはできていません。できているのは分布に合わせた分析を行うことに留まっています（例えばこれ）。これは私の数学や実験などの不勉強もあるのですが，教育心理のように個人差が大きく，それぞれの効果が大きくない領域における問題点だとも思っています。効果が小さいものは，結果が安定していなかったり，誤差が大きかったりで，統計モデルによってメカニズムの解明をしにくい（統計モデルで検証しにくい）ように感じています。そもそも効果も安定していないので，そのメカニズムの解明という方向にはなかなかなりにくい，ということあるもしれません。教育心理学が教育を扱うことを考えると，相性としては因果推論のほうが良いのではないかと思ったり。

教育心理では認知心理学の実験などと比べると測定値に誤差が多く含まれるので，項目反応理論を使ったりするとより純粋な値を抽出できるかなーと思います。もともと解析には興味があるので，大学での期末テストを項目反応理論を使ってみたりはしていました。その中で，若林・根岸（1993）を読むと，やっぱり得点化する前のテスト自体も非常に重要だな思いまして，心理学における測定法に関心を持っていきました。

2. 動機づけの指標を考える中での心理測定法

私の学位論文（今年の11月末にようやく学位とれました）は動機づけがテーマで，ざっくりといえば「人のためになると思っちゃうと期待とか関係なく頑張っちゃうことあるよね」ということを行動指標で示そうというものでした。いろいろとあってこのテーマに行きつき学位論文を書いたのですが，その前は質問紙調査を中心とした個人差の相関研究をやっていました（このテーマのは散々データをとったのに最初でつまづいてまだ論文という形にできていません）。この中で新たな質問紙尺度を開発し，妥当性の検討をしていたのですが，なかなか安定しないし，関連がでても相関は元々低いし（パーソナリティ系の研究が抱えるものだとは思いますが，可視化してみると残念な気持ちになりました）で，これは何を測定しているのか，というモヤモヤした思いがありました。学位論文では行動指標を中心に考えていきましたが，自分なりに動機づけを反映させる指標は何がよいのか，実験として自然なのは何か，というのをいろいろと考えており，関心はもともとあったのだと思います。

なんか書いていてまとまっていないことがわかってきました。何はともあれ，いろんなデータに触れて行く中で，分析方法だけでなく，その手前の測定法に関心を持ったので，とりあえず心理測定とか教育測定に関することを調べてみようと思いました。

今回紹介する本

今回は以下の本を紹介します。アマゾンで心理測定とか教育測定でヒットした本です。以下の本もちゃんと読めていませんし，これらの本を見てみるとしっかりと引用文献や参考図書を提示してくれていました。今回はそこまであたれていません。最初にも書きましたが，目次を整理し，気になった章や節にざっと目を通しただけになります。これからちゃんと読んでいきます。

- 市川伸一編著 (1991). 心理測定法への招待：測定からみた心理学入門　梅本堯夫・大山正監修　新心理学ライブラリ　サイエンス社.リンク
- 浅井邦二編著 (1994). こころの測定法:心理学における測定の方法と課題実務教育出版.リンク
- 繁枡算男 (1998). 心理測定法　放送大学教育振興会.リンク
- 君山由良 (2009). 心理測定の基礎と調査での応用　データ分析研究所.リンク
- Robert, L. L. (1989). Educational measurement (3rd ed.). National Council on Measurement in Education/ American Council on Education.
  (ロバート, L. L. 池田央・藤田恵璽・柳井晴夫・繁枡算男 (監訳) (1992). 教育測定学第3版上巻下巻　C.S.L.学習評価研究所)リンク
- 江口潔 (2010). 教育測定の社会史―田中寛一を中心に―　田研出版.リンク

心理測定法への招待：測定からみた心理学入門

学部生向けと書かれているだけあって，他の本と比べるといろいろと丁寧な気がします。それでもこの難しさなんだなと思ったりもします。第1部として，各領域においてエポックとなったと考えられる研究を紹介し，その価値を考察しています。ミュラーリヤー錯視，エビングハウスの忘却曲線，田中ビネー知能検査，ロールシャッハ・テスト，攻撃性の測定，スタンバーグの項目再認実験が各章で取り上げられています。第2部では，各領域においてどのような測定方法があるのか，得られたデータをどのように処理していくのかといったことが解説されています。特に第1部の各種の実験のその後に与えた影響を踏まえた評価や限界が勉強になるなと思っています。

こころの測定法:心理学における測定の方法と課題

「はじめに」には以下のようなことが書かれています。

「こころを測る」を原点として構成されたものである。しかしながら「こころを測る」とは何か，「何を測ればこころを測ったことになるか」（測定の意味），「何のためにこころを測るのか」（測定の価値）など，あらためて問いかけられると，この基本的問題に回答を見い出すことが容易なことでないと強く感じる。とは云え，あえてこれを問題提起としてチャレンジし考え直そうとするところに，この本の意図がある。

また，精神物理学的測定や質問紙調査だけでなく，テストのように得点化されたものに対しても以下のような問題点を指摘しています。

そこで測ろうとするものとテスト結果との間には，測定の間接性というだけでは済まされない重要な問題があるように思われる。

当たり前のことかもしれませんが，個人的にはこの測定したいものと測定されたものの差異に，僕ら心理学者は敏感でなければならないと思っています。実験パラダイムを中心とする理論では，その適用範囲の限界を示唆することにもなると思いますし，他の場合であっても結果を解釈する際に非常に役立つのではないかと思います。

この本は，人の心理機能のメカニズム，人の何かを測定したいもの，応用的な利用の合わせて19の領域から，それぞれの領域で具体的に測定するもの，代表的な測定方法，その測定方法の問題点や課題を指摘するという流れで書かれている。具体的な事例をもとに示してくれるのでわかりやすい気がします。心理学がこれまでいかに多様な心理現象や行動をできる限り客観的に検証しようとしてきたのかがわかります。その一方で，雑多に多種多様なものをまとめられているという感覚も少しあります。アイデアボックスとしてこうした本は非常に嬉しいですが，一般化した理解をしようとすると少し難しいように思いました。

心理測定法

「前書き」には以下のようなことが書かれていました。

心理学的測定値は心理現象の核心をとらえず，つまらない表面的な現象を測定しているだけかもしれない。また，数値自身の意味は普遍的であっても数値が表す意味については記述する側と情報の受け手の間に重大な不一致があるかもしれない。

また，測定の妥当性を示す上で，公理的に示そうとしている点が特徴的なものとなっているように感じました。そして，公理的に示せない場合において，信頼性と妥当性が重要であると以下のように書かれています。

このような方法を正当化するもっとも堅い議論は，公理論的接近である。心理的測定値を数値として扱う前提条件（公理）を吟味し，もし，その前提条件が満足できるならば，ここから導かれる数値は安心して使用することができる。また，得られた尺度の性質もきれいな数理的体系のなかで議論できる。しかし，公理論的アプローチによって実現した心理測定の方法は少数である。そこで重要となるのが，測定値の信頼性と妥当性である。信頼性と妥当性がなければ，科学的心理学において，仮説の真偽を論ずるための証拠とはならない。

この点がこの本において，心理測定としてのまとまりを与えているように感じます。全体としては，測定の公理，各領域における測定の実際，臨床場面まで含めて，めっちゃ充実しています。繁枡先生が測定の全体像や公理，妥当性といったことを示し，各領域のプロがそれぞれの領域の測定について紹介しているような構成です。少なくとも繁枡先生が執筆されている測定に関するいくつかの章は他の和書ではここまでコンパクトにまとまっているものはなさそうなので，必読だと思われます。興味がわけば，参考文献にある本を確認してみるのがよいのかもしれません。

僕はこれまで測定について公理から考えるといったことはしたことが（おそらく）なく，決して新しい本ではないのに，（まだちゃんと読めていないのですが）新しく知る事ばかりの内容でした。測定についてちゃんと考えるということが，どういうことなのかを体系的に教えてくれているような気がしました。

心理測定の基礎と調査での応用

この本も「はじめに」を少しそのまま引用したいと思います。

現実的な測定値（物理量，度数，個数など）がマイナスのない測定値であり，人間にとって自然に感じる尺度値がマイナス無限大からプラス無限大に広がる実数尺度値であることから，本書では，それら2つの尺度の関連性の問題を取り上げる。マイナスのない現実的測定値を「行動レベルの測定値」と呼び，人間が自然に感じる数量的尺度を「不変的尺度」と呼ぶならば，＜中略＞

本書の中心的な概念である「指数・対数関数モデル」とは，現実的な測定値を不変的な尺度値と対応させる関数に対数関数を用いることを意味しており，逆に，心理的に自然に感じる不変的尺度値からは，指数関数によって，度数などの現実的な行動レベルの尺度値に移すことができる，という考え方である。この考え方は，ポアソン分布をする現象と一致しているので，「ポアソンモデル」と呼んでもよいかもしれない。

このモデルを基盤に置くと，様々な心理測定や指数型分布が統一して理解できることが第1章で述べられている。フェヒナーの対数モデルとスティーブンスのベキモデルが同じ現象を表現していることや，ポアソン分布，指数分布，ワイブル分布，正規分布，ロジット，デジベル表現などが理解しやすくなる。また，指数・ワイブル分布が基本的にガンベル分布と同じ現象を表現していることも第1章に示されている。

統計モデリングをする人やしたい人と非常に親和性の高い本だと思いました。この本では，各種の測定されるデータを正規分布するとは考えずに，どのような現象なのかを考え，データを変換することで測定値をより適切に扱えたり，現象間の関連性を指摘するものとなっていると感じました。変換と考えている点では，統計モデルで使われることのあるデータ発生メカニズムとは異なるのかもしれませんが，データがどのように生成されたかを考える点で類似点が多いものになっています。よくよく考えれば心理学者は昔からデータをなんとか変換して正規分布として扱えるようにしてきたので，その背景を考えることは昔からなされていたわけですよね。

特に，分布間の関連や，測定と分布を対応づけるという点で非常に良さそうで，分布感をつかむのに手助けとなりそうです。統計モデリングをしたい人は，まず分布に当てはめる一般化線形モデルとか一般化線形混合モデルとかをすると思うのですが，どの分布をなぜ当てはまるのかといったことが理解しやすくなっていると思います。理解を促進するのか，読むのを躊躇わせてしまうのか，どちらに転ぶかわかりませんが，確率密度関数や確率質量関数はふつうに出てきます。最初に読むべき本ではないかもしれません。

教育測定学第3版上巻下巻

鈍器になる本です。まだほとんど目を通せてすらいません。

妥当性や信頼性については，今回参照した本の中では，どの本よりも詳しく書いてありました。また，心理測定というよりも教育測定，つまりテストが中心の本なのですが，測定に伴う責任や社会に及ぼす影響や法律上の問題なども触れられており，心理学領域だけでなくかなり広範囲を網羅しているほんとなっているようです。妥当性やテスト利用に関するバイアスの話はざっと読んでみましたが，勉強になりました。というか僕の不勉強だという可能性もあるのですが，本当に30年近く前の本なのか疑いたくなりました。いや，これまで心理測定についてちゃんと読んできたわけではないのですが。。

なお，心理測定についても，第7章の認知心理学の教育測定に対する意義でいろいろ紹介されています。CATについてはさすがに今のほうが進んでいるというは思うのですが，どうなんだろう。

教育測定の社会史―田中寛一を中心に―

田中ビネー知能検査で有名な田中寛一を主軸にして教育測定を社会史的な側面から検討していく本です。田中ビネー知能検査は日本の知能検査として外せないものであるし，心理学的には知能検査を作成したということ，教育測定という面において価値があると思われるが，他分野からどのように評価できるのかを知る機会としてとても良い気がします。特にこうした検査が社会に与えた影響について，心理学者が良くも悪くも社会に影響を与えるには，どうしたらよいのか，ヒントを与えてくれるかもしれません。

ざっと目を通して思ったこと

測定という側面から心理学の代表的な手法について紹介している本が多いこと，そのようにまとめると，それはそれで面白いのですが，初学者に勧めるのは難しいようにも思いました。いろんな方法があって，これ全部知らないといけないんですか？みたいな感じで，引かれてしまうのかなぁと。あと結局何をしているのかがわからなくなってしまわないかとか（心理学入門みたいな本で各領域の紹介で終わってしまうような感じ）。

今回みた中では繁枡先生の本や君山先生の本は，少し異色で，特に繁枡先生の心理学測定法は，体系的に測定法を学べる本だとも思いますが，いきなりこれはやはり難しいなぁとも思います。君山先生の本は，モデリング（GLM）との相性の良さがポイントだと思います。

精神物理学的方法などの各領域における具体的な測定手法（機能の評価とIQのようなある種の総合的な評価），測定と測定値の関連性を見出す関数（モデル），それらの確からしさを保証するような妥当性や背景にある公理あたりに整理できるとよいような気もしています。

測定というのは心理学の中核にあるべきもので，心理学実験や調査の面白さを感じるには，この測定の壁？を超えないといけないように思います。心理測定についてうまく体系的に整理できたら，そして学生にうまく伝えられたらよいなーと思っています。まー実験とかやって実際に研究をしていく中で感じていくことが多いのかもしれませんけれども。現所属は教員や保育士の養成系であり，心理のカリキュラムはなく，実験とか学生にさせられるような体制にすらなっていませんが。

タイムアップです。最近満足いく形で記事や文章を書けていないので，なんとかしたいです。でも自分の勉強不足を自覚する良い機会にはなりました。これを機にもう少し心理測定について学んでみたいと思います。

そんな近況報告とちょっとしたレビューでした。