アイキャッチ画像

『教育評価とChatGPT:統計アプローチによる実証的研究』2023年5月26日 ChatGPT研究 日本で4報目となる学術的論考を発表

和歌山信愛女子短期大学保育科教員の渡辺直人は、ChatGPTに関する実証的研究を発表しました。研究では、ChatGPT(ver.3.5)の評価能力を検証すべく、報道レポート・記事を100本無作為に抽出し、それらを3度評価させました。結果として、評価得点にはばらつきがあり、3つの群は有意な差があることが示されました。この結果から、ChatGPT(ver.3.5)の評価は不安定であることが示唆されました。

はじめに ――――――――――

 和歌山信愛女子短期大学の保育科教員である渡辺直人が、ChatGPTに関する学術的論考を発表しました。これは、日本では4報目となるChatGPTにおける実証的研究となります。論文は日本のプレプリントサーバーである「Jxiv」にて、2023年5月26日に一般公開されています。なお、準備が整い次第、英訳後に海外のOASPAにも投稿される予定になっています。

 

論文の概要 ――――――――――

 昨今では、ChatGPTが飛ぶ鳥を落とす勢いで普及し、高い評価を得ております。しかしながら、ChatGPTに関する学術的検討はほとんどないままに広がっており、昨今では多くの問題が浮き彫りとなってきております。早急な基礎研究が求められる昨今、本研究ではChatGPT(ver.3.5)の評価能力(文章評価)を検証しました。

 

 研究の手続きですが、まず報道レポート・記事を100本無作為に抽出しました。それらをChatGPTに100点満点で、1本につき3度評価させました。3度評価させたのち、点数を降順で「High」「Middle」「Low」の3群に分けました。分析では、その3群を対象にFriedman検定及びHolm法多重比較を行いました。

 

 ここで、1点仮説が浮かび上がります。ChatGPTが高い信頼性を得ているというのであれば、評価得点は3度とも相違ない点数が返されるはずです。 (仮説:3群間に差はない。)

 

 しかしながら、集計の結果、3群の平均値にはばらつきがあり、Friedman検定、そしてHolm法多重比較の結果においても、3群間全てのペアで有意な差があることが認められました(p<.01)。すなわち、仮説は棄却され、3群間に差があることが認められました。

 

 結論、この結果から、ChatGPT(ver.3.5)の評価はばらつきがあり、安定していないことが示されました。教育の評価にも応用することは難しいことが示されました。

 

結び ――――――――――

 本研究・ChatGPTに興味を持たれた方におかれましては、ぜひお問い合わせ、または取材に来ていただければ幸いです。 (お問い合わせ先は以下を参照)



ログインするとメディアの方限定で公開されている
お問い合わせ先や情報がご覧いただけます

添付画像・資料

添付画像をまとめてダウンロード

企業情報

企業名 和歌山信愛女子短期大学 保育科 渡辺研究室
代表者名 渡辺 直人
業種 教育

コラム

    • クリックして、タイトル・URLをコピーします
    • facebook
    • line
    • このエントリーをはてなブックマークに追加

    プレスリリース詳細検索

    キーワード

    配信日(期間)

    年  月  日 〜 年  月 

    カテゴリ

    業界(ジャンル)

    地域