こんばんは、ゴドーです。
AIによる文章生成モデルであるGPT-3の生成した文章が、人間の考えたそれと区別が難しいという話。
この記事で紹介されている実験では、哲学的な設問に対するGPT-3の生成した回答と人間の哲学者の回答を用意し、どちらがAIでどちらが人間であるか区別してもらったとのこと。
哲学に明るい人や哲学者のことを知っている人ほど識別成功率は高いですが、とはいえ最大でも正解率50%程度と、数字だけ見るとギョッとする結果に。
そもそもの前提として、GPT-3が生成した文章のうち不自然な単語や短すぎる文章は実験前の前処理で削除されているし、1つの正解(人間の回答)に対して4つのAI生成文章を混ぜています。
つまり、ランダムに回答すれば正解率は20%になるということで、たしかに一般参加者のスコアは20%程度でしたが、専門知識がある参加者の成功率は2倍以上ということで、事前にもっている知識を効果が分かりやすく興味深いです。
これだけ聞くと、自動生成された文章と専門家の文章を見分けられず、悪い方向に技術が使われるのではないかと心配になりますが、とはいえまだAIが完全に人間と区別できないレベルではありません。
上述の通り不自然な単語が混ざった生成文章は除かれているし、また哲学者が自身の発言としてもよいくらいクオリティの高い生成文章もあれば、まったくナンセンスな生成文章もあったということで、AIが完全に専門家の発言を模擬することは今なお難しい問題です。
むしろ、ときにはナンセンスだったり不自然だったりする結果も混ざるけれども、それなりに質の高い文章を自動生成してくれるという意味で価値がありますね。
文章を執筆するというのはそれなりに労力と時間を使う作業なので、下書き文章を文章生成モデルで作ってもらって、あとは人間が推敲するという風にすれば、相当な手間の削減になるかもしれません。
研究室時代のボスが言っていたことですが、論文執筆はとにかく手間がかかるので、データだけ渡せばAIが自動執筆してくれるようになればいいと仰っしゃられていました。
確かに学術論文はフォーマットが決まっているし、分野ごとの論理展開もある程度はfixなので、少なくとも純文学小説をAIで執筆するよりは楽に済みそうです。
OutputにおいてもAIのサポートを得られる時代がすぐそこまでやってきているようですね。
それでは、また。
/ゴドー