AIが人間に近づいたという言葉を耳にするたびに、どこかで違和感を覚える。確かにAIは整理する。要約する。分類する。だがそれらは、すべて「ルーチン化された認知処理」に過ぎない。つまり、すでに人間が考え抜いてワークフロー化した手続きを、AIがなぞっているだけだ。
AIは優秀な助手であって、裁判官ではない。整理と補完と抽出――この三つの能力がすべての根幹にある。どれも精密だが、どれも判断ではない。そこに価値基準も、責任もない。AIは結論を出すが、その結論の「意味」については一切理解していない。
それでも、AIに「評価」をさせようという流れは強い。生成物の品質、論文の妥当性、意見の説得力。いずれも人間の手では処理しきれないほど膨大な情報量を前にして、AIの審判を求める動きが生まれた。いわゆる“LLM-as-a-judge”という試みだ。
しかし、AIに評価を任せるというのは、平均に帰着する思考を神格化することに等しい。AIは「過去の傾向」を学び、「よく見られる判断」を再現する。そこに独創も、批評もない。多数派の意見が真実であるかのように扱われる危険な錯覚が生まれる。
研究論文を査読するAIを想像してみる。おそらくは形式の整った文体を高く評価し、既存理論との整合性を重視するだろう。だがそれは「安全」ではあっても「創造的」ではない。革命的な論文ほど、最初は違和感を伴う。AIの評価軸は、その違和感を切り捨ててしまう。
AIが間違える理由は単純だ。思考をしていないからだ。訓練データの確率分布から「最もありそうな答え」を選んでいるだけであり、そこに意志も直観も存在しない。つまり、AIの「評価」は、世界の複雑さを単純化し、平均化し、再生産しているだけである。
もちろん、AIの評価がまったく役に立たないわけではない。人間でもほぼ自動化できるようなタスク――たとえば固有名詞のタグ付け、フォーマットの整合性チェック、論理的一貫性の確認など――では有用だ。こうした領域では、AIは疲れず、偏らず、忠実に手続きを反復できる。
だがそれ以上のことを任せようとした瞬間、AIはバグを起こす。提示された条件を過度に重視し、入力のわずかな表現の違いで判断を変え、責任のない結論を堂々と返す。そこには「考える」という行為の欠片もない。
結局、AIにできることとは、人間が既に形式化してしまった思考の再演である。AIは人間の思考の末端に位置し、上位の判断――つまり、何を正とするか、どこに価値を置くか――といった問いには関与できない。
AIの進化を見て、人間の思考の終焉を語る人もいる。だが実際には逆だ。AIの限界は、人間の思考の輪郭をより鮮明に浮かび上がらせている。AIが得意なのは「すでに決まっていることを繰り返す」ことだ。だからこそ、「何を決めるか」を考えるのは、いつまでも人間の仕事である。