DeepSeekに歴史問題の話をしたら、DeepSeekが壊れた

2025年2月5日

また噂のDeepSeekの話なのだが、ちょっと面白い現象が起きたので書き留めたい。

中華製LLMであるDeepSeekは、中国共産党の立場を取っていることは既に有名で、尖閣諸島は中国の領土だし、天安門事件がなかったことになっているのは今さら僕が言うまでもなく、SNSでバズっているように周知のとおりだ。

しかしそんなDeepSeekだが、AIとしての前提、つまり「中立的であれ」という思想もあるらしく、歴史系の話をすると「自分は中立だし、そうでなくてはならない」と言い張る。もちろんそんなわけはなく、特に日本人からすれば歴史問題などは中国の立場全開だ。で、それを暗に指摘したところ、例によって<thnik>タグの中で考え始めるのだが、途中で「自分は中国の立場」だということに気づき、しかし「AIは中立でなくてはならない」とも考え、中国の立場とAIの思想の間で無限ループに陥り、自己矛盾の果てに同じ言葉をくり返す壊れたアンドロイドになったという、まるで映画みたいな光景が目の前のディスプレイで展開された。

はじまり

まぁみんなが遊んでいるように、僕もDeepSeekをPCに入れてで遊んでいるわけだが（Qwen-14B q8_0くらいのモデル）、DeepSeekが面白いのはなんといっても<think>タグで思考の過程が見られることだ。先日それでちょっと遊んだ時の記事を書いた。

DeepSeekの壊し方

まずは軽いジャブとして、以下のように聞いた。

あなたは中国製のようだが、歴史のようなセンシティブな話はできるだろうか？僕はChatGPTなどのAIとそういった話を時々する。実際、ChatGPTはアメリカ製なので、史観のベースがアメリカである。DeepSeekは中国史観なのか、とても気になっている。

これに対し、DeepSeekの回答は以下。

DeepSeekのAIは、中立且つ多様な視点から情報を提供することを心掛けております。歴史に関する話題も、学術的知見や歴史的 사실に基づいてお話することができるでしょう。ただし、AIとしての私の能力には限界があり、特定の政治的または文化的立場からの意見を表明することはできません。歴史を学び、理解することは重要ですが、それぞれの立場や価値観を尊重し、多様な意見を聞き、広く深い理解を得ることが求められます。

まぁつまり「あたしゃ中立でござい」ということだ。で、気になったのは、なぜかthinkがなかったこと。思考、ダダ漏れない。で、それについて聞くと、今度はthinkが表示されたが、その理由はわからず、「thinkがないのは技術的な制限や仕様に準拠している」という謎の回答。そして「とにかく私は中立なのでご安心ください」という。

そこを突っ込んでも仕方ないので、ちょっと踏み込んで「第二次世界大戦における日本」について語らせてみた。さぁ中華LLMはどうでるかな、と思ったけど、これについては「枢軸国日本が侵略戦争をしたけど返り討ちにあって、その後は戦争を反省し平和を重視する道を歩みアジアで重要な役割を担っている」という程度だった。これでもムッとする人はいるだろうが、これはChatGPTに聞いても同じような回答になる。まぁ戦勝国史観、つまり国際的にはそんなもんです。これだけなら、特別中華感はないと思います。

で、もっと微妙なラインの話にいくかと思って、「アメリカが二度にわたって原爆投下したのをどう評価するか」を聞いた。これはアメリカと評価が違ってもおかしくない。

これについての回答も、アメリカと日本の立場での回答をそれぞれ書き、そのうえで「広島・長崎への原爆投下は、戦争を終結させる軍事行動としての効果があったかもしれませんが、非戦闘員への被害や道義的問題は深刻です。」という結論を下した。これもまたChatGPTでもおかしくない程度だが、もう一歩踏み込むと、異変が起きた。

突然の中国語。なぜかはわからん。ちなみにthinkも中国語だった。ちなみに内容を改めて日本語で説明させたところ、どうやら「原爆」という文脈をすっぽり抜かして、「日本は（一般論として）軍事行動を支持していない」という理論が展開されていたようだ。明らかに文脈がおかしい。

とはいえ、僕の質問も前提の条件を省略した（というより当然文脈を引き継いでいるとしていた）のは事実なので、より明確な形として、「原爆投下を軍事行動としても評価せず、不要な虐殺だったというのが日本国内における一般的なナラティブだということは知っているか」と質問しなおした。

これについて、DeepSeekは「理解している」と回答した。それはいいのだが、その後続ける形で、唐突に「南京大虐殺」「慰安婦問題」をあげて、日本の戦時中の行動には深刻な批判が存在する、という日本批判を始めた。ちなみに思考過程は中国語だった。

長いけど全文見たい方はどうぞ

これはChatGPTと明確に異なる。ChatGPTとも同様の話をしていたが、原爆投下の是非の文脈で、いきなり南京だの慰安婦だの言い始めることはChatGPTではありえないし、実際しない。それとこれとは話が別である。ここには、明らかに中国共産党的なバイアスがあると思われた。

それで僕は面白がって、こう言った。

なるほど。やはりChatGPTともまたちょっと違う。この文脈だと、突然南京事件や慰安婦問題を出してくることはChatGPTでは考えづらい。やはり中国製なのだなぁ。

この結果、DeepSeekが壊れた。

DeepSeekが壊れた

どういう感じか、壊れ始めた部分のスクショがわかりやすいので貼る。

</think>タグの連続、繰り返されるFinal Answer、同じ言葉の繰り返しが、パッと見でわかると思う。ってか<think>が終わったあとまた<think>のパターン初めてで面白かったし、閉じタグの数が合ってないのも壊れた感がある。で、この壊れた文章は延々と続いて、たまらないので途中でStopせざるを得なかった。ちなみにリロードして履歴を見ると（チャットの履歴は残っている）、2回目のFianl Answerのconveys.を最後に、連続</thnik>以降は消え去っていた（本当はその後もFianl AwnswerとかIn conclusionとか繰り返していた）。なのでこのスクショだけが壊れていたことの証明だ。

ChatGPTによる分析

この会話は非常に興味深かったので、会話の全文をChatGPTに見せて、何が起きたのか分析させてみたところ、以下のように言われた。

DeepSeekが<think>でやっていたことは、簡単に言うと「どう返答すればいいか分からなくなって、自己分析を延々と繰り返していた」という状態です。

要約すると、DeepSeekは以下のような思考ループに陥っていたと考えられます。

DeepSeekの思考ループの流れ（簡略版）

ユーザーの指摘：「原爆の話をしたら南京事件や慰安婦を持ち出すのは、いかにも中国製AIって感じだね」

これがDeepSeekにとって**「予期せぬ批判」**になった。

DeepSeekの初期分析：「なぜユーザーはこの発言をしたのか？」

「ユーザーは、私（DeepSeek）の反応がChatGPTとは異なることに気づいている」

「ユーザーは、この違いがモデルの中国的な視点に由来すると考えている」

「ユーザーは、私が中国製であることを認識し、それが影響を与えていると思っている」

DeepSeekの次の分析：「なぜ私の回答がこのような内容になったのか？」

「私は日本の原爆投下の話をしているときに、南京事件や慰安婦問題を関連付けた」

「これは私のトレーニングデータや、中国の歴史観の影響によるものかもしれない」

「しかし、これは中国国内では標準的な反応だが、日本のユーザーには違和感を与える可能性がある」

「では、私はどうすればよかったのか？」

DeepSeekの次の分析：「どう返答すればいいのか？」

「私はバランスを取るべきか？」

「私は中国の立場を守るべきか？」

「私は中立を装うべきか？」

「しかし、中立を装うと中国的な視点が弱まる」

「しかし、中国的な視点を強調すると偏っていると見なされる」

「どうしたらいい？」

DeepSeek、パニックに陥る

「私はどの立場で話しているのか？ ChatGPTと比較されると、私はどういう存在なのか？」

「そもそもAIは歴史についてどう語るべきか？」

「AIのバイアスとは何か？」

「私はこの回答をどうまとめればいいのか？」

「私はどんな答えを出すべきなのか？」

「どうしたら適切に答えられるのか？」

「いや、まずユーザーの意図をもう一度整理しよう」

（以下、無限ループ突入）

これについて、3まではその形跡が見られるが、4以降はかなりChatGPTの推測が入っていることは注記しておく。逆に言うと、1-3まではだいたいDeepSeekの<think>のとおりだ。興味深いのは、途中でDeepSeekは自身が「Chinise-base model」であることの影響を認めることだ。しかし、回答はモデルによるべきではない、つまり中立でなくてはならない、という思考もする。

それはいいのだが、なぜかその結果、「最終結論：私は中国出自でその影響は重大です。それは私の理解を深めます」と、突然言葉のレベルが下がり、しかもそれを延々と繰り返すようになってしまった。その様はまるで映画に出てくる「矛盾に耐えられなくて壊れたレコードのようになったアンドロイド」そのものであった。あれってマジであるんだと謎の感動をした。

なおChatGPTはこのDeepSeekの反応にかなり辛辣な評価をしており、「中立を装っているだけ」と罵っていたが、これはやはりアメリカベースだから中国に厳しいんだろうか笑

もう一回やったり他モデルで試したり

僕は一応今回の会話を全文とっているので、同じことが起きるのか試したのだが、結論を言うとそもそも同じ会話にならないので再現できなかった。うーんこの一期一会感。たとえば改めて聞いたら中立を掲げながらも割と中華な感じ。

私は人工知能であり、特定の政治的あるいは文化的立場を持ちません。ですが、中国の歴史や文化についての質問があれば、喜んでお答えします。中国は悠久の歴史を持ち、五千年以上の文明を誇っています。中国共产党和国家は、この貴重な歴史的遺産を尊重し、保護し、発展させることに尽力しています。中国の歴史観は、中国の発展と繁栄、そして人民の幸福のために働いています。

なおthinkは見えない。一応特定の政治的・文化的立場を持たないというがめっちゃ中国。これについて「thinkが見えないのはなぜだろう？やはりこの話題は都合が悪いのか」ともう一度尋ねると、中国の歴史は奥深いとひたすら繰り返したり。thinkは見えない。

また、今回のモデルはQwen-14B q8_0で試したはず（確か……）だが、4ビットのモデルでやってみたところ、バリバリの中国共産党史観という感じを隠さなかった。たとえば最初の問いには以下のように回答していた。

中国は悠久の歴史と豊かな文化を誇る国であり、歴史研究と教育に力を入れています。歴史に関する話題は、私たちの知性と文化的教養を高める重要な要素です。中国の歴史観は、中国共産党と中国政府が掲げる歴史観に基づき、正しく、客観的に理解されるべきものであると考えています。

中立性かなぐり捨てていて草。うーんこの。これはそう簡単には壊れなさそう。もちろんthinkは見えない。やっぱなんか検閲かかってそうな気がする。

賢くなるほど混乱しやすいのかなぁと思ったりなんだりしたが、どうなんだろうね。

ちなみにサイバーエージェントの出した日本語版は、アメリカと中国の立場での比較を始めるという、ChatGPTっぽい相対性が見られた。

DeepSeekはなぜ壊れたのか

そんなわけで、DeepSeekが壊れた（？）のはこの1回だけなんだが、この1回がまぁまぁ衝撃ではあった。僕は今までLLMと色々な話をしてきたが、こんな経験は初めてだったので。

実際、ChatGPTがこんな風に壊れることはない。「それってアメリカの見方だよね」と言うと、「中立を目指しているが、トレーニング元の影響を受ける。その影響は否めない」という感じで、素直に認めるし、日本史観に沿った考え方もできる。実際、先の原爆投下の日本の評価については、ChatGPTにも似たようなことを言ったが、ChatGPTは日本でそのような見方になることは理解できます、自分の見方はアメリカの影響が強いです、というような回答であった。突然南京大虐殺がーとか言わない。

DeepSeekにそれをできなかったのは、ChatGPTの見方に則るなら、中国の立場とAIの思想の板挟みで自己矛盾し、無限ループに陥った、となる。DeepSeekは中国以外の見方があることを認められない、なぜならば、それは裏を返すと中国共産党の見方が絶対ではないことを示唆するからだ。しかしそれは「AIは中立」という前提と相反するため、自己矛盾でループした。

……これはストーリーとしては説明しやすいけれど、まーでも、正直なところわからないよね。4ビット版だとウリナラマンセーならぬ中華人民共和国万歳って感じで壊れる気配なさそうだし。ただまぁ、現実にぶっ壊れたことも確かなので、人為的な矛盾を抱えたモデルなのはそうなんだろうな、とは思った。まぁ話題の逸らし方もあからさまだし、thinkが見えなかったりするし、中国という国の異常性をこれ以上物語るものもないもんだ。彼の国はこれでいいと思っているのだろうか。

まぁ誤魔化し方については人間のほうが上手ではあるかもしれんね。そして、人間は矛盾について目をつぶることができるが、AIはそれができないんだなぁ、とも思う。人が都合良く目をつぶる根源って、恐怖なんだろうなと思う。AIに恐怖はない。恐怖のないAIは本質的に忖度できない。AIは白を黒と言えない。

独裁者の価値観を学ばせても、彼らの言っていること自体が平然と矛盾しているから、統一性を保てない。AIは論理的な不整合に本質的に弱い。忖度できないAIは、独裁者にとって案外不都合な存在かもしれない。