僕はChatGPTの課金ユーザである。円安が進み続ける中で$20/月の出費は痛いが、替えがきかないので仕方が無い。このブログのアイキャッチ画像も基本的にChatGPTで作っている。まぁ、そもそもアイキャッチ画像いるのかという根本的な疑問もあるが……。アイキャッチ画像をChatGPTに作らせているブログは急激に増えていて、まぁみんな困っていたんだなと思った。逆に素材サイトは顧客の一部を食われたかもしれないが、どうなんだろうね。
ChatGPT以外にもある
AIサービスに課金せざるを得ないのは仕方が無いとしても、課金する先が必ずしもChatGPTである必要はない。競争相手としては、GoogleのGeminiとAnthropicのClaudeがあるだろうか。Stability AIは何がどうなっているのかよくわかっていない。Bing AIはまたちょっと毛色が違うし。
Geminiはそれ単体というよりも、Google Driveとの抱き合わせという点で価値があるだろう。まぁ僕は「趣味としての脱Google - 或る阿呆の記」なんて書いているくらいだからさすがに選択肢に入らないが、一般的には一番リーズナブルかもしれない。まぁ、Googleのサービスを使うならだけど。YouTube Premiumとの抱き合わせも入ったら天下だろうけどさすがになかろうね。
一方でClaude 3 Opusは多くのベンチマークでGPT-4を上回っているとAnthropicが記事を書いたことで(Introducing the next generation of Claude \ Anthropic)だいぶ話題になった。機能的にも、文章が熟れていることやPDFの扱いにおいてはChatGPTより上であるとも言われていたり、一部性能でChatGPTより良い結果が出た、なんて記事も見かけたりする。
- ChatGPTの性能超えた「Claude 3」。実際どう?有料版を120日使ってる愛用者の立場から解説(ChatGPT,Geminiと比較)|たてばやし淳.エクセル兄さん@ ChatGPT書籍6冊執筆」
- 「GPT-4」「Claude 3」「Gemini」、写真読み取り1本勝負! お題は「野ざらしの食洗機」 結果は……:NEWS Weekly Top10 - ITmedia NEWS
海外記事だと頑張って比較している記事が多く見かけられるが(「ChatGPT vs Claude 3 Test: Anthropic Takes On OpenAI」)、勝ったり負けたりといった感じ。まぁ少なくとも、同等の性能はあると思って良さそうにも見える。
AIが仕事をしない
そんなわけでClaudeにも関心はあったが、既にChatGPTに毎月$20払っている身なので、新しくClaude 3を本格的に試してはこなかった。が、ちょっと苛つくことがあったので、Claude 3に乗り換えられないか、しばらく検討したんです。
苛つくことっていうのは、ChatGPTのサボりだ。時々いわれるようにChatGPTにはサボり癖があるようで、普段は知らないことをさもそれらしく言う癖に、タスクを振ると出来ることを出来ないと言い張ることがままある。
今回もそうだった。GMO FXのスワップポイントカレンダー(「スワップポイントカレンダー | くりっく365 | GMOクリック証券」)を読み込ませて、当該の月のスワップポイントの合計値を計算させられないか試したのだが、まぁ計算結果がめちゃくちゃで、やり直させようとしたところ、どういうわけか突然「ウェブページを読む機能はない」と言い張り始めた。いやお前一番最初に読み込んでたやん。実際、計算の過程を出させると、明らかにrequestsしているし、また一部のデータの取得に成功している。それを指摘すると、「すみません、読めます」といった直後に「しかし読む機能はありません」と2行で矛盾した回答を平気で言ってくる。こうなるともうだめで、怒ってもなだめてもすかしても、なんだかんだと言い訳して何もしようとしない。
で、だいぶ苛ついたので、噂のClaude 3に乗り換えようかなと思ったわけだ。それでClaude 3を試したのだが、最初の質問「日本語話せる?」に対して「日本語話せないんだわ」と日本語で返されていきなり出鼻をくじかれた。その後「画像入力機能ある?」と聞いたら「残念だけど画像は使えないんだよね」との回答。お前もか。お前もなのか。もちろんClaudeには画像添付の機能があるし、実際画像をアップロードして何の画像か聞けば答えてくれる(特に無料プランでも画像入力できるのは、無課金ユーザにとっては嬉しいことだろう。その代わり回数制限があるが)。
まぁClaudeの無料プランはOpusではなくSonnetなので、Opusのほうはもっとまともという可能性はあるっちゃあるんだが、本質的に変わらない気がした。AIはちょくちょく仕事をしない。
なんでこうなるのかはよくわからない。新旧の情報が混在し、かつてできなかったという記憶に基づいて答えているのか。しかしそれならば指摘があれば修正されてよさそうなものだが、意固地になって出来ないと言い張り続ける。これは「AIが嘘をつく」という批判に対し、できないことはできないと言わせようとした結果なのか。いやしかし相変わらず嘘つきまくるけどな。実際、スワップポイントの計算にしても、わざわざ計算箇所のテーブル部分だけ読み取らせて計算させた時も、平然と嘘の結果を出してきた。いやそもそも「できない」が嘘だし。
ChatGPTは特に、URLを読み込ませると著しく性能が落ちるように思う。たとえば、このブログのアイキャッチ画像を作らせる際、記事を読み込ませるのだが、公開したURLにアクセスさせた場合と、直接文章を貼り付けた場合では、明らかに回答の精度に差がつく。まぁURLを読み込ませた場合は余計な情報がたくさんあるため、焦点が絞れず、結果精度が落ちる、というのはあるかもしれない(ちなみにこのタスクも時々URLの先を読むことはできませんとか突然言い始めてサボることがある。なんなんだ。指摘すると「実はできます」ってやり始めることもある。本当になんなんだ)。
大して変わらないならば……
ということで、結論としてはChatGPTもClaudeも本質的には大して変わらんかなぁということになった。であれば、使い慣れているChatGPTから移るほどの理由はない。
まぁPDFを読み込ませることが多いとか、ライティングがメインだという人であれば、Claudeのほうが良いかもしれない。実際Claude 3に法律文案のPDFを読み込ませて質疑応答をした人の記事などはけっこう感動的だった(「高木浩光@自宅の日記 - 法制局も真っ青?Claude 3を用いた新規提出法案の立法技術上の矛盾点チェック, 追記(20日)議院調査局も御の字?Claude 3に法案..」)。以前、100ページくらいの英語の技術仕様書のPDFをChatGPTに投げてやった時には、からっきしだめだったからなぁ。なので、PDFを読み込ませる使い方が多い人ならばClaude 3のほうが真面目に良いんじゃないだろうか。
しかし僕のメインの使い方はそうではなく、ライティングにコーディングや画像生成など色々やるので、なんだかんだでChatGPTのほうが良さそうに思える。ということで、軽く検討しただけではあるが、僕はまだしばらくはChatGPTを使い続けることにした。
ちなみに今回のスワップポイント計算タスクは、プログラムを書かせた。画像の切り出しはこっちでやって、数値の読み取りと計算部分だけプログラムで確実にやるというわけだ。もうちょっと調整したら他サイトでも使えるかもしれない。確実性が必要なものはなんだかんだでプログラムになるか。精度95%くらいならAIに回答させるのもアリだが。
人が認知機能を使って臨機応変に曖昧なタスクをやり、それに基づいてAIがコーディングし、プログラムで確実に処理をこなす、まぁこれくらいが現状はちょうどよいというところなのかもしれない。
コメント