Xを見ていると、GPT-5.4について「コーディングがかなり強い」「前より仕事が終わる」という声をよく見かけます。 これはかなり本質を突いています。 ただし、もっと正確に言うなら、GPT-5.4の強みは「コードをうまく書くこと」そのものよりも、「設計して、書いて、試して、直して、最後まで進めること」にあります。 OpenAIはGPT-5.4を reasoning・coding・agentic workflows を統合したモデルとして説明しており、GitHub Copilotも「latest agentic coding model」と位置づけています。 引用:https://openai.com/ja-JP/index/introducing-gpt-5-4/ 40分のランチウェビナーを開催します! テーマは「Vibe Coding」です。
GPT-5.4は、「すごく速いコード補完」だけが売りのモデルではありません。 たとえるなら、優秀なタイピストになったというより、仕様を読み、必要なツールを使い、テストを回し、うまくいかなければ修正して、もう一度前に進める“開発アシスタント”に近づいたモデルです。 OpenAIも、GPT-5.3-Codexのコーディング力に、知的作業やコンピュータ操作の強さを足し合わせたことが、長めのタスクで効いてくると説明しています。
理由はシンプルで、「コードがうまい」だけではなく、「開発の流れそのものがうまい」と感じた人が多かったからです。 OpenAI Developersの案内では、GPT-5.4は complex tasks 向けの best-in-class agentic coding をうたい、CodexとAPIでは最大1Mトークンの文脈や native computer-use も打ち出しています。 X上でも、Sergey Karayev氏はRails benchmarkで過去最高だったと投稿し、Hanson Wang氏はTerminal-Benchの難問で印象的な解法を紹介していました。 さらにCursorのLee Robinson氏は、曖昧な問題でも立ち止まりにくく、より積極的に進めると評価しています。 https://x.com/OpenAIDevs/status/2029620984853188738?utm_source=chatgpt.com
ここで大事なのは、GPT-5.4が“あらゆるコーディング指標で完全優勝”というわけではないことです。 公開ベンチマークでは、SWE-Bench ProはGPT-5.4が57.7%でGPT-5.3-Codexの56.8%をわずかに上回っていますが、Terminal-Bench 2.0ではGPT-5.4が75.1%、GPT-5.3-Codexが77.3%です。 つまり、純粋な端末ベースのコーディング勝負では、まだGPT-5.3-Codexが少し上の場面もあります。 それでもGPT-5.4が強く見えるのは、勝負の土俵が「コードを1回で出せるか」ではなく、「開発をどこまで自走できるか」に移っているからです。 GitHub Copilotは、GPT-5.4が現実の開発やエージェント的なソフトウェア作業で高い成功率を見せ、複雑で多段、しかもツール依存のプロセスで論理性と実行力が増したと説明しています。 https://github.blog/changelog/2026-03-05-gpt-5-4-is-generally-available-in-github-copilot/ これが、Xでよく見る「なんか前より仕事が進む」という体感につながっているのだと思います。
OpenAIによると、GPT-5.4は汎用モデルとして初めて native computer-use capabilities を備えています。 要するに、コードを書くだけでなく、PlaywrightのようなライブラリでPCを操作したり、スクリーンショットを見ながらマウスやキーボード操作を考えたりできる、ということです。 しかもOSWorld-Verifiedでは75.0%で、GPT-5.2の47.3%を大きく上回り、人間平均72.4%も超えています。 これは「書いたコードを自分で触って確かめる」方向へ、モデルが一歩進んだことを意味します。 この変化は、開発の現場ではかなり大きいです。 実際、OpenAIはPlaywright Interactiveという実験的なCodexスキルも公開していて、WebアプリやElectronアプリを視覚的にデバッグできるとしています。 コードを書いて、ブラウザで動かして、変な挙動があれば見て直す。 人間の開発者にとっては当たり前のこの流れに、モデルがより自然に入ってきたわけです。
開発で本当に効くのは、「最初の1回の正解」より「何周も回せること」です。 その点でもGPT-5.4はかなり実務向きです。 OpenAIは、Codexの /fast モードでGPT-5.4が最大1.8倍高速のパフォーマンスを実現すると説明しています。 つまり、考える力があるだけでなく、試して直すテンポも上がっている、ということです。 開発中に一番つらいのは、賢いけれど待たされることなので、ここは地味に見えてかなり大きな改善です。
Xでアプリのデモが伸びやすいのは、見た目の良さも理由のひとつです。 OpenAIは、GPT-5.4は複雑なフロントエンド課題で、これまでの自社モデルより「より美しく、より機能的」な結果を出しやすいとしています。 単に動くUIを出すのではなく、見た目もちゃんとしている。 これはSNSではもちろん、実務でも意外と効きます。 最初のたたき台が見栄えするだけで、次の議論がずっと進めやすくなるからです。
GPT-5.4は強いですが、魔法ではありません。 たとえば「1Mトークンあるなら巨大コードベースを丸ごと放り込めば完璧」という話でもありません。 OpenAI自身の長文脈評価では、MRCR v2のスコアが16K–32Kでは97.2%だったのに対し、256K–512Kでは57.5%、512K–1Mでは36.6%まで落ちています。 長い文脈を扱えることと、長い文脈を最後まで安定して使いこなせることは、別の話です。 しかも、この「1Mトークン」はCodexとAPIでの話です。 OpenAIは、ChatGPTのGPT-5.4 ThinkingのコンテキストウィンドウはGPT-5.2 Thinkingから変わらないとも明記しています。 ここはXでかなり誤解されやすいところなので、覚えておくと話が整理しやすいです。
Xで見かける「GPT-5.4はプログラミングがすごい」は、だいたい正しいです。 ただ、もっとしっくりくる言い方をするなら、「GPT-5.4はコード生成AIとしてすごい」というより、「開発エージェントとしてかなり完成度が上がった」が近いと思います。 コードを書く力はもちろん高いですし、SWE-Bench Proでも強い数字を出しています。 そのうえで、仕様の曖昧さに耐え、ツールを使い、画面を見て確かめ、何度も回しながら前に進める。 この“仕事を終わらせる感じ”こそが、Xで熱く語られている本体です。 40分のランチウェビナーを開催します! テーマは「Vibe Coding」です。 https://www.shoeisha.co.jp/book/detail/9784798193427