KarpathyもSimon Willisonも、複数のターミナルを開いてAIを並列に走らせています。 「自分もtmuxで複数ターミナル立てなきゃ」。 そう焦っていました。 でも本当にそれが最適解なのか。 1つのターミナルから3つのAIを同時に走らせてみたら、想定外のことが起きました。
2026年2月4日、Andrej KarpathyがXで「agentic engineering」を提唱しました。
“Agentic because the new default is that you are not writing the code directly 99% of the time, you are orchestrating agents who do and acting as oversight.” 99%の時間、コードを書かない。エージェントをオーケストレーションし、監視する。これが新しいデフォルトだと。 ただしKarpathy自身の作業環境は「左に複数のClaude会話窓、右にIDE」です。 Django共同創設者のSimon Willisonも「複数のターミナルウィンドウで異なるディレクトリのコーディングエージェントを同時に走らせている」と書いています。 Claude Code開発者のPhilipp Spiess(Anthropic社員)も、worktreeを2つ以上用意して並列実行しています。 トップランナーは全員、複数ターミナル派でした。
Claude Codeには「サブエージェント」という機能があります。 1つのターミナルの中から、別のClaude Codeインスタンスを複数起動できる仕組みです。 構造はこうなります。
ターミナル1つ
└── メインCC(ディレクター)
├── サブAgent A: 調査タスク1
├── サブAgent B: 調査タスク2
└── サブAgent C: 調査タスク3
メインのClaude Codeが「ディレクター」として子エージェントに仕事を振る。各エージェントは独立したコンテキストウィンドウで動き、結果だけを親に返す。人間がやるのは最終レビューだけ。 理屈はわかります。でも本当に動くのか。実際にやってみました。
テーマは「この記事の素材を集める」です。 3つのサブエージェントに、それぞれ違う調査を依頼しました。
3つのエージェントが返してきた情報の中から、記事に使えそうな「事実」を9つピックアップしました。 そしてそれぞれ、別のサブエージェントにファクトチェックを依頼しました。AIの出力をAIに検証させる。ここでも「CCがCCをディレクションする」構造です。 結果はこうでした。 9件中、3件が虚偽。1件が未検証でした。
「最大7並列(公式)」。 もっともらしい数字でした。出典として非公式サイトの名前まで出してきた。公式ドキュメントには一切書いてありません。
「CCだけが持つサブエージェント機構」。 気持ちいいフレーズです。記事の見出しにそのまま使いたくなる。でもCursorもCodexもDevinも同じ機能を持っています。 「887K tokens/minのコスト爆発事例」。 サイトは実在します。でも匿名、スクリーンショットなし、証拠なし。よく見たらコスト管理ツールの販売サイトのプロモーション記事でした。 共通点があります。 どれも「記事に使いたくなるキャッチーな情報」です。 AIは人間が欲しがる情報を作るのが得意です。 「公式で確認された最大数」 「唯一の機能」 「衝撃的なコスト事例」 どれも記事の見出しに使えば読者が食いつく。だからこそ危ない。 検証せずにそのまま記事にしていたら、自分が嘘の拡散者になっていました。
この実験でわかったことがあります。 CCがCCをディレクションする仕組みは、ちゃんと動きます。 1つのターミナルから複数のエージェントを並列に走らせて、結果を集約できる。tmuxもworktreeも要りません。 ただし、出力の信頼性は人間が担保するしかない。 Dask創始者のMatthew Rocklinも似たことを言っています。
「並列はそこまで得しなかった(“Parallelism didn’t buy much”)」。 1つのメインエージェントとサポート用サブエージェントで回す派です。「YOLOスウォーム(大量エージェント放し飼い)には賛成しない」とも。 GitHubのOctoverse調査では、AI導入が進んだ開発者たちが自分の役割を「コードの生産者」ではなく「コードのクリエイティブディレクター(creative directors of code)」と表現し始めています。 ディレクターの仕事は「作ること」ではありません。「作ったものを判断すること」です。
Anthropicの研究者Nicholas Carliniは、16個のClaude Codeを並列に走らせて10万行のCコンパイラを構築しました。 約2万ドルのAPIコストで、GCC torture testのパス率99%です。 でもこの成果は、Carlini自身がアーキテクチャを設計し、各エージェントの作業範囲を区切り、結果を検証したからこそ実現しています。16個のAIが自律的にやったわけではない。 これが「agentic engineering」の本質です。 エージェントの数は問題ではない。重要なのは人間がディレクターとして機能しているかどうか。 今日からできることは3つです。
コード実装ではなく、まず情報収集から。Claude Codeの会話の中でAgent toolを呼ぶだけで、特別な設定は要りません。
数字、引用、「唯一」「初」「公式」などの排他的表現は必ず確認する。もっともらしいほど疑う。
AIの出力をコピペしない。検証済みの事実だけ使い、自分の体験と判断を加える。 Karpathyの言葉を借りれば、“orchestrating agents and acting as oversight”。 ターミナルの数は問題ではありません。 ディレクターとしての自分の目が、すべてを決めます。