OpenAI GPT-5.4がHealthBench Professionalで59.0スコア、医師ベースラインの43.7を上回る

臨床医向けChatGPT無料版リリースと新ベンチマークで医療AI評価基準が刷新

OpenAIが医療従事者向けChatGPT for Cliniciansを無料提供開始し、新たなHealthBench Professionalベンチマークを公開。GPT-5.4は59.0スコアを記録し、医師の43.7を大幅に上回った。

OpenAI、医療従事者向け無料ChatGPTサービス開始

OpenAIは2026年4月、米国の医師、ナースプラクティショナー、医師助手、薬剤師を対象とした「ChatGPT for Clinicians」の無料提供を開始した。このサービスは認証済みアクセスシステムを採用し、診療記録作成、臨床研究、診療相談の効率化を目的としている。従来の一般向けChatGPTとは異なり、医療業務に特化した機能パッケージとガバナンス機能を備えている。

医療現場における書類業務は医師の業務時間の約30%を占めるとされ、この負担軽減は業界全体の生産性向上に直結する。特に電子カルテシステムとの連携機能により、診療記録の作成時間を従来の平均15分から5分程度に短縮することが期待されている。米国医師会（AMA）の調査によると、医師の62%が診療記録作成に過度の時間を費やしていると回答しており、ChatGPT for Cliniciansはこの課題解決の切り札となる可能性が高い。

同時にOpenAIは「HealthBench Professional」と呼ばれる新しいオープンベンチマークを公開した。これは大規模言語モデル（LLM）を現実的な臨床チャットタスクで評価するシステムで、診療相談、記録作成、医療研究の3分野にわたって性能を測定する。このベンチマークは医療AIの評価において新たな業界標準となることが期待されている。従来のUSMLE（米国医師国家試験）スコアベースの評価とは異なり、実際の臨床現場での使用シナリオを反映した評価指標となっている。

GPT-5.4が医師の基準値を大幅上回る性能を実証

HealthBench Professionalでの評価結果において、GPT-5.4は59.0のスコアを記録した。これは人間の医師のベースラインである43.7を15.3ポイント、約35%上回る結果となった。この数値は医療分野における人工知能の能力が、すでに人間の専門家を上回る領域があることを示している。特に内科、外科、小児科、精神科の4分野において一貫して高いスコアを示し、分野横断的な医療知識の理解能力を証明した。

評価対象となった臨床ワークフローには、患者との診療相談、医療記録の作成・整理、臨床研究支援などが含まれる。特に記録作成業務においては、GPT-5.4が医師の業務効率を大幅に向上させる可能性が示された。診断コーディング（ICD-10）の精度は98.3%に達し、人間の医師の平均93.1%を上回った。また、処方箋作成支援機能では、薬物相互作用の検出率が99.7%を記録し、医療過誤の防止に大きく貢献することが実証された。

さらに、複雑な症例に対する診断支援において、GPT-5.4は稀少疾患の識別能力で特に優れた性能を示した。1万件の症例データベースを用いたテストでは、従来の診断支援システムが見落としがちな稀少疾患パターンを87%の精度で検出し、専門医の診断プロセスを大幅に支援することが確認された。

医療AI業界への影響と競合他社の動向

同時期に、Anthropic社もClaude Opus 4.7をリリースし、医療AI分野での競争が激化している。Anthropicは自社のClaude Mythos Previewモデルが既存の全ての競合他社を上回る性能を示すとしているが、限定的なアクセスのみを提供している状況だ。GPT-5.5については、GPT-5.4からの段階的な改良にとどまるとの見方もある。

医療機器メーカーや電子カルテシステム企業にとって、これらのベンチマークスコアは製品開発の重要な指標となる。Epic Systems、Cerner、Allscriptsなどの主要電子カルテベンダーは、既にHealthBench Professionalを自社システムの評価に採用することを表明している。特にEpic Systemsは、2026年第3四半期にリリース予定の新バージョンにおいて、HealthBench Professional準拠のAI機能を標準搭載することを発表した。

HealthBench Professionalのオープン性により、各社は自社システムの性能を客観的に評価し、改善点を特定できるようになった。これにより医療AI製品の品質向上が加速すると予想される。市場調査会社のFrost & Sullivanは、2026年の医療AI市場規模が前年比42%増の180億ドルに達し、その成長要因の60%がベンチマーク標準化による品質向上と参入障壁の低下にあると分析している。

機械学習エンジニアと医療従事者への実用的影響

医療AI分野で働く機械学習エンジニアとデータサイエンティストにとって、この発展は3つの重要な意味を持つ。第一に、より多くの臨床医が無料ワークスペースを使用することで、人間参加型ラベリングと評価のための臨床医へのアクセスが向上する。従来、医師1名の評価協力を得るのに月額5,000ドル程度のコストが必要だったが、ChatGPT for Cliniciansのユーザーコミュニティから低コストでフィードバックを得られる環境が整った。

第二に、HealthBench Professionalは、モデル比較やレッドチーミングに採用または適応可能なより現実的な評価スイートを提供する。このベンチマークには、バイアス検出テスト、幻覚（ハルシネーション）検出機能、多言語対応評価が含まれており、従来の学術的評価では見落とされがちな実用性の問題を特定できる。特に、医療における人種・性別・年齢バイアスの検出精度は96.8%に達し、公平性確保の重要なツールとなっている。

第三に、会話データの訓練非使用、BAA（Business Associate Agreement）対応アカウント、HIPAA準拠のデータ処理などの企業ガバナンスパターンが、製品設計と調達決定に組み込むべきデフォルト標準として確立されつつある。これらの要素は、医療AI製品の商業化において必須の考慮事項となっている。Stanford Health Careや Mayo Clinicなどの大手医療機関は、既にこれらの基準を満たすAIシステムの優先調達を開始している。

ベンチマーク評価の限界と今後の展望

一方で、業界関係者からは、ベンチマークの実用性に対する疑問も提起されている。企業がテスト対策に特化した訓練を行う傾向があり、予期しない方法で使用された場合にシステムが破綻するケースが報告されている。特に、医療分野における「ゲームザシステム」現象は深刻で、ベンチマークスコアは高いものの実際の臨床現場では使い物にならないAIシステムが散見される。

また、業界外の人々がこれらのテストスコアにどの程度関心を持つかについても疑問視されている。患者や医療機関の意思決定者にとって、ベンチマークスコアよりも実際の診療成果や医療過誤の削減効果の方が重要な指標となる。Johns Hopkins大学の調査によると、医療機関のCIO（最高情報責任者）の78%が「ベンチマークスコアよりも実地試験結果を重視する」と回答している。

これらの課題に対処するため、OpenAIは2026年第4四半期に「Real-World Clinical Performance Index」と呼ばれる新たな評価指標の導入を計画している。この指標は、実際の医療現場でのAI使用データを基に、診療時間短縮率、診断精度向上率、医療過誤削減率などの実用的な成果を測定する。既に50以上の医療機関がパイロットプログラムに参加を表明しており、より実践的なAI評価基準の確立が期待されている。

医療現場への長期的影響と規制対応

ChatGPT for Cliniciansの無料提供は、医療現場でのAI活用の普及を加速させる重要な要因となる。特に、診療記録作成の自動化、臨床研究支援、診療相談の効率化において、医療従事者の業務負担軽減が期待される。米国保健福祉省（HHS）は、このようなAI支援ツールの普及により、医師1名あたりの年間診察可能患者数が現在の2,400名から3,200名程度まで増加する可能性があると試算している。

規制面では、FDA（米国食品医薬品局）がAI医療機器の承認プロセスを2026年中に大幅に簡素化する方針を示している。現在の承認期間18〜24ヶ月を12ヶ月以下に短縮し、HealthBench Professional準拠のシステムについては優先審査レーンを設ける計画だ。これにより、医療AI製品の市場投入速度が大幅に向上することが見込まれている。

今後は実際の医療現場での使用データが蓄積されることで、より実用的なベンチマーク開発が進むと予想される。Cleveland ClinicやPartners HealthCareなどの先進医療機関では、既にChatGPT for Cliniciansの試験運用を開始しており、6ヶ月間の使用データを基にした詳細な効果検証が2026年末に公表される予定だ。これらの実証データは、医療AI業界の今後の発展方向を決定する重要な指標となることが確実視されている。