#GPT

OpenAIとAnthropicが共同で実施したAI安全性評価について解説。指示階層ではClaude4が堅調であり、ジェイルブレイク耐性はo3やo4-miniが優位。幻覚評価ではClaudeが拒否でリスクを抑制する傾向が確認されました。