#AI安全性

Anthropicが公開「AIの誤用事例レポート」の要点と対策
Anthropicが公開したAI誤用事例の報告書「Detecting and Countering Malicious Uses of Claude: March 2025」について解説。Claude利用の4つの脅威カテゴリと緩和策、システムプロンプトの漏洩対策などを紹介します。

Anthropic×OpenAI共同「安全性評価」結果の要点まとめ
OpenAIとAnthropicが共同で実施したAI安全性評価について解説。指示階層ではClaude4が堅調であり、ジェイルブレイク耐性はo3やo4-miniが優位。幻覚評価ではClaudeが拒否でリスクを抑制する傾向が確認されました。