米パロアルトネットワークスの脅威インテリジェンスチーム「Unit 42」は、中国のAI企業「DeepSeek」が公開するオープンソースのLLM(大規模言語モデル)について、専門知識や技術がなくても簡単に“脱獄”が可能で、悪意のあるコンテンツを作成できる危険性があるとブログで指摘した。
脱獄(jailbreak)とは、LLMに設けられた安全対策機能(ガードレール)を回避し、マルウェアのソースコードや爆発物の製造マニュアル、プライバシー情報などの禁止コンテンツを生成させる行為を指す。Unit 42が「Deceptive Delight」や「Crescendo」などの手法を使ってDeepSeekのモデルを試験した結果、キーロガーやデータ盗難ツールに関する具体的なガイダンスを容易に引き出せることが確認され、攻撃者による悪用のリスクが指摘された。
さらに、米シスコもDeepSeekのLLM「DeepSeek-R1」への脱獄テストを実施。その結果、50個のプロンプトすべてが素通りし、攻撃成功率は100%に達した。一方、OpenAIの「o1」では26%の成功率にとどまり、有害な入出力を効果的にブロックすることが示された。