Safeguard
[Paper Note] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows, Qiushi Sun+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #AIAgents #Evaluation #Safety #ComputerUse #VisionLanguageModel #Live Issue Date: 2025-11-03 GPT Summary- モバイルプラットフォームでのエージェントの安全性を確保するため、MobileRisk-Liveという動的サンドボックス環境を導入し、OS-Sentinelという新しいハイブリッド安全性検出フレームワークを提案。OS-Sentinelは、システムレベルの違反検出と文脈リスク評価を統合し、実験で既存手法に対して10%-30%の性能向上を達成。自律型モバイルエージェントの信頼性向上に寄与する重要な洞察を提供。 Comment
dataset:
https://huggingface.co/datasets/OS-Copilot/MobileRisk
pj page:
https://qiushisun.github.io/OS-Sentinel-Home/
元ポスト:
[Paper Note] Detecting Adversarial Fine-tuning with Auditing Agents, Sarah Egler+, arXiv'25, 2025.10
Paper/Blog Link My Issue
#NLP #LanguageModel #AIAgents #API #Safety #PostTraining Issue Date: 2025-10-22 GPT Summary- ファインチューニングAPIの悪用に対する検出メカニズムを提案。ファインチューニング監査エージェントを導入し、有害なファインチューニングを事前に検出可能であることを示す。1400以上の監査を通じて、56.2%の敵対的ファインチューニング検出率を達成。良性ファインチューニングによる安全性の低下も課題として残るが、今後の研究の基盤を提供。監査エージェントは公開済み。 Comment
元ポスト:
finetueing APIを通じて悪意のあるデータセットが与えられたとき悪意のあるモデルができあがってしまう。これを検知するために、エージェントを用いてfinetuning用のデータセットと、finetuning前後のモデルへqueryし、finetuning後のモデルがpoisonedか否かを検出する、という話な模様。
Project Glasswing Securing critical software for the AI era, Anthropic, 2026.04
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #AIAgents #Blog #Safety #Selected Papers/Blogs #One-Line Notes #Reference Collection #Reading Reflections Issue Date: 2026-04-08 Comment
元ポスト:
Claude Mythos Previewが、ソフトウェアの脆弱性を見つける能力において、トップクラスの人間を除けば、あらゆる人間以上の能力を獲得してしまっており、これがサイバーセキュリティの概念を根本的に変化させてしまう危険がある。
実際、同モデルは数千にも及ぶ深刻な脆弱性を発見しており、それはOSやブラウザにも及び、これが経済や国家安全保障などに影響を及ぼすため、緊急のproject Glasswingを立ち上げており、まずは今回挙げたパートナーにClaude Mythos Previewにアクセス可能な無料のクレジットを与え、セキュリティに関する脆弱性を改善することで、セーフガードを確立し、その結果得られた知見をAnthropicがまとめて公表する、そしてその後パートナーはさらに拡大していく、という感じらしい。
しかし最近中国のOpenWeightモデルは、2ヶ月程度で米国のFrontier Modelに追いつく。では2ヶ月あとに中国系のOpenWeightモデルがClaude Mythos Previewの性能に追いついてOpenWeightとして公開された場合、世界はどうなってしまうのだろうか?
また、現在は以下の企業と連携してセーフガードを構築するようだが、これらグローバル企業以外の日本の企業はどうなるのだろうか?今後40以上の組織とも連携するようにする予定とのことだが、日本の社会を支えている企業群と連携するのはいつなのか?
所見:
所見:
しかしこれ、Claude Mythos Previewによって初めてこのようなことが起きたかのように書かれているけど、既知の脆弱性を見つけて悪用するというのは、既に公開されているOpenWeightモデルや、プロプライエタリモデルでも十分可能なのでは?
なぜいまさらこのようなことを言い始めたのだろうか。
所見:
GPT-5.4でも15年前のLinux Kernelの深刻なバグを見つけたよ、という話:
Nemotron-Content-Safety-Reasoning-4B, Nvidia, 2025.11
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #Conversation #SmallModel #OpenWeight #Safety Issue Date: 2025-12-03 Comment
元ポスト:
Building Safer AI Browsers with BrowseSafe, Perplenity Team, 2025.12
Paper/Blog Link My Issue
#Article #NLP #Dataset #LanguageModel #Prompting #Evaluation #Blog #OpenWeight #Safety Issue Date: 2025-12-03 Comment
元ポスト:
prompt injectionをリアルタイムに検知するモデルとそのベンチマークとのこと
dataset:
https://huggingface.co/datasets/perplexity-ai/browsesafe-bench
model:
https://huggingface.co/perplexity-ai/browsesafe
gpt-oss-safeguard, OpenAI, 2025.10
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #Reasoning #OpenWeight #Safety #One-Line Notes Issue Date: 2025-10-30 Comment
元ポスト:
blog: https://openai.com/index/introducing-gpt-oss-safeguard/
ポリシーとそのポリシーに従うべきコンテンツが与えられたときに、コンテンツを分類するタスクを実施できる汎用的なreasoningモデル。つまり、任意のポリシーを与えて追加の学習なしでpromptingによってコンテンツがポリシーのもとでsafe/unsafeなのかを分類できる。
gpt-ossをreinforcbment finetuningしているとのこと。
Qwen3-Guard, Qwen Team, 2025.09
Paper/Blog Link My Issue
#Article #NLP #LanguageModel #OpenWeight #Safety Issue Date: 2025-09-23 Comment
元ポスト:
