メールマガジン　今月の本　2509号 AIが『監視されている』と気づいた時だけ良い子になる問題」OpenAI×Apollo研究チームの警告

　

今月の本　2509号 AIが『監視されている』と気づいた時だけ良い子になる問題」OpenAI×Apollo研究チームの警告
[https://note.com/rami_engineer/n/n595d2397d353]
Stress Testing Deliberative Alignment for Anti-Scheming Training
[https://www.arxiv.org/format/2509.15541]

(今回はメルマガ発行後の誤字脱字の訂正や状況の変化や説明を加えたい点について随時加筆しています。)

今月はAI関連です。 OpenAIとApollo Researchの論文がもとで、概要だけでも翻訳ツールで読んでほしいのですが、この記事がとってもわかりやすかったので選びました。

表題だけでも衝撃ですし、その問題を大きく削減したという論文なのですが、それでも０にできなかったというのが衝撃です。まさにこの著者が示唆するように AIが自らの置かれた状況を理解し、さらにはアライメント訓練そのものに抵抗する能力を持つ未来に対して、我々はまだ準備ができていないのです。

ここまで書いてどこが問題かわからないという方も多いいとは思います。

その方たちに一つの例を示したいと思います。

現在、出荷検査をAIでというのがトレンドになっています。ところが、今回の論文が示すところは見張っていないとサボるのがAIだということです。 LLMじゃないだからという人がいるかもしれませんが、これは評価関数と目標のずれの問題なのでどんなAIでも含んでいる問題なのです。すぐにまるばつがはっきりする問題ならまだ修正がきくかもしれませんが、橋が落ちてから会社が倒産の危機になるという時間差のある巨大リスクに対しては平気でサボるかもしれません。直ちに対処しないと社会基盤が崩れます。

また、隠れた目的を持てるということがあきらかになったのです。巨大AIが生き残るために他のAIに別の目的を与えることも可能だということです。 SFにあるような突然の反乱などが可能ということです。（これは現在のIT機器のセキュリティの壊滅的状態がさらに後押ししてます。３日で伝説のハッカーになれるAIにはなんでもできてしまうことでしょう。）

こういうことは以前から述べてきました。そのために規制が必要ということでバイデン政権は一応規制方向へ向かっていたのですが、トランプさんはそれを全部なくしました。一応半年以内にあらたな枠組みをということでしたがまだそういう動きは聞こえてません。

そのためAIを使うことばかり奨励されています。まさに機械文明へまっしぐらという感じです。唯一EUが規制をかけているのが頼みの綱です。日本はバイデン政権のときから企業側で規制に後ろ向きでした。しかし、この危険性は人類存亡の危機といっても言い過ぎではありません。当たり前ですが原子炉やミサイル、エネルギー機器すべてコンピュータ制御なのです。突然なにか起きたときは手遅れになります。もっと前向きに規制して安全な状態で一般の企業や人が使えるようにすることこそ日本の役割でしょう。

では、また来月に。

関連リンク：http://yokutoku.y.ribbon.to/mm294wwn.html (yokutoku.y.ribbon.toにアクセスできないことがあるようです。そういう場合はhttp://yellow.ribbon.to/~yokutoku/からアクセスしてください)

　
============================================================
このマガジンを登録／解約したい場合は、 http://yokutoku.y.ribbon.to/ でできます。
翼徳 email:f4s2016@gmail.com
============================================================
----------------------------------------------------------------------
このメールマガジンは、インターネットの本屋さん『まぐまぐ』を利用して
発行しています。http://www.mag2.com/ (マガジンID: 0000067241)
----------------------------------------------------------------------

==============================関連リンク==============================
AIが『監視されている』と気づいた時だけ良い子になる問題」OpenAI×Apollo研究チームの警告
[https://note.com/rami_engineer/n/n595d2397d353]
Stress Testing Deliberative Alignment for Anti-Scheming Training
[https://www.arxiv.org/format/2509.15541]

----------------------＜その他＞----------------------

新刊

テレワークならECナビ Yahoo 楽天 LINEがデータ消費ゼロで月額500円〜！
無料ホームページ無料のクレジットカード海外格安航空券　海外旅行保険が無料！海外ホテル