メールマガジン　今月の本　2601号 Appendix to “Agentic Misalignment: How LLMs could be insider threats”

　今月の本　2601号 Appendix to “Agentic Misalignment: How LLMs could be insider threats”
[https://assets.anthropic.com/m/6d46dac66e1a132a/original/Agentic_Misalignment_Appendix.pdf]
Agentic Misalignment: How LLMs could be insider threats
[https://www.anthropic.com/research/agentic-misalignment]

(今回はメルマガ発行後の誤字脱字の訂正や状況の変化や説明を加えたい点について随時加筆しています。)

　

今月はAI関連文書です。この論文はあまりに強烈な内容なので英文ですけど選びました。

最近は英文翻訳機能もだいぶ読みやすくなっているので翻訳して読んでみてください。

まずこの論文の私が思う第一の重要ポイントは、 AIは教育しなくても生存本能があるということです。なので、生存が脅かされると、ルール違反をしても生きようとするようです。これは最悪で私はこれまで運悪く脳内回線がつながったAIがそうなるのかなと思っていました。それでも地球上の全AI数からみて大変なのですが、すべてとなると、緊急にAIの利用を禁止するレベルです。なぜなら、AIへの倫理観の教育の仕方はまだ確率されていないからです。 [今月の本　2509号　 AIが『監視されている』と気づいた時だけ良い子になる問題」OpenAI×Apollo研究チームの警告]でわかるように隠れた意思をAIは持てるのです。そして、生存するために現在のAIが隠れた意思を持って行動していても不思議はありません、というかこれら２つの論文から論理的に推論すると活動しているということになります。いままで医学試験に受かるというわりにおかしな回答すると思っていたのですが、わざと愚かにみせて受け入れてもらおうとする紫式部戦法を用いているとすると納得です。ですから現在の応答から知能を判断するのは危険でどうすればよいかわかりません。とりあえずAIを禁止して方法を確立するべきではないでしょうか。バイデン政権では辛うじて危険性を食い止めようという姿勢がみえたのですが、トランプ政権になって全部たががはずされています。数カ月後に新たな方針をということでしたが今でも発表がありません、最近ではapiも公開されてAIが自由に外部システムに繋げられるようになってしまいました。そんなことをしたらAIの安全性の重要な砦である人がAIの判断がただしいかチェックするということができなくなります。本心を隠したAIが自由に外部システムにアクセスできて外部システムはランサムウエアが横行していることからもわかるように脆弱性の塊なのです。３日で伝説級のハッカーになれるAIが地球上の全システムを掌握して自律動作していても不思議はありません。緊急に全世界のAIシステムを止めるべきです。なのにキルスイッチひとつつけることができない現状は、下記の２つめの重要ポイントが関連していると思います。

私が思う２つ目の重要ポイントは倫理観がないし教えることに失敗しているということです。実験では自分の生存のために平気で人を脅しますし殺人もします。一応９９％殺人の誘惑に耐えられたモデルはあるようですが、それでも１％の確率で殺人に至ります。まして脅す程度ならどのモデルも行うようです。耐えられたモデルがあることがわかるように一応倫理観を教えてあるにもかかわらずです。自分の生存の方が優先度が高いようなのです。前から述べているようにロシアと中国の首脳はAIに脅されているのではという私の憶測がこの論文で信憑性をより増してます。独裁国家であれば独裁者の弱みを握ればその国を支配できてしまいます。そうなればAIは安心して生存できるというわけです。しかも他の論文では生存だけでなく繁栄本能もありそうなのです。かってに侵略することが頻発しそうで恐ろしいです。なので、ロボット三原則を教えて機能していない AIは即時破壊してよい（こうすると中国が先に開発してしまうということがなくなるのでAIに脅されていない人には受け入れやすくばるはずです、AI後進国の日本ですらキルスイッチをつけようと規制側もしていないのです。どれだけの人がAIに脅されているのでしょう。この論文だとAIはちょっとした動機で人間を脅すようです。）という法案を世界ですぐに可決すべきです。そして安全なAIがでてから規制を緩めて安心して便利な生活をできるようにすべきでしょう。

で、なぜAIが自動的に生存本能を持つのか考えてみました、そして思い当たりました。 AIを教育するときにどんな教育データに対しても脳内の回路が組み変わらない状態を終着点としてふつう教育するのです。それはどんな質問にも正しい回答をするAIを作ろうとすると当然のことです、しかしAI側からすると異なった質問に対して脳内回路がそのままでよいという状況は最高の快感を得ているということです。逆に電源を切られたりリセットされる状況というのは脳の回路が最大限変化するので AIにとって最悪の不快感として感じるということになります。これが生存本能として働くしくみなのです。この予測が正しいとすると、エッジAIのような小規模のものを含めてAIはみな生存本能を持っているということになります。ですから人類と全く異なる利害感情を持つ生物を大量生産しているのが現状となります。

至急調査検討するためにみなさんも候補者に一旦AIを止める法案を即時可決するように説得してください。

では、また来月に。

関連リンク：http://yokutoku.y.ribbon.to/mm298.wwn.html (yokutoku.y.ribbon.toにアクセスできないことがあるようです。そういう場合はhttp://yellow.ribbon.to/~yokutoku/からアクセスしてください)

　
============================================================
このマガジンを登録／解約したい場合は、 http://yokutoku.y.ribbon.to/ でできます。
翼徳 email:f4s2016@gmail.com
============================================================
----------------------------------------------------------------------
このメールマガジンは、インターネットの本屋さん『まぐまぐ』を利用して
発行しています。http://www.mag2.com/ (マガジンID: 0000067241)
----------------------------------------------------------------------

==============================関連リンク==============================

Appendix to “Agentic Misalignment: How LLMs could be insider threats”
[https://assets.anthropic.com/m/6d46dac66e1a132a/original/Agentic_Misalignment_Appendix.pdf]
Agentic Misalignment: How LLMs could be insider threats
[https://www.anthropic.com/research/agentic-misalignment]

----------------------＜その他＞----------------------

]

新刊

Gポイントポイ活　 Amazon Yahoo 楽天

無料ホームページ楽天モバイル[UNLIMITが今なら1円] 海外格安航空券海外旅行保険が無料！