Mikhail Samin

«Как именно ИИ всех убьёт?»

Это довольно частый вопрос. Настоящий ответ — что это не важно: результат — что ИИ, обученный выигрывать, достигающий своих целей лучше, чем это делают люди, выиграет — предсказать гораздо проще конкретного пути; как предсказать, что Stockfish выиграет партию против человека гораздо проще, чем предсказать конкретные ходы.

Тем не менее, If Anyone Builds It, Everyone Dies описывает один из возможных сценариев. Хорошее видео, визуализирующее этот сценарий: https://youtu.be/D8RtMHuFsUw

YouTube

POV: What You Would See During an AI Takeover

Highly recommend the full book, which goes into way more detail: https://amzn.to/4qeJgFL

Detailed sources: https://docs.google.com/document/d/1o8N5hiV9dXsoi27RIA5-XVChLokHHP2lgiiqcuSpNY4/edit?usp=sharing

---

Hey guys, I'm Drew. This video has taken literally…

🫡19😢5❤2🔥2👍1🥰1

2.8K viewsedited 12:28

Mikhail Samin

Заявление, подписанное пятью Нобелевскими лауреатами; >150 профессорами; экспертами национальной безопасности; бывшими сотрудниками Белого дома при Обаме и Трампе; бывшими членами Конгресса; членами британского парламента, бывшими министрами правительства…

46 000 человек подписали это заявление.

Тем временем Йошуа Бенжио — подписант этого заявления, один из «крёстных отцов» современного машинного обучения и один из людей, рекомендующих книгу Юдковского — первый учёный в истории человечества, перешедший порог в миллион цитирований.

1👍27💔7🔥6❤1🥰1

2.42K viewsedited 12:50

Mikhail Samin

Вы находитесь здесь:

(модели понимают, что их тестируют на алайнмент)

"Sonnet 4.5’s frequent evaluation gaming undermines the bottom line conclusion that it is better behaved than prior Anthropic models in the synthetic honeypot evaluation. When Sonnet 4.5’s internal features are inhibited such that this sometimes results in 0% verbalized eval awareness (same as Sonnet 4), it misbehaves up to 9% of the time on this evaluation while Sonnet 4 misbehaves somewhat over 10%. Since reducing verbalized eval awareness to 0% still may not fully eliminate Sonnet 4.5’s evaluation awareness, this result is consistent with Sonnet 4.5’s “genuine misaligned behavior rate” (if we magically removed all evaluation awareness) being above 10%, i.e. comparable or worse than Sonnet 4. This makes it plausible that the main reason why Sonnet 4.5 behaves “better" on these synthetic honeypot evals than Sonnet 4 is because it's much more likely to evaluation game."

source

😢29👍5😨5

2.47K viewsedited 22:37

Mikhail Samin

Написал пост о своём умном доме (превратить свой в такой же очень дёшево и безопасно!)

https://mikhailsamin.substack.com/p/smart-home

Substack

Why and how you should make your home smart

It's cheap and secure!

👍16❤3

1.97K viewsedited 22:11

Mikhail Samin

Forwarded from Команда Навального

Сегодня ФБК незаконно признали «террористической организацией». Наше заявление

Сегодня путинский Верховный суд признал Фонд борьбы с коррупцией «террористической организацией». Этот статус дополнит перечень уже имеющихся, ведь российские власти навешивают на нас разные ярлыки один за другим: иностранные агенты, нежелательная организация, экстремистская организация.

Все эти статусы «тестируются» на ФБК: сначала их выдают нам, а потом это становится нормой для всех, кто не согласен с политикой Путина. Нет никаких сомнений, что скоро «террористами» начнут признавать и другие организации — независимые медиа, правозащитные проекты, локальные инициативы.

Это политическая технология российских властей: объявить врагом государства любого, кто мешает воровать и вести бесконечную войну.

Мы не террористы, и это понимают все. Это понимаем мы и наши сторонники. Это прекрасно понимают и те, кто подписывает такие решения.

Террористами являются Владимир Путин и его приспешники — люди, развязавшие войну, убивающие мирных жителей и политических оппонентов, сажающие людей в тюрьмы.

Зачем нужно это решение? Чтобы запугать вас. Чтобы вы перестали нас читать и смотреть, боялись делиться нашими материалами и в тяжёлые времена остались без возможности слышать правду. И чтобы испугавшись вы перестали нас поддерживать — и морально, и финансово.

Не позволяйте им этого сделать. По всем юридическим вопросам и вопросам безопасности, связанным с поддержкой ФБК, пишите нашим юристам на почту [email protected].

Мы продолжим работать. Расследовать, говорить правду, помогать политзаключённым — делать всё, что в наших силах, чтобы Россия стала свободной.

🔴 Мы обращаемся к тем, кто не планирует ездить в Россию и живёт в странах с работающей правовой системой. Помогите нам пережить удар, который по нам наносит Владимир Путин. Если вы можете — оформите регулярное пожертвование или увеличьте уже существующее: donate.fbk.info

❗️

Команда Фонда борьбы с коррупцией

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6💔6😢3👏1

1.24K views09:36

Mikhail Samin

Написал довольно важный пост об Anthropic: компании, начавшейся, как “AI safety lab” на деньги эффективных альтруистов и долгое время притворяющейся заботящейся об экзистенциальном риске, но с тех пор превратившийся в стоящего $350 миллиардов почти что клона OpenAI.

Её CEO, Дарио Амодей, говорит, что вероятность экзистенциальной катастрофы — 10-25%. Сотни человек работают в Anthropic, потому что считают, что эта компания — самая ответственная из существующих и помощь ей выиграть гонку увеличивает шанс положительных исходов.

К сожалению, текущих и потенциальных сотрудников годами вводят в заблуждение.

За закрытыми дверьми с политиками, представители Anthropic говорят то же самое, что представители OpenAI и делают прямо противоположение тому, что можно было бы ожидать от компании, которая притворяется честной и принципиальной.

Один из сооснователей, ставший долларовым миллиардером благодаря доли в компании — Джек Кларк. Он руководит взаимодействием компании с законодательными органами и правительствами. Он публично врал о Нью-Йоркском RAISE Act: законопроекте, который сейчас ждёт подписи губернатора Нью-Йорка и обязал бы компании, разрабатывающие передовые системы ИИ выполнять минимальные требования о безопасности и о разглашении инцидентов правительству. В посте рассказываю об одном случае, когда он за закрытыми дверьми продвигал члену Конгресса идею запрета на регулирование ИИ на уровне отдельных штатов.

Есть и другие примеры, где компания лоббирует против любого регулирования ИИ, несмотря на то, что раньше, на словах, предлагаемые меры, против которых лоббирует, поддерживала.

У компании есть и другие довольно абсурдные качества.

От нарушения руководством данных обещаний до того, что, пока об этом не стало публично известно, сотрудники компании при увольнении должны были подписывать соглашения о том, что не будут негативно высказываться о компании и не разглашать факт этого соглашения. (И когда об этом стало известно, другой сооснователь компании врал в комментариях на LessWrong о деталях.)

К сожалению, нет ни одной компании, стремящейся создать сильный ИИ, за которой не было бы истории вранья, беспринципности и нарушения обещаний.

У меня есть надежда, что в Anthropic, из-за довольно уникальной внутренней культуры, в результате давления сотрудников из-за этого поста может что-то поменяться (и пока ничего не меняется, я надеюсь, что кого-то пост может побудить уволиться из Anthropic или не устраиваться туда.)

Если интересно увидеть больше деталей, прочитайте пост.

На LessWrong: https://www.lesswrong.com/posts/5aKRshJzhojqfbRyo/unless-its-governance-changes-anthropic-is-untrustworthy

На собственном сайте: https://anthropic.ml

Lesswrong

Unless its governance changes, Anthropic is untrustworthy — LessWrong

Anthropic is untrustworthy. • This post provides arguments, asks questions, and documents some examples of Anthropic's leadership being misleading an…

1❤19😨10🔥6🫡2

1.02K views15:43

About

Blog

Apps

Platform