Mikhail Samin
1.54K subscribers
1.38K photos
139 videos
12 files
1.73K links
contact.ms

I run aigsi.org, previously founded audd.io, printed 21k copies (63k books!) of гпмрм.рф. He/him, bi 🏳️‍🌈.

The channel is in Russian. For English content from me: x.com/mihonarium, lesswrong.com/users/mikhail-samin

Get in touch: @Mihonarium
Download Telegram
«Как именно ИИ всех убьёт?»

Это довольно частый вопрос. Настоящий ответ — что это не важно: результат — что ИИ, обученный выигрывать, достигающий своих целей лучше, чем это делают люди, выиграет — предсказать гораздо проще конкретного пути; как предсказать, что Stockfish выиграет партию против человека гораздо проще, чем предсказать конкретные ходы.

Тем не менее, If Anyone Builds It, Everyone Dies описывает один из возможных сценариев. Хорошее видео, визуализирующее этот сценарий: https://youtu.be/D8RtMHuFsUw
🫡19😢52🔥2👍1🥰1
Mikhail Samin
Заявление, подписанное пятью Нобелевскими лауреатами; >150 профессорами; экспертами национальной безопасности; бывшими сотрудниками Белого дома при Обаме и Трампе; бывшими членами Конгресса; членами британского парламента, бывшими министрами правительства…
46 000 человек подписали это заявление.

Тем временем Йошуа Бенжио — подписант этого заявления, один из «крёстных отцов» современного машинного обучения и один из людей, рекомендующих книгу Юдковского — первый учёный в истории человечества, перешедший порог в миллион цитирований.
1👍27💔7🔥61🥰1
Вы находитесь здесь:

(модели понимают, что их тестируют на алайнмент)

"Sonnet 4.5’s frequent evaluation gaming undermines the bottom line conclusion that it is better behaved than prior Anthropic models in the synthetic honeypot evaluation. When Sonnet 4.5’s internal features are inhibited such that this sometimes results in 0% verbalized eval awareness (same as Sonnet 4), it misbehaves up to 9% of the time on this evaluation while Sonnet 4 misbehaves somewhat over 10%. Since reducing verbalized eval awareness to 0% still may not fully eliminate Sonnet 4.5’s evaluation awareness, this result is consistent with Sonnet 4.5’s “genuine misaligned behavior rate” (if we magically removed all evaluation awareness) being above 10%, i.e. comparable or worse than Sonnet 4. This makes it plausible that the main reason why Sonnet 4.5 behaves “better" on these synthetic honeypot evals than Sonnet 4 is because it's much more likely to evaluation game."

source
😢29👍5😨5
Написал пост о своём умном доме (превратить свой в такой же очень дёшево и безопасно!)

https://mikhailsamin.substack.com/p/smart-home
👍163
Сегодня ФБК незаконно признали «террористической организацией». Наше заявление

Сегодня путинский Верховный суд признал Фонд борьбы с коррупцией «террористической организацией». Этот статус дополнит перечень уже имеющихся, ведь российские власти навешивают на нас разные ярлыки один за другим: иностранные агенты, нежелательная организация, экстремистская организация.

Все эти статусы «тестируются» на ФБК: сначала их выдают нам, а потом это становится нормой для всех, кто не согласен с политикой Путина. Нет никаких сомнений, что скоро «террористами» начнут признавать и другие организации — независимые медиа, правозащитные проекты, локальные инициативы.

Это политическая технология российских властей: объявить врагом государства любого, кто мешает воровать и вести бесконечную войну.

Мы не террористы, и это понимают все.
Это понимаем мы и наши сторонники. Это прекрасно понимают и те, кто подписывает такие решения.

Террористами являются Владимир Путин и его приспешники — люди, развязавшие войну, убивающие мирных жителей и политических оппонентов, сажающие людей в тюрьмы.

Зачем нужно это решение? Чтобы запугать вас. Чтобы вы перестали нас читать и смотреть, боялись делиться нашими материалами и в тяжёлые времена остались без возможности слышать правду. И чтобы испугавшись вы перестали нас поддерживать — и морально, и финансово.

Не позволяйте им этого сделать. По всем юридическим вопросам и вопросам безопасности, связанным с поддержкой ФБК, пишите нашим юристам на почту [email protected].

Мы продолжим работать. Расследовать, говорить правду, помогать политзаключённым — делать всё, что в наших силах, чтобы Россия стала свободной.

🔴 Мы обращаемся к тем, кто не планирует ездить в Россию и живёт в странах с работающей правовой системой. Помогите нам пережить удар, который по нам наносит Владимир Путин. Если вы можете — оформите регулярное пожертвование или увеличьте уже существующее: donate.fbk.info

❗️ Команда Фонда борьбы с коррупцией
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6💔6😢3👏1
Написал довольно важный пост об Anthropic: компании, начавшейся, как “AI safety lab” на деньги эффективных альтруистов и долгое время притворяющейся заботящейся об экзистенциальном риске, но с тех пор превратившийся в стоящего $350 миллиардов почти что клона OpenAI.

Её CEO, Дарио Амодей, говорит, что вероятность экзистенциальной катастрофы — 10-25%. Сотни человек работают в Anthropic, потому что считают, что эта компания — самая ответственная из существующих и помощь ей выиграть гонку увеличивает шанс положительных исходов.

К сожалению, текущих и потенциальных сотрудников годами вводят в заблуждение.

За закрытыми дверьми с политиками, представители Anthropic говорят то же самое, что представители OpenAI и делают прямо противоположение тому, что можно было бы ожидать от компании, которая притворяется честной и принципиальной.

Один из сооснователей, ставший долларовым миллиардером благодаря доли в компании — Джек Кларк. Он руководит взаимодействием компании с законодательными органами и правительствами. Он публично врал о Нью-Йоркском RAISE Act: законопроекте, который сейчас ждёт подписи губернатора Нью-Йорка и обязал бы компании, разрабатывающие передовые системы ИИ выполнять минимальные требования о безопасности и о разглашении инцидентов правительству. В посте рассказываю об одном случае, когда он за закрытыми дверьми продвигал члену Конгресса идею запрета на регулирование ИИ на уровне отдельных штатов.

Есть и другие примеры, где компания лоббирует против любого регулирования ИИ, несмотря на то, что раньше, на словах, предлагаемые меры, против которых лоббирует, поддерживала.

У компании есть и другие довольно абсурдные качества.

От нарушения руководством данных обещаний до того, что, пока об этом не стало публично известно, сотрудники компании при увольнении должны были подписывать соглашения о том, что не будут негативно высказываться о компании и не разглашать факт этого соглашения. (И когда об этом стало известно, другой сооснователь компании врал в комментариях на LessWrong о деталях.)

К сожалению, нет ни одной компании, стремящейся создать сильный ИИ, за которой не было бы истории вранья, беспринципности и нарушения обещаний.

У меня есть надежда, что в Anthropic, из-за довольно уникальной внутренней культуры, в результате давления сотрудников из-за этого поста может что-то поменяться (и пока ничего не меняется, я надеюсь, что кого-то пост может побудить уволиться из Anthropic или не устраиваться туда.)

Если интересно увидеть больше деталей, прочитайте пост.

На LessWrong: https://www.lesswrong.com/posts/5aKRshJzhojqfbRyo/unless-its-governance-changes-anthropic-is-untrustworthy

На собственном сайте: https://anthropic.ml
119😨10🔥6🫡2