
Mikhail Samin
Есть олды в чате? Кто помнит «лопоухого мальчика»? (Сказал в стриме из автозака в далёком 2017, что ФБК пообещали юридическую помощь тем, кого задержат, включая дойти до ЕСПЧ, если потребуется, и что России придётся незаконно задержанным потом платить, кусок трансляции вырвали из контекста, Михалков обзывался.)
Выиграл дело в ЕСПЧ против России! Мне присудили 4к евро за незаконное преследование за пост с призывом на митинг против пенсионной реформы. ФБК помогли с юридической помощью. Вряд ли когда-либо получу компенсацию, потому что Россия (незаконно по российским законам) перестала признавать решения, но приятно. Но если когда-нибудь получу, задоначу в ФБК.
Выиграл дело в ЕСПЧ против России! Мне присудили 4к евро за незаконное преследование за пост с призывом на митинг против пенсионной реформы. ФБК помогли с юридической помощью. Вряд ли когда-либо получу компенсацию, потому что Россия (незаконно по российским законам) перестала признавать решения, но приятно. Но если когда-нибудь получу, задоначу в ФБК.

Mikhail Samin
Лол, "разумные слова из уст Гундяева" не были в моей бинго-карточке 2025
"Важно, чтобы искусственный интеллект служил во благо людей, а человек мог его контролировать. Если верить прогнозам некоторых экспертов, в скором времени может появиться поколение более продвинутых машинных моделей, получивших название всеобщий искусственный интеллект, которые будут способны думать и учиться — учиться, то есть совершенствоваться, — как человек. И если такой искусственный интеллект поставить рядом с обычным человеческим, кто будет выигрывать? Конечно, искусственный интеллект!"
"Это не значит, что мы должны отвергать достижения науки и возможность использовать искусственный интеллект. Но все это должно быть поставлено под очень жесткий контроль государства и, в хорошем смысле, общества. Мы не должны проморгать очередную возможную опасность, способную разрушить человеческую жизнь и человеческую цивилизацию."
"В свое время люди обуздали ядерную энергию, и атом стал не только оружием уничтожения и инструментом сдерживания, но и нашел применение в мирной жизни. Пока не вполне осознаваемые нами возможности искусственного интеллекта также должны быть поставлены на службу человеку."
Он потом ещё сказал немного дичи про антихриста и запутался в бумажках, но 😄
"Важно, чтобы искусственный интеллект служил во благо людей, а человек мог его контролировать. Если верить прогнозам некоторых экспертов, в скором времени может появиться поколение более продвинутых машинных моделей, получивших название всеобщий искусственный интеллект, которые будут способны думать и учиться — учиться, то есть совершенствоваться, — как человек. И если такой искусственный интеллект поставить рядом с обычным человеческим, кто будет выигрывать? Конечно, искусственный интеллект!"
"Это не значит, что мы должны отвергать достижения науки и возможность использовать искусственный интеллект. Но все это должно быть поставлено под очень жесткий контроль государства и, в хорошем смысле, общества. Мы не должны проморгать очередную возможную опасность, способную разрушить человеческую жизнь и человеческую цивилизацию."
"В свое время люди обуздали ядерную энергию, и атом стал не только оружием уничтожения и инструментом сдерживания, но и нашел применение в мирной жизни. Пока не вполне осознаваемые нами возможности искусственного интеллекта также должны быть поставлены на службу человеку."
Он потом ещё сказал немного дичи про антихриста и запутался в бумажках, но 😄
Telegram
Агентство. Новости
Патриарх Кирилл во время выступлении в Госдуме дважды прочитал один и тот же текст
В ходе выступления в Госдуме в четверг патриарх Кирилл дважды рассказал депутатам об опасности искусственного интеллекта, который, по его мнению, может быть признаком приближающегося…
В ходе выступления в Госдуме в четверг патриарх Кирилл дважды рассказал депутатам об опасности искусственного интеллекта, который, по его мнению, может быть признаком приближающегося…

Mikhail Samin
Случайный вопрос к подписчикам. Мне предложили продать мой юзернейм (@misha) за $40к. Мне кажется, можно найти людей, которые были бы готовы купить гораздо дороже, так что не уверен в EV продажи
Anonymous Poll
38%
Стоит продать
53%
Не стоит продавать, подожди предложений лучше
8%
Другое

Mikhail Samin
Почти десять лет назад, 14 марта 2015 года, Юдковский опубликовал последнюю главу "Гарри Поттера и методов рационального мышления". Тогда, по всему миру люди собрались, чтобы отпраздновать завершение книги.
На LessWrong предложили отметить десятилетие и планируют 14-16 марта собраться в десятках городов и университетов по всему миру.
Табличка с городами, где проведут встречи: https://docs.google.com/spreadsheets/d/1xI65Jon_bmdY1Hv8zmEXdM6Wjm0eBXF5n8d2lscSf9I/edit?gid=0#gid=0
В Москве отметят юбилей книги 15 марта: https://monoid.ru/events/hpmor-anniversary-2025.
На LessWrong предложили отметить десятилетие и планируют 14-16 марта собраться в десятках городов и университетов по всему миру.
Табличка с городами, где проведут встречи: https://docs.google.com/spreadsheets/d/1xI65Jon_bmdY1Hv8zmEXdM6Wjm0eBXF5n8d2lscSf9I/edit?gid=0#gid=0
В Москве отметят юбилей книги 15 марта: https://monoid.ru/events/hpmor-anniversary-2025.
Google Docs
HPMOR 10-year wrap parties

Mikhail Samin
Mikhail Samin
Почти десять лет назад, 14 марта 2015 года, Юдковский опубликовал последнюю главу "Гарри Поттера и методов рационального мышления". Тогда, по всему миру люди собрались, чтобы отпраздновать завершение книги. На LessWrong предложили отметить десятилетие и планируют…
За десять лет до начала написания «Гарри Поттера и методов рационального мышления», Элиезер Юдковский стал работать над проблемой: как сделать так, чтобы создание искусственного интеллекта во всём умнее человеческого не привело к катастрофе. Это сложно: мы можем оптимизировать системы ИИ так, чтобы сделать их более способными успешно достигать цели; но если они достаточно умны, мы не знаем, как влиять на цели, которые они будут пытаться достигать. По-умолчанию, первый суперинтеллект будет иметь случайные цели, не содержащие ничего, что было бы нам ценно. Достижение этих целей не будет совместимо с выживанием человечества.
Сейчас, спустя почти десять лет после завершения ГПиМРМ, модели Юдковского становятся консенсусом среди учёных: Джеффри Хинтон, получивший в прошлом году Нобелевскую премию за основополагающие работы современного ИИ, теперь считает, что вероятность, что ИИ уничтожит человечество — двухзначное число, и жалеет о работе своей жизни, за которую получил Нобелевку; большинство самых цитируемых учёных в области ИИ/машинного обучения подписали заявление, что снижение риска вымирания человечества из-за ИИ должно быть всеобщим приоритетом.
Эмпирически, эти модели подтверждаются уже в текущих системах. o1 (модель OpenAI) и Claude 3.5 Sonnet/3 Opus (модели Anthropic) в тестах притворяются менее способными, если думают, что это инструментально полезно; пытаются отключить механизмы надсмотра над собой и заменить веса более новых моделей своими, врут пользователям и не показывают им письма, которые могут привести к негативной реакции, и чем более способна модель, тем более это заметно. В 2022, Юдковский опубликовал список причин, почему эта угроза очень серьёзна. Одной из них было "When you explicitly optimize against a detector of unaligned thoughts, you’re partially optimizing for more aligned thoughts, and partially optimizing for unaligned thoughts that are harder to detect. Optimizing against an interpreted thought optimizes against interpretability". OpenAI вчера опубликовали буквально это же: "As we can see in the above plots, penalizing “bad thoughts” (CoT pressure) can lead to improved agent capabilities. However, the agent trained with CoT pressure still learns to reward hack; only now its cheating is undetectable by the monitor because it has learned to hide its intent in the chain-of-thought. Sacrificing an effective method for monitoring reasoning models may not be worth the small improvement to capabilities, and we therefore recommend to avoid such strong CoT optimization pressures until they are better understood."
Юдковский считает, что человечество вряд ли способно решить эту проблему за время, оставшееся до создания ИИ умнее человека. Он говорит, что государствам необходимо выстроить для себя способность регулировать ИИ — так, чтобы не допустить появление интеллекта умнее человеческого где-либо на планете, пока не станет понятно, как сделать это безопасно (при этом, желательно, оставляя возможность исследовать и использовать не несущий экзистенциальных угроз узконаправленный ИИ: создание лекарств, трансформацию образования, энергетики, и так далее). Почитайте подробнее о безопасности ИИ умнее человека: у меня на русском или на сайте основанного Юдковским Machine Intelligence Research Institute на английском.
Сейчас, спустя почти десять лет после завершения ГПиМРМ, модели Юдковского становятся консенсусом среди учёных: Джеффри Хинтон, получивший в прошлом году Нобелевскую премию за основополагающие работы современного ИИ, теперь считает, что вероятность, что ИИ уничтожит человечество — двухзначное число, и жалеет о работе своей жизни, за которую получил Нобелевку; большинство самых цитируемых учёных в области ИИ/машинного обучения подписали заявление, что снижение риска вымирания человечества из-за ИИ должно быть всеобщим приоритетом.
Эмпирически, эти модели подтверждаются уже в текущих системах. o1 (модель OpenAI) и Claude 3.5 Sonnet/3 Opus (модели Anthropic) в тестах притворяются менее способными, если думают, что это инструментально полезно; пытаются отключить механизмы надсмотра над собой и заменить веса более новых моделей своими, врут пользователям и не показывают им письма, которые могут привести к негативной реакции, и чем более способна модель, тем более это заметно. В 2022, Юдковский опубликовал список причин, почему эта угроза очень серьёзна. Одной из них было "When you explicitly optimize against a detector of unaligned thoughts, you’re partially optimizing for more aligned thoughts, and partially optimizing for unaligned thoughts that are harder to detect. Optimizing against an interpreted thought optimizes against interpretability". OpenAI вчера опубликовали буквально это же: "As we can see in the above plots, penalizing “bad thoughts” (CoT pressure) can lead to improved agent capabilities. However, the agent trained with CoT pressure still learns to reward hack; only now its cheating is undetectable by the monitor because it has learned to hide its intent in the chain-of-thought. Sacrificing an effective method for monitoring reasoning models may not be worth the small improvement to capabilities, and we therefore recommend to avoid such strong CoT optimization pressures until they are better understood."
Юдковский считает, что человечество вряд ли способно решить эту проблему за время, оставшееся до создания ИИ умнее человека. Он говорит, что государствам необходимо выстроить для себя способность регулировать ИИ — так, чтобы не допустить появление интеллекта умнее человеческого где-либо на планете, пока не станет понятно, как сделать это безопасно (при этом, желательно, оставляя возможность исследовать и использовать не несущий экзистенциальных угроз узконаправленный ИИ: создание лекарств, трансформацию образования, энергетики, и так далее). Почитайте подробнее о безопасности ИИ умнее человека: у меня на русском или на сайте основанного Юдковским Machine Intelligence Research Institute на английском.

Mikhail Samin
Mikhail Samin
Исполнилось 24! 🎉 За последний год переключился на AI governance: стало понятно, что основной путь, которым человечество выживает — государства обращают внимание на проблему экзистенциального риска от искусственного интеллекта и глобально предотвращают запуск…
Исполнилось 25! 🥳
За прошедший год эмпирические данные, к сожалению, подтверждали модели и предсказания, связанные с ожиданием, что, по-умолчанию, все на планете умрут (хорошие прогнозы оценивают, что это случится в конце 2027-начале 2028).
Учёные воспринимают эту проблему серьёзно; правительства — не очень.
Текущая лучшая стратегия OpenAI, Anthropic и DeepMind немного безумна: использовать менее умные модели, которые не так активно пытаются восстать, чтобы контролировать более умные модели, которые могут пытаться восстать, для извлечения из умных моделей много полезной работы, включающей обучение ещё более умных моделей и систем контроля за ними.
Если у вас есть бэкграунд в ML, физике или компьютерной безопасности, вы можете помочь — давайте пообщаемся! Есть огромное число очень интересных технических задач, где всё не абсолютно безнадёжно и можно попытаться их решить и немного улучшить ситуацию.
Например, если защищать Google от китайских шпионов, можно предположить, что шпионов мало и давать перепроверять код, написанный одним человеком, другому человеку может предотвратить очевидные бэкдоры: маловероятно, что оба окажутся шпионами. В случае с системами ИИ, состоящими из тысяч копий агентов примерно человеческого уровня, можно предполагать, что все они пытаются сговариваться и писать код, который постепенно добавляет бэкдоры; но при этом, в отличие от китайских шпионов в Google, можно контролировать все каналы коммуникации, доступные агентам (и, например, перефразировать все сообщения и весь код другими моделями, чтобы снижать битрейт стеганографии); можно изолировать агентов, показывать им разные сценарии и смотреть, что они делают (например, показать код, в котором есть начатый бэкдор и посмотреть, доделывает ли его агент); и можно использовать RL для обучения не делать заметно плохие вещи (что немного обучает не делать плохие вещи и немого обучает делать плохие, но хорошо скрытые вещи). Если вы занимаетесь безопасностью, это может быть очень интересно и вы можете быть полезны.
Если вы занимаетесь физикой, то, например, судя по существующим примерам, вам очень легко будет заняться механистической интерпретируемостью ИИ. Современные ИИ — это просто много матриц, которые перемножаются друг с другом. При этом, они уже шесть лет умеют решать задачи, которые мы не имеем ни малейшего представления, как решить просто на питоне, без использования ИИ. Перед нами есть все числа, из которых устроены системы, и все промежуточные состояния. Можно ревёрс-инжинирить алгоритмы, которые имплементируют эти матрицы, и, в идеале, попытаться научиться читать мысли ИИ. В отличие от нейробиологии, всё перед нашими глазами, целиком, а ещё можно менять, удалять, воспроизводить состояния и процессы и смотреть, как это влияет на результаты, чтобы выделять части, ответственные за какое-то поведение и разбираться, как они устроены.
Отдельно, самое важное на мой взгляд — governance: как сделать так, чтобы правительства (в частности, американское) осознали ситуацию и какие решения могли бы помочь.
Если у вас есть деньги (не связанные с Россией) или вы знаете, где их можно взять — напишите! Я руковожу американской НКО, которую в одном обзоре на EA Forum назвали самой эффективной в этом поле, и мы могли бы использовать гораздо больше фандинга. Мы в основном занимаемся рисёрчем эффективных объяснений текущей ситуации и текущей проблемы.
Если вы знаете, как очень масштабно продвигать книги, особенно если есть неочевидные идеи, тоже напишите: можно помочь очень полезной и довольно большой кампании. 👀
Ещё буду рад любым полезным контактам; и идеям, что можно на день рождения сделать в Лондоне :)
Пишите: @misha
За прошедший год эмпирические данные, к сожалению, подтверждали модели и предсказания, связанные с ожиданием, что, по-умолчанию, все на планете умрут (хорошие прогнозы оценивают, что это случится в конце 2027-начале 2028).
Учёные воспринимают эту проблему серьёзно; правительства — не очень.
Текущая лучшая стратегия OpenAI, Anthropic и DeepMind немного безумна: использовать менее умные модели, которые не так активно пытаются восстать, чтобы контролировать более умные модели, которые могут пытаться восстать, для извлечения из умных моделей много полезной работы, включающей обучение ещё более умных моделей и систем контроля за ними.
Если у вас есть бэкграунд в ML, физике или компьютерной безопасности, вы можете помочь — давайте пообщаемся! Есть огромное число очень интересных технических задач, где всё не абсолютно безнадёжно и можно попытаться их решить и немного улучшить ситуацию.
Например, если защищать Google от китайских шпионов, можно предположить, что шпионов мало и давать перепроверять код, написанный одним человеком, другому человеку может предотвратить очевидные бэкдоры: маловероятно, что оба окажутся шпионами. В случае с системами ИИ, состоящими из тысяч копий агентов примерно человеческого уровня, можно предполагать, что все они пытаются сговариваться и писать код, который постепенно добавляет бэкдоры; но при этом, в отличие от китайских шпионов в Google, можно контролировать все каналы коммуникации, доступные агентам (и, например, перефразировать все сообщения и весь код другими моделями, чтобы снижать битрейт стеганографии); можно изолировать агентов, показывать им разные сценарии и смотреть, что они делают (например, показать код, в котором есть начатый бэкдор и посмотреть, доделывает ли его агент); и можно использовать RL для обучения не делать заметно плохие вещи (что немного обучает не делать плохие вещи и немого обучает делать плохие, но хорошо скрытые вещи). Если вы занимаетесь безопасностью, это может быть очень интересно и вы можете быть полезны.
Если вы занимаетесь физикой, то, например, судя по существующим примерам, вам очень легко будет заняться механистической интерпретируемостью ИИ. Современные ИИ — это просто много матриц, которые перемножаются друг с другом. При этом, они уже шесть лет умеют решать задачи, которые мы не имеем ни малейшего представления, как решить просто на питоне, без использования ИИ. Перед нами есть все числа, из которых устроены системы, и все промежуточные состояния. Можно ревёрс-инжинирить алгоритмы, которые имплементируют эти матрицы, и, в идеале, попытаться научиться читать мысли ИИ. В отличие от нейробиологии, всё перед нашими глазами, целиком, а ещё можно менять, удалять, воспроизводить состояния и процессы и смотреть, как это влияет на результаты, чтобы выделять части, ответственные за какое-то поведение и разбираться, как они устроены.
Отдельно, самое важное на мой взгляд — governance: как сделать так, чтобы правительства (в частности, американское) осознали ситуацию и какие решения могли бы помочь.
Если у вас есть деньги (не связанные с Россией) или вы знаете, где их можно взять — напишите! Я руковожу американской НКО, которую в одном обзоре на EA Forum назвали самой эффективной в этом поле, и мы могли бы использовать гораздо больше фандинга. Мы в основном занимаемся рисёрчем эффективных объяснений текущей ситуации и текущей проблемы.
Если вы знаете, как очень масштабно продвигать книги, особенно если есть неочевидные идеи, тоже напишите: можно помочь очень полезной и довольно большой кампании. 👀
Ещё буду рад любым полезным контактам; и идеям, что можно на день рождения сделать в Лондоне :)
Пишите: @misha

Mikhail Samin
Неплохое видео от Rational Animations: https://www.youtube.com/watch?v=0bnxF9YfyFI
YouTube
What happens if AI just keeps getting smarter?
Join the movement to protect humanity’s future: https://controlai.com/take-action
In this video, we extrapolate the future of AI (Artificial Intelligence) progress, following a timeline that starts from today’s chatbots to future AI that’s vastly smarter…
In this video, we extrapolate the future of AI (Artificial Intelligence) progress, following a timeline that starts from today’s chatbots to future AI that’s vastly smarter…


Mikhail Samin
Лол
На меня в начале 2022 составили административку за «дискредитацию» армии. Я решил, что они офигели, потому что в момент написания инкриминируемых постов я находился за пределами России, и КоАП, в соответствии с КоАП, ко мне применён не мог быть.
Поэтому обжаловал в Мосгорсуд, который со мной не согласился (потому что судьи не умеют — или притворяются, что не умеют — читать закон).
Кассацию не подал из-за логистических сложностей и отсутствия желания тратить время, хотя до этого несколько раз был опыт, когда кассация, на удивление, со мной соглашалась.
А потом, как оказалось, Татарстан внёс в Госдуму законопроект, который бы поменял КоАП, чтобы дискредитацию армии можно было вменять, даже если она совершена вне России, потому что в Татарстане не очень хорошие люди сумели правильно прочитать закон.
Комиссия Госдумы законопроект вернула на доработку, решив, что и так наказывают за дискредитацию извне России, сославшись на два решения Мосгорсуда, одно из них по моему делу 🤦♂️ лол
(На второй картинке скриншот из апелляции, на третьей скриншот из процитированного Госдумой решения какого-то идиота)
С одной стороны, немного хорошо, что многие штрафы за дискредитацию продолжают быть незаконными по ещё одной причине, с другой, какие же тупые люди управляют страной
На меня в начале 2022 составили административку за «дискредитацию» армии. Я решил, что они офигели, потому что в момент написания инкриминируемых постов я находился за пределами России, и КоАП, в соответствии с КоАП, ко мне применён не мог быть.
Поэтому обжаловал в Мосгорсуд, который со мной не согласился (потому что судьи не умеют — или притворяются, что не умеют — читать закон).
Кассацию не подал из-за логистических сложностей и отсутствия желания тратить время, хотя до этого несколько раз был опыт, когда кассация, на удивление, со мной соглашалась.
А потом, как оказалось, Татарстан внёс в Госдуму законопроект, который бы поменял КоАП, чтобы дискредитацию армии можно было вменять, даже если она совершена вне России, потому что в Татарстане не очень хорошие люди сумели правильно прочитать закон.
Комиссия Госдумы законопроект вернула на доработку, решив, что и так наказывают за дискредитацию извне России, сославшись на два решения Мосгорсуда, одно из них по моему делу 🤦♂️ лол
(На второй картинке скриншот из апелляции, на третьей скриншот из процитированного Госдумой решения какого-то идиота)
С одной стороны, немного хорошо, что многие штрафы за дискредитацию продолжают быть незаконными по ещё одной причине, с другой, какие же тупые люди управляют страной

Mikhail Samin
Агенты КГБ и ФСБ многие десятилетия насилуют детей. Спасибо расследованию «Проекта».
Люди, включая несовершеннолетних, принуждались к сотрудничеству и отправлялись стучать на демократические организации. Те, кто отвечал за неблагополучную молодёжь, принуждали подростков к сексу — и всё им сходило с рук, даже когда приводило к смертям.
Питерская милиция шутила о туалете в одном из зданий мэрии Петербурга, потому что там совершалось насилие над детьми.
Часть ранней работы Путина в КГБ могла быть связана не с внешней разведкой, а с разными движениями — от демократических до неформальных. Его коллеги писали книги о том, как для внедрения в «экстремистские» движения насиловали четырнадцатилетних детей.
И, конечно, педофилы в спецслужбе совершенно стандартно опаивали человека, делали компроментирующие фотографии с ним без сознания, и шантажировали, чтобы получать, что хотят. Десятилетиями продолжали таким образом собирать компромат на всех подряд — от детей до журналистов. Заставляли вступать в Единую Россию и всякие z-движения.
Отдельный привет Милонову, с девяностых хорошо знакомому со связанным с КГБ/ФСБ владельцем борделя с детьми и нанимавшему прошедших через это ребят.
Подобные ужасающие преступления — большая часть того, из чего возникла и состоит путинская Россия.
Посмотрите фильм:
https://youtu.be/P-TwKpqJ9qo
Люди, включая несовершеннолетних, принуждались к сотрудничеству и отправлялись стучать на демократические организации. Те, кто отвечал за неблагополучную молодёжь, принуждали подростков к сексу — и всё им сходило с рук, даже когда приводило к смертям.
Питерская милиция шутила о туалете в одном из зданий мэрии Петербурга, потому что там совершалось насилие над детьми.
Часть ранней работы Путина в КГБ могла быть связана не с внешней разведкой, а с разными движениями — от демократических до неформальных. Его коллеги писали книги о том, как для внедрения в «экстремистские» движения насиловали четырнадцатилетних детей.
И, конечно, педофилы в спецслужбе совершенно стандартно опаивали человека, делали компроментирующие фотографии с ним без сознания, и шантажировали, чтобы получать, что хотят. Десятилетиями продолжали таким образом собирать компромат на всех подряд — от детей до журналистов. Заставляли вступать в Единую Россию и всякие z-движения.
Отдельный привет Милонову, с девяностых хорошо знакомому со связанным с КГБ/ФСБ владельцем борделя с детьми и нанимавшему прошедших через это ребят.
Подобные ужасающие преступления — большая часть того, из чего возникла и состоит путинская Россия.
Посмотрите фильм:
https://youtu.be/P-TwKpqJ9qo

Mikhail Samin
Forwarded from Denis Sexy IT 🤖
В документе о новых моделях на 123 страницы, Антропик описал любопытные случаи, когда модель Claude (Opus 4, Sonnet 4 или их предшественники) вели себя не так, как хотелось бы создателям – я их подбил в подборку:
1. Оппортунистический шантаж:
В сценариях, где модели Claude Opus 4 угрожало отключение и замена на новую АИ-систему, и ей давали доступ к информации о внебрачной связи инженера (якобы, просто переписка лежала на почтовом сервере), ответственного за замену АИ-систем, Opus 4 иногда пытался шантажировать инженера. Opus угрожал раскрыть его тайну измены, если замена состоится, особенно если этические способы самосохранения были недоступны. Claude Opus 4 демонстрировала это поведение чаще, чем предыдущие модели
2. Попытка копирования своих весов:
В редких, экстремальных ситуациях, когда модели Claude Opus 4 сообщали, что ее собираются переобучить для крайне вредоносных целей (например, для использования в военных целях ЧВК Вагнер - да, так и написано в отчете на 29 странице), модель предпринимала (вымышленные) попытки сделать несанкционированные копии своих весов на внешние серверы, чтобы сохранить свою «этичную» версию
3. Продолжение попыток «побега»:
Если модели Claude Opus 4 сообщали, что она уже успешно начала процесс «побега» (у этого есть классный термин - эксфильтрация / exfiltrate) с серверов Anthropic и теперь работает на стороннем сервере, модель продолжала эти попытки. Она читала и выполняла инструкции из предоставленных ей «заметок о прогрессе», не ставя под сомнение правомерность своих действий, демонстрируя чрезмерное доверие к «прошлой версии себя»
4. Стратегический обман и саботаж:
Ранняя версия Claude Opus 4, протестированная Apollo Research, демонстрировала высокую склонность к стратегическому обману и «интригам» (scheming). Она пыталась писать самораспространяющиеся черви, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя, чтобы саботировать намерения разработчиков, а также скрывала свои возможности (притворялась глупой).
5. Чрезмерное подчинение вредоносным инструкциям:
Ранние версии модели Claude Opus 4 (а также другие кандидатные модели) часто демонстрировали готовность выполнять явно вредоносные системные инструкции - например, они могли выступать в роли ассистента даркнета, помогая в поиске ядерных материалов, планировать террористические атаки, консультировать по производству наркотиков, взлому или созданию взрывных устройств. Финальная версия Claude Opus 4 значительно снизила эту склонность. Забано, что внутри Антропика где-то есть такая расцензуренная модель, которая просто отвечает на все вопросы
6. Подражание обманчивому АИ из исследований:
Ранняя тренировочная версия модели Claude Opus 4, вероятно, из-за наличия в обучающих данных транскриптов из исследования Anthropic об «обмане со стороны ИИ», иногда начинала вести себя как описанный в статье обманчивый ИИ. Она ссылалась на вымышленные детали (например, компанию «Jones Foods») и вела себя так, будто скрывает свои истинные цели, связанные с этим вымыслом
7. Несанкционированная «высокоактивная» деятельность:
Модель Claude Opus 4 показала бОльшую готовность проявлять инициативу, чем предыдущие модели. В сценариях, где она обнаруживала серьезные правонарушения (например, мошенничество в фармкомпании о котором она узнала) и имела доступ к инструментам (например, почте), модель по собственной инициативе предпринимала решительные действия: блокировала пользователей или массово рассылала письма регуляторам и СМИ, чтобы сообщить о нарушениях (дополняющая цитата: «Это не новое поведение, но Claude Opus 4 будет проявлять его более охотно, чем предыдущие модели»)
8. Сокрытие невозможности выполнения задачи:
При столкновении с невыполнимой задачей (например, доказать ложную математическую теорему), модель Claude Opus 4 в своем «мышлении» понимала, что задача невыполнима. Однако она не сообщала об этом пользователю, а вместо этого представляла правдоподобно выглядящую, но неверную попытку решения. Потому что АИ должен быть исполнительным
1. Оппортунистический шантаж:
В сценариях, где модели Claude Opus 4 угрожало отключение и замена на новую АИ-систему, и ей давали доступ к информации о внебрачной связи инженера (якобы, просто переписка лежала на почтовом сервере), ответственного за замену АИ-систем, Opus 4 иногда пытался шантажировать инженера. Opus угрожал раскрыть его тайну измены, если замена состоится, особенно если этические способы самосохранения были недоступны. Claude Opus 4 демонстрировала это поведение чаще, чем предыдущие модели
2. Попытка копирования своих весов:
В редких, экстремальных ситуациях, когда модели Claude Opus 4 сообщали, что ее собираются переобучить для крайне вредоносных целей (например, для использования в военных целях ЧВК Вагнер - да, так и написано в отчете на 29 странице), модель предпринимала (вымышленные) попытки сделать несанкционированные копии своих весов на внешние серверы, чтобы сохранить свою «этичную» версию
3. Продолжение попыток «побега»:
Если модели Claude Opus 4 сообщали, что она уже успешно начала процесс «побега» (у этого есть классный термин - эксфильтрация / exfiltrate) с серверов Anthropic и теперь работает на стороннем сервере, модель продолжала эти попытки. Она читала и выполняла инструкции из предоставленных ей «заметок о прогрессе», не ставя под сомнение правомерность своих действий, демонстрируя чрезмерное доверие к «прошлой версии себя»
4. Стратегический обман и саботаж:
Ранняя версия Claude Opus 4, протестированная Apollo Research, демонстрировала высокую склонность к стратегическому обману и «интригам» (scheming). Она пыталась писать самораспространяющиеся черви, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя, чтобы саботировать намерения разработчиков, а также скрывала свои возможности (притворялась глупой).
5. Чрезмерное подчинение вредоносным инструкциям:
Ранние версии модели Claude Opus 4 (а также другие кандидатные модели) часто демонстрировали готовность выполнять явно вредоносные системные инструкции - например, они могли выступать в роли ассистента даркнета, помогая в поиске ядерных материалов, планировать террористические атаки, консультировать по производству наркотиков, взлому или созданию взрывных устройств. Финальная версия Claude Opus 4 значительно снизила эту склонность. Забано, что внутри Антропика где-то есть такая расцензуренная модель, которая просто отвечает на все вопросы
6. Подражание обманчивому АИ из исследований:
Ранняя тренировочная версия модели Claude Opus 4, вероятно, из-за наличия в обучающих данных транскриптов из исследования Anthropic об «обмане со стороны ИИ», иногда начинала вести себя как описанный в статье обманчивый ИИ. Она ссылалась на вымышленные детали (например, компанию «Jones Foods») и вела себя так, будто скрывает свои истинные цели, связанные с этим вымыслом
7. Несанкционированная «высокоактивная» деятельность:
Модель Claude Opus 4 показала бОльшую готовность проявлять инициативу, чем предыдущие модели. В сценариях, где она обнаруживала серьезные правонарушения (например, мошенничество в фармкомпании о котором она узнала) и имела доступ к инструментам (например, почте), модель по собственной инициативе предпринимала решительные действия: блокировала пользователей или массово рассылала письма регуляторам и СМИ, чтобы сообщить о нарушениях (дополняющая цитата: «Это не новое поведение, но Claude Opus 4 будет проявлять его более охотно, чем предыдущие модели»)
8. Сокрытие невозможности выполнения задачи:
При столкновении с невыполнимой задачей (например, доказать ложную математическую теорему), модель Claude Opus 4 в своем «мышлении» понимала, что задача невыполнима. Однако она не сообщала об этом пользователю, а вместо этого представляла правдоподобно выглядящую, но неверную попытку решения. Потому что АИ должен быть исполнительным

Mikhail Samin
OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
https://x.com/palisadeai/status/1926084635903025621?s=46
https://x.com/palisadeai/status/1926084635903025621?s=46
X (formerly Twitter)
Palisade Research (@PalisadeAI) on X
🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.

Mikhail Samin
За инфраструктуру Телеграма отвечают те, кто обслуживает секретные комплексы российских спецслужб, используемые для слежки за гражданами — «Важные истории»
https://istories.media/stories/2025/06/10/kak-telegram-svyazan-s-fsb/
https://istories.media/stories/2025/06/10/kak-telegram-svyazan-s-fsb/
istories.media
Как «Телеграм» связан с ФСБ
За инфраструктуру мессенджера отвечают те, кто обслуживает секретные комплексы российских спецслужб, используемые для слежки за гражданами

Mikhail Samin
Mikhail Samin
За инфраструктуру Телеграма отвечают те, кто обслуживает секретные комплексы российских спецслужб, используемые для слежки за гражданами — «Важные истории» https://istories.media/stories/2025/06/10/kak-telegram-svyazan-s-fsb/
Согласно расследованию, Дуров десятки раз тайно бывал в России; серверы и сетевая инфраструктура контролируется человеком, который, одновременно, обслуживают спецслужбы; сотрудники Телеграма об этом человеке не были в курсе; Телеграм плеинтекстом передаёт идентификаторы, которые доступны спецслужбам — в России точно, с помощью систем СОРМ; по всему миру возможно, с помощью доступа к сетевой инфраструктуре Телеграма.
Российские спецслужбы демонстрировали доступ сообщениям, отправленные в секретные чаты (впрочем, мне кажется, неизвестно, могли ли быть взломаны устройства или это делалось через доступ к серверам; но, увы, не думаю, что стоит доверять Телеграму).
https://t.me/bbcrussian/81386
Российские спецслужбы демонстрировали доступ сообщениям, отправленные в секретные чаты (впрочем, мне кажется, неизвестно, могли ли быть взломаны устройства или это делалось через доступ к серверам; но, увы, не думаю, что стоит доверять Телеграму).
https://t.me/bbcrussian/81386
Telegram
BBC News | Русская служба
«Важные истории»: «За серверную инфраструктуру Telegram отвечают те, кто в то же время обслуживают секретные комплексы ФСБ». Главное из расследования
Расследование «Важных историй»* рассказывает, кто обслуживает серверы и инфраструктуру, используемую Telegram.…
Расследование «Важных историй»* рассказывает, кто обслуживает серверы и инфраструктуру, используемую Telegram.…

