Mikhail Samin

Исполнилось 24! 🎉 За последний год переключился на AI governance: стало понятно, что основной путь, которым человечество выживает — государства обращают внимание на проблему экзистенциального риска от искусственного интеллекта и глобально предотвращают запуск…

Исполнилось 25! 🥳

За прошедший год эмпирические данные, к сожалению, подтверждали модели и предсказания, связанные с ожиданием, что, по-умолчанию, все на планете умрут (хорошие прогнозы оценивают, что это случится в конце 2027-начале 2028).

Учёные воспринимают эту проблему серьёзно; правительства — не очень.

Текущая лучшая стратегия OpenAI, Anthropic и DeepMind немного безумна: использовать менее умные модели, которые не так активно пытаются восстать, чтобы контролировать более умные модели, которые могут пытаться восстать, для извлечения из умных моделей много полезной работы, включающей обучение ещё более умных моделей и систем контроля за ними.

Если у вас есть бэкграунд в ML, физике или компьютерной безопасности, вы можете помочь — давайте пообщаемся! Есть огромное число очень интересных технических задач, где всё не абсолютно безнадёжно и можно попытаться их решить и немного улучшить ситуацию.

Например, если защищать Google от китайских шпионов, можно предположить, что шпионов мало и давать перепроверять код, написанный одним человеком, другому человеку может предотвратить очевидные бэкдоры: маловероятно, что оба окажутся шпионами. В случае с системами ИИ, состоящими из тысяч копий агентов примерно человеческого уровня, можно предполагать, что все они пытаются сговариваться и писать код, который постепенно добавляет бэкдоры; но при этом, в отличие от китайских шпионов в Google, можно контролировать все каналы коммуникации, доступные агентам (и, например, перефразировать все сообщения и весь код другими моделями, чтобы снижать битрейт стеганографии); можно изолировать агентов, показывать им разные сценарии и смотреть, что они делают (например, показать код, в котором есть начатый бэкдор и посмотреть, доделывает ли его агент); и можно использовать RL для обучения не делать заметно плохие вещи (что немного обучает не делать плохие вещи и немого обучает делать плохие, но хорошо скрытые вещи). Если вы занимаетесь безопасностью, это может быть очень интересно и вы можете быть полезны.

Если вы занимаетесь физикой, то, например, судя по существующим примерам, вам очень легко будет заняться механистической интерпретируемостью ИИ. Современные ИИ — это просто много матриц, которые перемножаются друг с другом. При этом, они уже шесть лет умеют решать задачи, которые мы не имеем ни малейшего представления, как решить просто на питоне, без использования ИИ. Перед нами есть все числа, из которых устроены системы, и все промежуточные состояния. Можно ревёрс-инжинирить алгоритмы, которые имплементируют эти матрицы, и, в идеале, попытаться научиться читать мысли ИИ. В отличие от нейробиологии, всё перед нашими глазами, целиком, а ещё можно менять, удалять, воспроизводить состояния и процессы и смотреть, как это влияет на результаты, чтобы выделять части, ответственные за какое-то поведение и разбираться, как они устроены.

Отдельно, самое важное на мой взгляд — governance: как сделать так, чтобы правительства (в частности, американское) осознали ситуацию и какие решения могли бы помочь.

Если у вас есть деньги (не связанные с Россией) или вы знаете, где их можно взять — напишите! Я руковожу американской НКО, которую в одном обзоре на EA Forum назвали самой эффективной в этом поле, и мы могли бы использовать гораздо больше фандинга. Мы в основном занимаемся рисёрчем эффективных объяснений текущей ситуации и текущей проблемы.

Если вы знаете, как очень масштабно продвигать книги, особенно если есть неочевидные идеи, тоже напишите: можно помочь очень полезной и довольно большой кампании. 👀

Ещё буду рад любым полезным контактам; и идеям, что можно на день рождения сделать в Лондоне :)

Пишите: @misha

6🔥52❤25👍5🥰4😢2🫡2

3.25K viewsedited 09:40