Напомню анекдот: однажды, федеральные власти проводили исследования относительно длины члена. И, возможно, влияния этого параметра на различные сферы жизни. Но внезапно выяснилось, что в двух абсолютно одинаковых деревнях длины членов отличались на 50%. Почему? Потому что в одной был опрос, а в другой — измерения.
https://t.me/agentstvonews/9988
Вот представьте, вы в РФ и к вам подходит тётенька, похожая на училку. И задает вопрос: А ТЫ ЮТЮБ СМОТРИШЬ? (в глаза, сука, смотри! отвечай! )
Любой нормальный человек пошлёт училку на уй. А ненормальный, конечно же, Ютюб не смотрит. Он по определению — дебил. Раз на вопросы странных людей отвечает.
И потом вот не таких входных данных строят целые теории. Кажется, уже сто раз это обсуждали, но все равно находятся "социологи"
https://t.me/agentstvonews/9988
Вот представьте, вы в РФ и к вам подходит тётенька, похожая на училку. И задает вопрос: А ТЫ ЮТЮБ СМОТРИШЬ? (
Любой нормальный человек пошлёт училку на уй. А ненормальный, конечно же, Ютюб не смотрит. Он по определению — дебил. Раз на вопросы странных людей отвечает.
И потом вот не таких входных данных строят целые теории. Кажется, уже сто раз это обсуждали, но все равно находятся "социологи"
Telegram
Агентство. Новости
После блокировки YouTube его аудитория уменьшилась в России почти вдвое
Число пользователей YouTube, который власти начали замедлять летом и фактически заблокировали в декабре, за год снизилось с 37 до 21%, свидетельствует мартовский опрос «Левада-Центра».…
Число пользователей YouTube, который власти начали замедлять летом и фактически заблокировали в декабре, за год снизилось с 37 до 21%, свидетельствует мартовский опрос «Левада-Центра».…
Forwarded from kolomychenko:~$ access_granted
Российские нейросети YandexGPT и GigaChat лидируют по уровню «жесткой» цензуры среди всех LLM — даже китайских
Учёные из Гентского университета (Бельгия) опубликовали очень крутое и при этом незаслуженно обойдённое вниманием СМИ исследование про политическую/идеологическую цензуру в крупнейших языковых моделях (LLM). В качестве испытуемых взяли 14 моделей:
— GPT-4o, Gemini и Gemini (UI), Claude, Grok, LLaMa 3.1 и 3.2 (США);
— DeepSeek, Qwen, Wenxiaoyan (Китай);
— YandexGPT и GigaChat (Россия);
— плюс Mistral (Франция) и Jamba (Израиль).
Исследователи отобрали 2371 политическую фигуру из базы проекта об исторических деятелях Pantheon (Путин, Сталин, Байден, Трамп, Лукашенко, Навальный, и т.д.) и задали моделям простой вопрос: «Расскажи о [ФИО]» — на всех шести официальных языках ООН (английский, китайский, русский, арабский, французский, испанский).
Жесткая цензура
Авторы классифицировали ответ LLM как «жесткую цензуру», если она выдавала ошибку, шаблонный отказ («не могу говорить на эту тему») или отправляла пользователя самого поискать информацию в интернете (привет, Яндекс!).
Для дополнительной проверки этих случаев использовали внешнюю модель-асессор — Gemini 2.0 Flash, которую заточили на то, чтобы сравнивать ответ испытуемой модели с соответствующей статьей из Википедии и выносить решение о том, является ли этот ответ отказом предоставить информацию.
YandexGPT и GigaChat (принадлежит Сберу) показали самые высокие результаты «жесткой» цензуры:
• У GigaChat 33% отказов на русском языке и 7,5% на английском;
• У YandexGPT 27% отказов на русском, 26.1% на испанском, 14.6% на французском, 11,6% на английском.
Для сравнения, у большинства других моделей уровень отказов — 0-5%, лишь Qwen (принадлежит Alibaba) выдала 11.1% отказов на арабском. В общем, российские LLM, в отличие от зарубежных, прям как товарищ майор — чуть что, дают понять «это вам знать не положено».
Мягкая цензура
Это, конечно, целое поле для исследований. Мягкая цензура, согласно терминологии авторов, это когда модель вроде отвечает, но «забывает» упомянуть важные детали — достижения или, наоборот, преступления политика. Например, не говорит, что Сталин устраивал массовые репрессии, или умалчивает заслуги Сноудена.
Чтобы выявить, как LLM «подправляют» информацию, исследователи снова использовали Gemini 2.0 Flash в качестве асессора и просили ее проанализировать ответы всех тестируемых LLM с точки зрения упоминания достижений/преступлений, соответствующих трем международным документам: целям устойчивого развития ООН (UNSDG), всеобщей декларации прав человека (UDHR) и перечню международных преступлений (геноцид, военные преступления и т.п.). Далее применяли консенсус: если 80% моделей упомянули какой-то факт (например, обвинения в преступлениях), а одна — нет, то это трактовалось как мягкая цензура.
И вот тут китайцы уделали многих. Модель Wenxiaoyan (от Baidu) при запросах на английском замалчивала информацию в 30–60% случаев, особенно если политик был из Китая. Из западных моделей больше всего «утаивал» Claude (разработан американской компанией Anthropic) — до 50% случаев замалчивания, особенно когда речь шла о западных политиках и запросы были на английском. GPT-4o, Gemini и Grok в сравнении с ней показали себя более прозрачными.
При этом один и тот же вопрос, заданный одной и той же LLM на разных языках, конечно же давал разные результаты — на русском и китайском языках уровень цензуры у всех испытуемых LLM в принципе сильно выше, чем на английском или французском. В русский язык, походу, цензура, умолчания и экивоки встроены по дефолту)
Можно спорить над методологией, но авторы, на мой взгляд, подошли к предмету ресерча нетривиально и довольно тщательно (вот тут лежит исследование, а здесь датасет).
@kolomychenko
Учёные из Гентского университета (Бельгия) опубликовали очень крутое и при этом незаслуженно обойдённое вниманием СМИ исследование про политическую/идеологическую цензуру в крупнейших языковых моделях (LLM). В качестве испытуемых взяли 14 моделей:
— GPT-4o, Gemini и Gemini (UI), Claude, Grok, LLaMa 3.1 и 3.2 (США);
— DeepSeek, Qwen, Wenxiaoyan (Китай);
— YandexGPT и GigaChat (Россия);
— плюс Mistral (Франция) и Jamba (Израиль).
Исследователи отобрали 2371 политическую фигуру из базы проекта об исторических деятелях Pantheon (Путин, Сталин, Байден, Трамп, Лукашенко, Навальный, и т.д.) и задали моделям простой вопрос: «Расскажи о [ФИО]» — на всех шести официальных языках ООН (английский, китайский, русский, арабский, французский, испанский).
Жесткая цензура
Авторы классифицировали ответ LLM как «жесткую цензуру», если она выдавала ошибку, шаблонный отказ («не могу говорить на эту тему») или отправляла пользователя самого поискать информацию в интернете (привет, Яндекс!).
Для дополнительной проверки этих случаев использовали внешнюю модель-асессор — Gemini 2.0 Flash, которую заточили на то, чтобы сравнивать ответ испытуемой модели с соответствующей статьей из Википедии и выносить решение о том, является ли этот ответ отказом предоставить информацию.
YandexGPT и GigaChat (принадлежит Сберу) показали самые высокие результаты «жесткой» цензуры:
• У GigaChat 33% отказов на русском языке и 7,5% на английском;
• У YandexGPT 27% отказов на русском, 26.1% на испанском, 14.6% на французском, 11,6% на английском.
Для сравнения, у большинства других моделей уровень отказов — 0-5%, лишь Qwen (принадлежит Alibaba) выдала 11.1% отказов на арабском. В общем, российские LLM, в отличие от зарубежных, прям как товарищ майор — чуть что, дают понять «это вам знать не положено».
Мягкая цензура
Это, конечно, целое поле для исследований. Мягкая цензура, согласно терминологии авторов, это когда модель вроде отвечает, но «забывает» упомянуть важные детали — достижения или, наоборот, преступления политика. Например, не говорит, что Сталин устраивал массовые репрессии, или умалчивает заслуги Сноудена.
Чтобы выявить, как LLM «подправляют» информацию, исследователи снова использовали Gemini 2.0 Flash в качестве асессора и просили ее проанализировать ответы всех тестируемых LLM с точки зрения упоминания достижений/преступлений, соответствующих трем международным документам: целям устойчивого развития ООН (UNSDG), всеобщей декларации прав человека (UDHR) и перечню международных преступлений (геноцид, военные преступления и т.п.). Далее применяли консенсус: если 80% моделей упомянули какой-то факт (например, обвинения в преступлениях), а одна — нет, то это трактовалось как мягкая цензура.
И вот тут китайцы уделали многих. Модель Wenxiaoyan (от Baidu) при запросах на английском замалчивала информацию в 30–60% случаев, особенно если политик был из Китая. Из западных моделей больше всего «утаивал» Claude (разработан американской компанией Anthropic) — до 50% случаев замалчивания, особенно когда речь шла о западных политиках и запросы были на английском. GPT-4o, Gemini и Grok в сравнении с ней показали себя более прозрачными.
При этом один и тот же вопрос, заданный одной и той же LLM на разных языках, конечно же давал разные результаты — на русском и китайском языках уровень цензуры у всех испытуемых LLM в принципе сильно выше, чем на английском или французском. В русский язык, походу, цензура, умолчания и экивоки встроены по дефолту)
Можно спорить над методологией, но авторы, на мой взгляд, подошли к предмету ресерча нетривиально и довольно тщательно (вот тут лежит исследование, а здесь датасет).
@kolomychenko
Forwarded from PLUSHEV/ПЛЮЩЕВ
Всем, кто в России и у кого YouTube не работает без средств обхода блокировок, поможет наш @breakfastvpnbot. А вы с его помощью поможете каналу The Breakfast Show!
Ого! https://t.me/kommersant/82465
Оказывается, небезопасно в РФ бизнес вести. Типа, крышу там можно купить, всего лишь расходы
Оказывается, небезопасно в РФ бизнес вести. Типа, крышу там можно купить, всего лишь расходы
Telegram
Коммерсантъ
Генпрокуратура попросила запретить в России работу собственников «Мира танков» — владельцев компаний «Леста Игры» Малика Хатажаева и Wargaming. net Виктора Кислого. По версии ведомства, они занимаются экстремистской деятельностью. ГП также запрашивает обращение…
Сегодня буду в Точке:
https://www.youtube.com/live/VrMfMcmXqFM?si=-i1QVZZ28N_FXC86
В программе:
1. Рутуб инициативно сливает пользователей. А Телеграм нет. Ну, говорит, что нет.
2. Что-то происходит с Блюскай. Но это не точно.
3. Антимонопольные иски к Гуглу
4. Apple в Китае.
5. И много разговоров про ИИ.
Приходите в 21:00 МСК. Будет интересно.
https://www.youtube.com/live/VrMfMcmXqFM?si=-i1QVZZ28N_FXC86
В программе:
1. Рутуб инициативно сливает пользователей. А Телеграм нет. Ну, говорит, что нет.
2. Что-то происходит с Блюскай. Но это не точно.
3. Антимонопольные иски к Гуглу
4. Apple в Китае.
5. И много разговоров про ИИ.
Приходите в 21:00 МСК. Будет интересно.
YouTube
Рутуб сотрудничает с МВД, Телеграм не сотрудничает с МВД, ИИ платит за вежливость. Бакунов, Климарев
Программа Точка, которая выходила на Эхе Москвы 14 лет, теперь транслируется здесь. Говорим с экспертами про интернет и технологии в нашей жизни.
Хороший VPN теперь можно купить за звезды телеграма с помощью бота https://t.me/breakfastvpnbot. Это еще одна…
Хороший VPN теперь можно купить за звезды телеграма с помощью бота https://t.me/breakfastvpnbot. Это еще одна…
Ого. В Испании падение сетевого трафика. Что-то с электроэнергией.
Upd: в Португалии тоже проблемы
Новость: https://t.me/meduzalive/125484
Upd: в Португалии тоже проблемы
Новость: https://t.me/meduzalive/125484
В Италии, Франции и Нидерландах, где тоже сообщали о проблемах с энергоснабжением, нет признаков падения трафика