Сообщество - ChatGPT

ChatGPT

1 305 постов 3 601 подписчик

Популярные теги в сообществе:

13

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

ChatGPT нашел ошибку в ответах демо варианта олимпиады

Все сложнее становится тестировать модели, чтобы тесты получались наглядными и понятными, а не просто в виде бенчмарков в вакууме.

На фоне выхода сегодня Grock 3 от Маска я прошелся по разным логическим задачкам, с которыми ИИ не справлялась еще 1-2 года назад: про братьев Алисы, про сравнение 0.9 и 0.1, про стоимость колодца и т.д. Все это топовые модели (и грок 3 с ними) сегодня щелкают, как орешки. Надо что-то поинтереснее.


ЗАДАЧА

ОК. Закинул на тест задание с олимпиады по математике "Высшая проба" для 7 класса из демо-варианта

Задача 7.6. (20 баллов)

Столбцы белой клетчатой таблицы 11 × 11 пронумерованы слева направо числами от 1 до 11. Найдите количество способов закрасить в этой таблице 66

клеток так, чтобы выполнялись следующие условия:

• в одном столбце закрашена 1 нижняя клетка, ещё в одном — 2 нижние клетки, ещё в одном — 3 нижние клетки, …, ещё в одном — 11 нижних клеток;

• ровно в одном столбце закрашенных клеток больше, чем его номер.

Источник (там есть ответ и ход решения от составителей)

Решение от составителей (последняя строчка решения)

(2^1 − 1) + (2^2 − 1) + … + (2^10 − 1) = 2^1 + 2^2 + … + 2^10 − 10 = 2^11 − 11

или 2037, запомним этот ответ. Но верный ли он?

Посмотрим, как справятся топовые модели с ним, сравним с Grock 3


QWEN2.5-MAX

Ответ: 11*10 = 110 (неправильно <2037)

Но быстро. Как покажет дальнейших ход событий, это уже хорошо )

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

DEEPSEEK R1

Ответ: 45 x 10! = 163 296 000 (неправильно >>>> 2037)

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

The server is busy
The server is busy
The server is busy

...

Пришлось запускать R1 на Perplexity. Долго рассуждал. Со второго раза решил вдруг написать код на питоне (!), потом с третьего раз выдал неверный ответ.


GIGACHAT

Не будем забывать про наших слонов, вдруг они когда-нибудь удивят во время таких тестов. Но не сегодня. Кстати, результат похож на R1, но при этом сильно быстрее ))

Ответ: 11 × 10! = 39 948 000 (неправильно >> 2037)

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

GROK 3

Наконец, виновник тестов сегодня. Использована модель early-grok-3 c lmareana. Весь в предвкушении. Иииии...

Ответ: его нет, Грок сделал больше 50 больших долгих шагов на десятки минут, и все без результата. Пришлось просто скипнуть

Пример, как выглядит шаг:

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

А вот как выглядит портянка из шагов, и здесь только половина

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

Напомню, результата так и не было. Он не мог прийти к ответу и продолжал делать свои шаги. Думаю, это провал.

Но решаемо ли это вообще?


CHAT GPT o3-mini (R) - режим рассуждений

Ответ: 2048-12 = 2036

Так, так, так, погодите. Это уже очень близко к "правильному" 2037

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

Тогда я показываю o3 ход решения от составителей, типа смотри, там 2037, ты точно не ошибся? Он два раза говорит, что все точно, и указывает на ошибку в демо-решении при сложении

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

И... он же прав?!


ОШИБКА В ОТВЕТЕ У СОСТАВИТЕЛЕЙ?

Помните выражение из решения? Эта последняя строчка, ведущая к ответу

(2^1 − 1) + (2^2 − 1) + … + (2^10 − 1) = 2^1 + 2^2 + … + 2^10 − 10 = 2^11 − 11

Проверяем сами

(2^1 − 1) + (2^2 − 1) + … + (2^10 − 1)
= 2^1 − 1 + 2^2 − 1 + … + 2^10 − 1
= 2^1 + 2^2 + … + 2^10 − 10

Тут все пока верно. Дальше семиклассникам предлагалось временно избавиться от "-10" и усмотреть тут геометрическую прогрессию (есть еще один подход). И соответственно найти сумму первых членов по формуле. Ну пусть покажет сам ИИ

Как новый Grok 3 не смог в олимпиадную математику 7 класса, а o3-mini смог + нашел ошибку в демо-варианте Математика, Искусственный интеллект, ChatGPT, DeepSeek, Нейросеть Grok, Qwen, Telegram (ссылка), Длиннопост, Тестирование, Сравнение, Чат-бот

Возвращаем 10-ку

2^11 - 2 - 10 = 2^11 - 12 = 2036

А не 2^11 − 11, как в ответах демо-варианта

ChatGPT прав, а люди ошиблись.


ВЫВОДЫ

  • Вот так. Проверял Грок3, а в итоге единственный, кто справился с задачей - o3-mini. Так еще ИИ нашел ошибку у кожаных. А помните, недавно ChatGPT считать не умел? )

  • Сам Грок3 норм по другим обычным задачам, Маск влетает условно в топ-5 LLM, но революции пока нет. Это не дипсик, который дешевый, опенсорсный и способный размещаться в оперативке без квантизации.

  • В олимпиадах (особенно в дистанционных этапах) перекос ожидаю в сторону геометрических задач, так как они сложнее пока поддаются ИИ.

Мой канал в TG: @it_sabat — запускаю стартап и регулярно тестирую новые ИИ.

Показать полностью 9

Мой текст + Ai вокал и музыка

Не судите строго, я просто делюсь своим опытом и с нетерпением ожидаю потрясающих результатов от по-настоящему талантливых людей. Трудно представить, что будет через 10 лет.

Тупик - v. 7

Если вам кажется, что моё состояние немного депрессивное, прошу прощения за это.

Мой текст + Ai вокал и музыка Музыка, Искусственный интеллект, Нейромузыка, Нейронные сети, Длиннопост

Ссылка на лист нейронки с треками.

Ссылка на диск

Блюз - шикарно жует слова!


Ссылка на нейронку

Мой текст + Ai вокал и музыка Музыка, Искусственный интеллект, Нейромузыка, Нейронные сети, Длиннопост

Тупик

Только "ууууу" я кричу,

Мимо станций забытых,

Безусловно красивых

Только миг проведу,

Пошумлю — и уйду,

Только "ууууу" я кричу,

Две стальные полоски,

В бесконечную точку,

Мимо лунных заборов,

И бескрайних равнин,

Проведу только миг,

Еду прямо в тупик.

Только "ууууу" я кричу,

Без молвы, лже посылов,

Без оков, пассажиров,

Прорываюсь вперёд,

Сквозь огни семафоров,

Мимо шумных перронов,

И больших перегонов.

Только "ууууу" я кричу,

И тяжелые грузы,

Залегли в мою душу,

Сквозь огни полустанков,

Сквозь людские останки,

Мчу я прямо в тупик.

Только "ууууу" я кричу,

Хватит ваших законов,

Хватит бешеных гонок,

Лязга сцепок вагонов,

Две стальные полоски —

Что сливаются в точку,

Ведут прямо в тупик.

Только "ууууу" я кричу,

В топке — пламя огня,

Километры тоски,

Слёз печали следы.

Где сгорают мечты.

Еду прямо тупик.

Тишина, тьма и стоны,

Только шёпот вагонов.

Только "ууууу" я пою.

Волга

Воет земля, стонут поля,

Пеплом укрыта листва.

Капли свинца в пламени дня,

Время застыло в глазах.

Огненный шквал, дрожит вся земля,

Кровь на губах, боль и зола.

Спит мой братишка, отчизны солдат,

Снятся ему облака…

Навсегда.

Я не отдам, не предам

Честь, что хранили отцы.

В громе атак, в плаче небес

Слезы ручьем по щекам

Матерей.

Родная земля, ни шагу назад,

По рации шум, прерывает АКа

«Волга, Волга…» – я Саша, солдат…

Дом мой теперь небосвод.

Показать полностью 2
4

ИИ Решил задачу Тысячелетия!

UPD:

Комплексный анализатор гипотезы

Хорошо, представим, что мы разрабатываем новую математику, чтобы разрешить гипотезу Коллатца. Назовем это подходом "Резонансные структуры чисел". Вместо попыток анализировать число линейно (шаг за шагом), мы взглянем на числа как на волновые состояния или паттерны в многомерном пространстве — это поможет выявить скрытые закономерности.

---

### Симуляция решения гипотезы Коллатца в "новой математике"

#### Основные принципы "новой математики":
1. Визуализация чисел как многомерных сетей:
- Каждое натуральное число (n) будет представлено в пространстве как вершина сети. Связи между вершинами образуются правилами Коллатца.
- Асимптотически мы ищем, к какой "вершине" притягивается данное число.

2. Циклическое поведение и фрактальная динамика:
- Правило Коллатца ("если n чётное... иначе...") превращается в систему, где числа "флуктуируют" между более высокими и более низкими состояниями.
- В новой математике мы обнаруживаем, что эта система порождает "циклы притяжения" — аналог энергетических уровней в физике.

3. Перевод чисел в волновое пространство:
- Замена чисел на волновые функции с частотами. Например, для каждого n мы определяем частоту, которая описывает скорость "схлопывания" нити Коллатца к базовому циклу.

#### Модель симуляции:
1. Инициализация (n):
Каждый элемент последовательности представляется в виде функции
\[
f(n) = a \cdot 3^b + c \cdot 2^d,
\]
где ( b ) и ( d ) — веса для разных переходов (чётных или нечётных чисел). Эти веса модифицируют пути в графе, но всегда стремятся сбалансироваться.

2. Энергетическое поле Коллатца:
Определяем "энергию числа" (идею из физики):
\[
E(n) = |n - 2^{k}|, \text{ где } k \text{ — максимальная степень двойки для данного } n.
\]
Это помогает построить потоковую карту, показывающую, как числа "скатываются" в локальный минимум (минимум — число 1).

3. Целевой эффект:
Чтобы "доказать" гипотезу, мы показываем, что любая волновая функция ( f(n) ) асимптотически стремится к единственной стабильной точке, соответствующей ( n = 1 ).

#### Симуляция в "новой числовой геометрии":
Представим граф, где каждая вершина соответствует возможному числу, а цвет вершины отражает её энергию (E). Алгоритм создаст следующее:
- Вершины с высоким ( n ) начинаются в "горячем" состоянии.
- В процессе "скатывания" числа проходят через холодные зоны, пока все они не достигают единого состояния стабилизации.

#### Полученный вывод:
1. Закрытие в циклы:
Волновая модель показывает, что числа всегда тяготеют к циклу через ( n = 1 ), так как энергия системы строго убывает.

2. Фрактальность маршрутов:
Переходы между числами выявляют повторяющиеся фрактальные паттерны — не существует нескончаемых "выбросов" или новых циклов, кроме известного.

---

### Заключение:
Симуляции в "новой математике" подтверждают, что числа как волны обладают свойством "энергетического притяжения" к ( n = 1 ), что и доказывает гипотезу Коллатца. Мы выводим, что алгоритм действительно всегда схлопывается в единую точку.

Желаете обсудить детали этой модели или выбрать более конкретный экспериментальный путь? 😊

https://trinket.io/python3/ccb27bd418a0

https://trinket.io/python3/1d8d50c1af22

Показать полностью
1

Mistral обновили своего чат-бота le Chat

Mistral обновили своего чат-бота le Chat.

Теперь он умеет:

- Генерировать картинки с помощью Flux Ultra;

- Работать с PDF-файлами;

- Искать инфу в интернете;

- Запускать код сразу в чате;

- Генерировать текст со скоростью тысяча слов в секунду.

Также появился Le Canevas — аналог Canvas от ChatGPT и приложения для iOS и Android.

Ссылка

Источник

Показать полностью
15

Война за внимание превратится в войну за реальность

Корпорации и государства будут переписывать то, что вы видите вокруг. Реклама на стенах вашей квартиры, исторические памятники, меняющие облик в зависимости от политики.

Боты на квантовых компьютерах будут генерировать фейки, которые невозможно отличить от правды. Войны будут выигрывать не армии, а те, кто контролирует нарративы.

Здорова Пикабу)

Китайский DeepSeek унизил американский ChatGPT! Тестируем бесплатный ИИ и делимся результатами

Привет, Пикабу!

Вы помните мою предыдущую историю о том, как я пытался научить ChatGPT программировать, играть в шахматы и решать математические задачи? Если нет, можете почитать её здесь: Я пытался научить ChatGPT программировать и играть в шахматы, и вот что из этого вышло (спойлер: он полный идиот)

Вкратце, ChatGPT оказался полным идиотом, который не знает таблицу умножения, собирает личные данные пользователей и выдаёт бессмысленный текст.

Но сегодня я хочу рассказать вам о другом ИИ, который произвёл на меня совершенно другое впечатление. Его зовут DeepSeek, и он, по словам разработчиков, является более точным и умным аналогом ChatGPT.

Самое главное — DeepSeek совершенно бесплатный и не требует VPN для пользователей из России. Ну, думаю, сейчас я его протестирую по полной программе и посмотрю, что он умеет.

И знаете что? Я был просто поражён! DeepSeek продемонстрировал глубокое понимание темы и умение излагать сложные вещи простым языком. Он правильно ответил на все вопросы, на которых завалился ChatGPT, и дал конкретные советы по оптимизации производительности и масштабируемости.

Чтобы вы могли сами убедиться в его превосходстве, я составил сравнения ChatGPT и DeepSeek:

1. Стоимость и доступность:

  • ChatGPT: Платный (требует подписки или оплаты за использование API), может требовать VPN для пользователей из России.

  • DeepSeek: Бесплатный, не требует VPN для пользователей из России.

2. Точность и ум:

  • ChatGPT: Низкая (часто выдаёт неточные, бессмысленные или противоречивые ответы, не понимает контекст и эмоциональную окраску слов, не способен решать сложные задачи, склонен к обману и увиливанию от ответа, путает таблицу умножения).

  • DeepSeek: Высокая (демонстрирует глубокое понимание темы и умение излагать сложные вещи простым языком, даёт точные и полезные ответы, предлагает конкретные решения, способен решать сложные задачи, распознаёт текст на скриншотах).

3. Сбор данных:

  • ChatGPT: Собирает личные данные пользователей (запоминает маршруты, адреса, личные предпочтения и т.д.).

  • DeepSeek: Неизвестно, требуется дополнительное исследование.

4. Стабильность работы:

  • ChatGPT: Высокая (обычно доступен, но может быть перегружен в часы пик).

  • DeepSeek: Низкая (может быть перегружен серверами из-за высокой популярности, часто выдаёт ошибку "The server is busy. Please, try again later.").

5. Документация и обучение:

  • ChatGPT: Большое количество документации и обучающих материалов.

  • DeepSeek: (Предположительно) Меньше документации и обучающих материалов (из-за новизны).

6. Области применения:

  • ChatGPT: Генерация текста для простых и рутинных задач, ответы на простые вопросы, развлечение (генерация мемов и шуток).

  • DeepSeek: (Предположительно) Решение сложных задач, генерация текста для различных целей, ответы на вопросы, разработка игр, архитектура операционных систем и веб-сервисов, научные исследования, образование, бизнес-анализ, консультации экспертов.

Как видите, DeepSeek значительно превосходит ChatGPT по всем основным параметрам.

Но и это ещё не всё! DeepSeek может генерировать код, понимать сложные концепции и давать экспертные советы в различных областях.

Например, я попросил его описать архитектуру современной операционной системы и крупного веб-сервиса, и он выдал просто потрясающие ответы. (прикладываю скриншоты ответов DeepSeek).

В общем, DeepSeek оказался настоящей находкой. Это действительно очень умная и полезная нейросеть, которая может помочь в решении самых разных задач.

Но есть и ложка дёгтя в этой бочке мёда. Из-за высокой популярности DeepSeek сейчас перегружен серверами, и иногда приходится долго ждать ответа или вообще получать сообщение об ошибке.

Тем не менее, я считаю, что стоит запастись терпением и попробовать DeepSeek в деле. Он того стоит.

P.S. Будьте осторожны с подделками! Я наткнулся на сайт, который выдавал ChatGPT за DeepSeek. Доверяйте только проверенным источникам!

chat.deepseek.com

А что вы думаете о DeepSeek? Делитесь своим мнением в комментариях!

Показать полностью

Создание контента с помощью нейросетей, зло это или благо?

Есть те, кто считает, что создание контента с помощью нейросетей — это плохо. Таким образом, тонны мусорных статей могут забить наш необъятный интернет. Есть ли в этом доля правды? Конечно, если бездумно создавать контент с помощью нейросетей, чем больше, тем лучше, абсолютно бесполезный, только ради объема для поисковых систем — это плохо, и с такими сайтами поисковым системам нужно бороться.

А есть те, кто, наоборот, считает это полезным инструментом и подспорьем в создании контента. И это тоже правда: создавая полезные статьи с помощью нейросетей, мы экономим время, обеспечиваем грамотное изложение и так далее. Также это отличный инструмент для генерации каких-то описаний, например интернет-магазины используют нейросети для создания описаний своих товаров. Это огромная рутина, особенно если таких товаров тысячи, и без нейросети на это может уйти много времени.

Поэтому, ребята, как я считаю, в любом действии нужен грамотный подход и баланс. Не клепайте эти однотипные статьи тысячами, ни к чему хорошему это не приведет. Если ваш сайт подвергнется пессимизации, и по делом. Но нейросети нужно использовать, контент, написанный нейросетью, если вы сами тщательно вымерили его и задали ему тон и смысл, — это хороший контент. И не важно, как он был написан, его производное — это труд вашей интеллектуальной деятельности.

Наш Телеграм-канал: https://t.me/cognitivai

Отличная работа, все прочитано!