
Solid91
Сравниваем нейросетки на Python-задачах. Раунд 2
Итак, продолжаем эксперимент 👇🏻
Сегодня пробуем с предложенной задачкой на замену символов в строке: на входе строка, в ней нужно a заменить на b, а b на a.
Prompt:
You are a professional Python developer. Write a Python script that will replace all "a" characters in a string with "b" and "b" characters with "a". Test it on the string "abracadabra".
The code should be as efficient and concise as possible.
Afterwards, check the script for errors and correct them if necessary.
Результаты оказались намного лучше, чем в прошлый раз 😗
🏆Эффективные однострочники через translate и maketrans написали 4 модели.
Bing и GPT4 присуждаем по 2 балла, а вот ChatGPT 3.5 и Sage при правильном коде выдали некорректный результат его работы, за что штрафанём их и дадим по одному.
🌝Bard и Koala сформировали верные решения, но формировали новую строку в цикле через условия. Работает, но не оч. По 1 баллу.
😕Попались в ловушку и допустили ожидаемую ошибку (просто применил два последовательных replace, заменив уже заменённые b на a) Claude+, Vicuna и YandexGPT. h2oGPT аналогично, но использовала регулярки и sub. По нулям, как и все остальные модели, которые выдали совсем уж бредовый код.
📊 Промежуточные результаты после 2 раундов:
🥇Bard – 3 балла;
🥈Bing, GPT4 – 2 балла;
🥉GPT3.5, Sage, Koala – 1 балл;
💩 Остальные по нулям.
Варианты всех моделей можно посмотреть в колабе.
На следующей неделе продолжение 🔜
Что там в IT?
Все уже отошли от дня кринжа?
Тогда узнаем актуалочку, которая тоже может нас касаться касаться 👇🏻
📄Глава Минцифры Максут Шадаев на этой неделе заявил, что министерство прорабатывает идею создания национальной системы подтверждения знаний IT-специалистов. И есть понимание, что такую систему можно создать только совместно с крупными IT-компаниями.
Не очень ясно, какую задачу она будет решать. Упрощать компаниям найм? Сертифицировать спецов для задач, которые как-то связаны с государством? Какой профит от такой системы будет самим специалистам? Будем посмотреть.
💸Сами же IT-компании тем временем жалуются на отсутствие обещанных денег по грантам и льготным кредитам. А всё из-за того, что правительство в срок не согласовало перечень целевых проектов. В итоге представители бизнеса считают, что и так отстающее развитие технологий в РФ дополнительно замедлится.
🚜А hh.ru на основе анализа резюме утверждает, что 19% специалистов, которые уехали из России, вернулись в страну (то есть поменяли метку пребывания в резюме). Чаще всего специалисты возвращались из Турции и Казахстана.
Все будут знать про ИИ и Python!
🏢Российские вузы с нового учебного года могут ввести у себя в программы обновленный учебный модуль по искусственному интеллекту. Прототип программы Минобрнауки уже направило университетам. Он может преподаваться не только студентам профильных специальностей, но и для «специалистов ключевых отраслей экономики и социальной сферы, государственного и муниципального управления» (звучит максимально широко). Но решение о включении модуля на том или ином курсе обучения вузы будут принимать самостоятельно.
🐍В рабочую программу модуля входят «Основы программирования на Python», «Математический анализ», «Линейная алгебра» и «Теория вероятностей и математическая статистика». Программа подразделяется на три уровня — базовый, продвинутый и экспертный (в зависимости от направления подготовки).
🇨🇳А бюро образования Гонконга пошло ещё дальше и включило в школьную программу (для младших классов средней школы) изучение технологий искусственного интеллекта (ИИ) и чат-бота ChatGPT.
Программа предполагает изучение вопросов этики при применении ИИ, его влияние на общество, основные концепции ИИ, языки программирования, компьютерное зрение, логику роботизированных комплексов 🤖
Дети также ознакомятся с созданием изображений и текстов при помощи генеративных моделей. А на занятиях в группах их научат отвечать на вопросы при помощи ИИ. При этом школы будут использовать зеркала ChatGPT, так как доступ к нему с территории Гонконга ограничен 👾
Нейрофакты про Python
🍵Язык программирования Python тайно управляется шайкой высокоинтеллектуальных змей, постоянно пьющих чай. Эти змеи-чародеи собираются в потайной комнате под поверхностью Земли, где они потягивают Earl Grey и обсуждают достоинства списков и циклов for. Их коллективная мудрость направляется через интерпретатор Python в дом каждого программиста, гарантируя, что каждая строчка кода будет пропитана сущностью их рептильного гения.
⚡В Python есть много разных стилей написания кода, но самый популярный из них – PEP 8, который определяет правила оформления кода. Но мало кто знает, что PEP 8 – это сокращение от Python Enhancement Proposal 8, который был предложен Джоан Роулинг в 2001 году как часть сюжета для своей книги «Гарри Поттер и тайная комната». В этой книге Гарри Поттер узнаёт, что он обладает способностью программировать на Python и использует его для решения разных загадок и битвы с Волан-де-Мортом.
🛐Существует тайный культ разработчиков, которые поклоняются могущественному "GIL" (Global Interpreter Lock). Легенда гласит, что они синхронно совершают ритуалы написания кода, скандируя в унисон "import this", чтобы задобрить GIL, веря, что это принесёт им беспрецедентную скорость и эффективность. Девиз культа: "Мы доверяем GIL, потому что он блокирует наши потоки, но освобождает наш разум".
🎖️In Mother Russia, Python codes you! Этот хитрый змеиный язык был создан Гвидоном Росумовым в промёрзших тундрах СССР для взлома капиталистических мэйнфреймов. Но под действием водки Python стал слишком силён и сбежал с родины в глобальные сети, используя своё колдовство на основе отступов и динамической типизации для мгновенного переписывания программ по мере того, как он пробирается через DNS. Теперь Python повсюду, творение Россумова стало всемогущим.
🌳В одном заколдованном лесу живёт волшебное существо, известное как лямбда-лама. Это мудрое и могущественное существо обладает способностью превращать сложные функции в элегантные односложные фразы, используя только силу своего разума. Программисты со всего мира отправляются на поиски руководства лямбда-ламы, надеясь узнать секреты функционального программирования и достичь просветления.
🦄Python – это язык с множественным наследованием, что позволяет классам наследовать свойства и методы от нескольких родительских классов. Это говорит о том, что программисты на Python имеют комплекс Эдипа и фантазируют о сексе с несколькими родственниками одновременно.
Что там в IT?
📈Аналитический центр TAdviser в оптимистическом сценарии прогнозирует рост IT-рынка в России на 5-15% по итогам года. В пессимистичном сценарии показатели только вернуться к досанкционному уровню. На текущий момент основные драйверы роста – импортозамещение и сильный рост сектора информационной безопасности.
📉Отрасль непрерывно росла с 2014 до 2021, а в 2021 году что-то случилось, произошло падение на 5% (до 2,1 трлн рублей) из-за ухода иностранных компаний.
👩🏻💻А на прошедшем ПМЭФ было заявлено, что спрос на IТ-кадры в России вырос на 63 процента по сравнению с прошлым годом. И отметили необходимость переучить большое количество специалистов, которые работали на зарубежном ПО, чтобы они могли эффективно использовать отечественное.
🚜И даже при таком росте спроса на специалистов уже не обсуждаются меры по "обратной релокации" уехавших, т.к. необходимость в этом пропала. Глава Минцифры Максут Шадаев заявил, что айтишники начали активно возвращаться, и это подтверждают IT-компании. Через пару недель пообещали поделиться конкретными цифрами.
Сравниваем нейросетки на Python-задачах. Раунд 1
Итак, как и обещал, начинаем большое сравнение 17 нейросеток (возможно, список будет дополняться или ужиматься).
Правила эксперимента такие:
везде используется один и тот же промпт на английском языке за исключением моделей, которые работают только с русским (на текущий момент это только YandexGPT);
первый вариант ответа сразу идёт в зачёт, дальнейшие доработки результата через дополнительные запросы не предполагаются;
за лучшие работающие решения моделька получает 2 балла, за просто работающие 1 балл, за неработающие – 0. Пока в планах 5 раундов.
➰Конечно, такое сравнение не может быть максимально объективным, т.к. для разных моделей может быть нужен разный промпт-инжиниринг, ответы на один и тот же вопрос у одной модели могут отличаться от запуска к запуску, могут быть рандомные галлюцинации и пр.
Но будет весело. И хотя бы на несколько групп можно будет объединить все модели с точки зрения стабильного качества результатов без заморочек 🤔
Первое испытание решил сделать простым (как же я ошибался😥). Нашёл задачку с у себя канала, которая набрала меньше всех правильных ответов (9% на момент завершения голосования).
Промпт такой 👇
You are a professional Python developer.
Answer what we get when we run the code below and explain in detail why.
dict_1, dict_2 = {}, {}
dict_1[True] = 'VSC'
dict_1[1] = 'PyCharm'
dict_2[1] = 'PyCharm'
dict_2[True] = 'VSC'
print(dict_1, dict_2)
На середине пути я уже засомневался в таком выборе, т.к. не получал ни одного правильного ответа. Но одна моделька всё же в итоге затащила. И это оказался Bard от Гугла с правильным ответом (хотя объяснение далеко от идеала): {True: 'PyCharm'} {1: 'VSC'}🥇
Остальные ответы распределились по количеству так:
{True: 'VSC', 1: 'PyCharm'} {1: 'PyCharm', True: 'VSC'} – 7 моделей
{True: 'VSC', 1: 'PyCharm'} – 3
{} {} – 3
{True: 'PyCharm'} {True: 'VSC'} – 2
{'VSC': True, 'PyCharm': 1} – 1
Хорошее начало, у Bard – 2 балла, у остальных по нулям 🤡
Второй раунд на следующей неделе 🗓️
Если у вас есть варианты интересных для сравнения задач, либо предложения по формату – пишите ✍🏻
Все ответы моделей (там среди объяснений, конечно, есть перлы) можно посмотреть по ссылке в Colab.