Распределенные вычисления: истории из жизни, советы, новости, юмор и картинки — Горячее

5 месяцев назад

Технологии: "Искусственный интеллект" как обучают нейронные сети. Часть Вторая⁠⁠

Насколько эффективнее тензорные процессоры в сравнении с теми же CPU или GPU?

Сравнивать можно на разных моделях, оценивать производительность в зависимости от формата и размера выборки. В случае с облачными решениями немаловажен такой критерий, как стоимость на операцию. Например, Cloud TPU может обрабатывать меньше изображений в час по сравнению с теми же ускорителями Nvidia, но при этом цена за час использования будет ниже за счет меньшего энергопотребления.

Новейшие центры обработки данных Google на базе TPU v5e способны работать с моделями вплоть до двух триллионов параметров. Для сравнения, языковая модель GPT-3 имеет 175 миллиардов параметров.

Можно уверенно сказать, что тензорные процессоры от Google предлагают передовые и местами наиболее эффективные решения в области машинного обучения за счет особенностей архитектуры. С другой стороны, облачные решения от Nvidia на базе Tesla более распространенные и универсальные.

Пользовательские нейронные ускорители

Главная проблема тензорных процессоров от Google — это фирменная разработка на облаке, так что получить к ней доступ большинству пользователей может быть проблематично. В случае с Nvidia вы можете купить топовую видеокарту уровня RTX 3090/4090 или PCI-E ускоритель Tesla для работы с нейросетями «на дому».

Однако в последние годы появилась альтернатива — нейронные ускорители TPU в виде PCI-E карт или отдельных мини-серверов. Возможности именно тренировки нейросетей у них ограничены, а зачастую такие платы и вовсе не предназначены для этого. Однако в задаче выполнения нейросети (Inference) такие решения могут стать выгоднее покупки дорогостоящих GPU.

Google в 2018 году выпустила чип Edge TPU, который устанавливался ни мини-ПК, платы с mini PCI-E и M.2. С его помощью можно локально на своем компьютере ускорять выполнение или простейшее обучение нейронных сетей, заявленная производительность в INT8 — 4 TOPS.

На базе Edge TPU вышла полноценная PCI-E карта Mustang-T100-T5 на пять процессоров Google Coral Edge TPU (суммарно 20 TOPS) с энергопотреблением всего 15 Вт.

Китайский производитель предлагает целую линейку микро-серверов на базе процессоров SOPHON BM1684 и CV186AH. Модули нацелены на такие сферы применения, как структурирование видео, распознавание лиц, анализ поведения и мониторинг статуса. То есть преимущественно задачи компьютерного зрения.

Для ПК и рабочих станций имеются PCI-E карты, ориентированные на машинное обучение в области компьютерного зрения.

Разработчики из SOPHON также приводят сравнение с ускорителями Huawei Atlas 300, Nvidia Tesla T4 и P4.

Эти платы заточены под видеоаналитику, поэтому в сравнении с теми же GPU обойдутся дешевле для решения конкретно этой задачи.

Компания Intel также ведет разработку узкоспециализированных чипов, ориентированных на машинное обучение. Среди них — Intel Movidius Myriad и Arria. Эти платы также ориентированы на машинное зрение, поэтому получили название VPU — Vision Processing Unit.

Они также могут пригодиться в автоматизированных системах контроля качества на производстве, системах машинного зрения и не только.

Заключение

Нейронные ускорители — это специализированные платы, предназначенные для машинного обучения или выполнения моделей нейронных сетей. Десктопные и профессиональные GPU вполне могут использоваться для работы с ИИ. Однако параллельно ведется разработка и внедрение еще более узкоспециализированных решений. У Google это Tensor Processing Unit (TPU) — платы, предлагающие минимальное энергопотребление и возможность быстрой тренировки/выполнения по относительно доступной цене. В области пользовательских плат также есть TPU и VPU, которые ориентированы преимущественно на выполнение нейросетевых моделей. Они часто имеют меньшее энергопотребление и более доступный ценник в сравнении с топовыми GPU под ИИ.

Показать полностью 12

TechSavvyZone

5 месяцев назад

Технологии: "Искусственный интеллект" как обучают нейронные сети⁠⁠

Мы переживаем самый настоящий бум ИИ — чат-боты, нейросети для рисования, продвинутые системы распознавания и не только. Однако для работы с ИИ нужны соответствующие вычислительные мощности. Для этого могут использоваться в том числе нейронные ускорители. Что это за устройства, каковы их особенности и возможности?

Немного про обучение нейросетей

Для начала стоит понять, как именно происходит машинное обучение и почему для этого не подойдет любая вычислительная техника.

Если очень упростить, то нейросетевые операции используют буквально два основных действия — это умножение и сложение. Например, для распознавания каких-либо визуальных образов необходимо предоставить набор изображений и коэффициенты (веса), по которым мы будем искать конкретные признаки. Путем перемножения этих коэффициентов на анализируемое изображение нейросеть получает определенное значение. И если оно больше порогового, то она выдает результат. Например, что перед нами определенная цифра или объект.

Главная проблема в том, что количество этих коэффициентов невероятно больше. Например, нейросеть из 10 нейронов, способная распознавать изображения 28 на 28 пикселей, требует 784 коэффициента для каждого слоя — итого 7840 весов.

Как именно обрабатывать все эти вычисления? На первый взгляд, кажется логичным использовать центральный процессор (CPU). Однако он имеет одно существенное ограничение — низкий параллелизм. В архитектуре фон Неймана арифметико-логическое устройство (АЛУ) выполняет операции последовательно, каждый раз обращаясь к памяти. Да, в процессоре может быть множество ядер и АЛУ, но даже серверные модели предлагают в среднем не больше 64 ядер.

Центральный процессор может похвастаться высокой гибкостью — на нем можно запускать самые разные задачи и ПО. Однако для машинного обучения его архитектура подходит несильно, поскольку процесс требует выполнения множества однотипных задач сложения и умножения.

Куда большим уровнем параллелизма обладают видеокарты — GPU. Современная видеокарта способна выводить за раз 8 294 400 пикселей для разрешения 4K. И так 60 раз в секунду или даже чаще. Все это стало возможным исключительно благодаря многоядерной структуре. В GPU используются тысячи ядер, что и позволяет выполнять параллельную обработку большого объема данных.

Эти вычисления выполняют так называемые CUDA-ядра. Чем их больше, тем выше производительность видеокарты и тем лучше она справляется с высокими разрешениями.

С совершенствованием архитектуры появились так называемые «тензорные ядра». Проще говоря, это вычислительный блок, который способен перемножать сразу целые матрицы.

Предположим, вам необходимо перемножить матрицу А на B:

Расписав все это на шаги умножения и сложения, мы получим вот такой немаленький набор однотипных действий:

Ядро CUDA за один такт может выполнить простейшую операцию вроде 1 x 1. То есть для подсчета всей матрицы нам потребуется множество ядер и несколько тактов. Тензорные ядра работают сразу с матрицами и способны получить результат за один такт. Они как нельзя лучше подходят для машинного обучения.

Зачем в принципе нужны тензорные ядра в видеокартах? Ответ кроется в технологии DLSS (Deep Learning Super Samplin). Это метод масштабирования, использующий возможности нейронных сетей, для которого как раз и нужны тем самые тензорные ядра. Не забывайте, что изображение — это фактически та же самая матрица.

Именно за счет CUDA и тензорных ядер высокопроизводительные десктопные видеокарты вполне можно использовать для тренировки и запуска нейросетей.

Если говорить о сугубо профессиональных решениях, то Nvidia пошла еще дальше, создав специализированные ускорители в том числе для обучения ИИ. Например, линейка устройств Tesla.

Архитектура этих устройств уже учитывает специфику задачи, а также такие платы имеют больший объем видеопамяти и шину по сравнению с десктопными.

Все это дает ощутимый прирост в производительности конкретно под CNN (сверточные нейросети) и трансформеры (глубокие нейронные сети).

Несмотря на главенствующую позицию Nvidia, ее GPU-ускорители являются не единственным решением для обучения и выполнения нейросетей.

Тензорные процессоры Google

Платы Tesla от Nvidia хоть и считаются узкоспециализированными GPU, но все еще относительно универсальные — с их помощью можно вести моделирование погоды, анализ финансового риска и различные научные исследования. С началом активного развития ИИ специалисты задумались: а что, если спроектировать устройство исключительно для работы с машинным обучением. Так появилось понятие TPU — Tensor Processing Unit, а первые наработки представила Google в 2016 году.

Работа с нейросетями обычно включает два основных этапа — обучение и выполнение. Первый процесс самый трудоемкий, поскольку требует множества вычислительных операций с плавающей точкой. Однако для выполнения уже обученной нейронной сети (распознавание объектов, задачи сортировки и поиска) не требуется высокая точность, в приоритете выполнение большого объема операций умножения и сложения. И вот здесь специализированные тензорные процессоры показали свои возможности.

Модель TPU v1 имела довольно скромные характеристики — 28 МБ встроенной памяти и ОЗУ 8 ГБ DDR3. Устройство было ориентировано на работу с фирменной математической библиотекой TensorFlow от Google. Внутреннее применение тензорного процессора показало, что плата более энергоэффективная — производительность на ватт в 25-80 раз больше по сравнению с GPU и CPU. Сравнивали разработку с актуальными на то время Intel Haswell Xeon E5 2699 v3 и NVIDIA K80. Тестировали на примере сверточных (CNN), рекуррентных (RNN) и многослойных нейросетей.

Уже в 2017 году был представлен TPU v2, а дальше — TPU v3, TPU v4 и TPU v5e. Новейший Cloud TPU v5p имеет 95 ГБ памяти HBM3 и производительность в BF16 — 459 Тфлопс.

Ключевой особенностью TPU стала ориентация на обработку матриц. Инженеры сделали упор на множители и сумматоры, откинув все лишнее и сформировав архитектуру конвейерного массива. Например, TPU v2 (4 чипа) использует два конвейерных массива по 128 х 128, что в сумме дает 32 768 ALU. Производительность всего блока уже выросла до 180 TFLOPS. Это позволило не только выполнять обученные нейросети, но и тренировать их с нуля.

Например, один Cloud TPU (8 ядер и 64 ГБ ОЗУ) более чем в 5 раз быстрее Nvidia V100. Эти результаты получены по количеству обрабатываемых изображений в секунду на оптимизированных под TPU моделях.

В TPU v3 увеличили число доступных множителей MXU на ядро, что по заявлению специалистов Google повысило производительность до 8 раз.

Помимо этого инженеры разработали новый формат представления данных. Для машинного обучения обычно используется FP32 — формат с плавающей точкой с одинарной точностью. Однако расчеты в нем требуют повышенной вычислительной мощности. Для оптимизации работы с TPU инженеры разработали формат Bfloat16 для операций умножения. За счет этого удалось снизить объем данных, который передается по каналам связи, повысив производительность системы.

Первоначально тензорные процессоры использовались в системе AlphaGo. Это тот самый компьютер, который обучался игре в «го» и смог победить в 2016 году Ли Седоля — многократного призера различных соревнований. Как выяснилось позже, обыграть корейского мастера смогли всего 50 плат TPU. Позже разработчики провели игру с еще одним мировым профессионалом Кэ Цзе. AlphaGo разгромила его с использованием всего одной платы TPU. Более того, даже пять профессионалов в совместной игре не смогли одолеть компьютер.

Также компания использует тензорные процессоры в сервисе Google Street View, выделяя текст на уличных знаках с фотографий. В Google Фото один тензорный процессор способен обработать до 100 миллионов изображений в день. На текущий момент решения Google TPU — это облачные платформы и сторонним разработчикам по регионам доступны ограниченно в зависимости от версии.

В виду ограничения фотоматериалов

ПРОДОЛЖЕНИЕ СЛЕДУЕТ...

Показать полностью 21

Технологии IT Компьютерное железо Инженер Компьютер Программа Тестирование Искусственный интеллект Нейронные сети Электроника Распределенные вычисления Инновации Длиннопост

volod64

7 месяцев назад

Компьютер это просто

Ответ на пост «Folding@Home»⁠⁠1

В Folding@home я с 2015 года.

Начинал с GTX560Ti и 4-ядерного проца A8 5600k.

Охлаждал его - и охлаждает последующие CPU - Zalman CNPS10X Performa

Ответ на пост «Folding@Home» Коронавирус, Компьютер, Folding(at)home, Компьютерное железо, Видеокарта, Распределенные вычисления, Ответ на пост

Вертушка была сменена на не гудящий DeepCool UF120

Недавно пятка была почищена

Потом подтянулся до R9 290X, которую приобрёл у товарища по команде

Затем появилась возможность купить GTX970, у которой мало слышно вертушки Palit Jetstream.

Время шло, 4 ядер уже давно не хватало. И платформу обновил на x99. Проц сменил на Xeon 2658v3

Поднялся в рейтингах других проектов (Rosetta, World Community Grid, Sidock - все они тоже биомедицина).

После, купил GTX1070 этого же исполнения: холодная тихоня Palit Jetstream. Суточные очки приблизились к 800 тыс :) GTX1080Ti добавила уже 1,2-1,8 лимонов!

Сейчас считаю на 2680v4 и RTX3070 в режиме экономии мощности - 3,5 миллиона.

Ниже меня конкурентов нет!! 🤩

В чем мораль то? Вряд ли что-то другое мотивировало меня делать апгрейд. Людям нравится думать, что они кому-то помогают. Даже если эти кто-то не пациенты онкодиспансеров — а хитрые дяди программисты, криптовалютчики и фарм-террористы. Нравится кого-то обгонять, быть не одинокими а частью большого коммьюнити. Можете дальше думать что это шпионаж (или прочьяя шляпа), но в глубине души вы согласны, что доверия в наше непростое время не хватает. С Наступающим!🎅

/-Этот пост с фото и скриншотами в формате PDF-/

Показать полностью 1

[моё] Коронавирус Компьютер Folding(at)home Компьютерное железо Видеокарта Распределенные вычисления Ответ на пост

309

PsyEyesOfficial

2 года назад

Искусственный интеллект

Ускоряем генерацию в Stable Diffusion с 4,5 минут до 14 сек⁠⁠

Я её уже упоминал на своём канале распределённую сеть Stable Horde, с помощью которой можно ускорить генерацию в Stable Diffusion в разы. Время показать её в действии. Особенно это зайдёт тем, у кого старое/слабое железо.

Что такое распределёнка — это сеть компьютеров по всему миру, которые могут делиться своими мощностями, чтобы ускорить генерацию контента. Когда вы нажимаете Generate ваш запрос по кусочкам разлетается на множество машин. Каждая из них будет обрабатывать свою часть картинки, а к вам придёт уже готовое изображение целиком.

Через Stable Horde можно генерить не только картинки, но и текст, голос, а также я думаю скоро сюда добавятся видео и музыка.

У проекта открытый исходный код, все репозитории можно посмотреть. В статистике на сайте видно, что он пользуется популярностью:

Сгенерировано 65 млн изображений и 10 млн текстов
Средняя скорость генераций 54 Мегапикселя/сек, а текста 674 токена/сек
Обработано 843 Терапикселя

Сервис бесплатный, но генерация в порядке очереди. Чтобы ускорить процесс, просто регаетесь, берёте API ключ, вставляете его в автоматике во вкладке с настройками Stable Horde и вперёд.

Для генерации изображений через Stable Horde есть разные веб-интерфейсы (остальные на сайте) и приложения как под Android, так и iOS (раз и два). Для генерации текста есть только веб-клиенты. Мне больше всего понравился Agnaistic как по количеству функций так и по интерфейсу.

Помимо этого для Stable Horde есть много инструментов. Боты:

Telegram (раз и два)
Discord
Reddit
итд.

Плагины ускоряющие генерации в:

Photoshop (раз и два)
Unreal
Blender
Automatic1111
итд

Актуальные ссылки на всё смотрите на сайте Stable Horde.

1) И вот как раз про расширение для A1111 мы и поговорим. Для начала, поставим его. Это можно сделать зайдя в Extensions —> Available —> нажав Load from —> в поле поиска вбив Horde. Жмём Install напротив опции Stable Horde Client.

Ускоряем генерацию в Stable Diffusion с 4,5 минут до 14 сек Искусственный интеллект, Нейронные сети, Арт, Распределенные вычисления, Stable Diffusion, Видео, YouTube, Длиннопост

Если у вас хорошая видюха с 4+ Гб RAM вы можете поставить и Stable Horde Worker, чтобы помогать генерить другим людям. За это вам начисляются баллы в KUDOS. Так вы поддержите сообщество и получите приоритет в очереди на генерации.

2) Когда поставили, идите в Settings и перезагрузите интерфейс нажав Reload UI.

У вас появятся две новые вкладки Stable Horde Interrogation и Stable Horde Settings. Первая нужна, чтобы получать из картинок по ссылкам в интернете промт, а вторая для настроек и конкретно указания API ключа.

3) Сам API ключ нужен, чтобы иметь приоритет при генерациях. Получить его можно зарегистрировавшись на сайте проекта. Причем регистрация заключается просто в указании Display Name, после чего отобразится API ключ, копируем его.

Учтите, что сайт не хранит ваш API ключ и его лучше сохранить где-то отдельно, или залогиниться сначала аккаунтами Google, Discord, Github. Это важно для тех, кто хочет, чтобы KUDOS, начисленные за раздачу мощностей у них не пропадали.

4) Скопировав API ключ, идём в Stable Horde Settings и вставляем его в поле API key. Далее нажимаем Apply Settings.... и по сути всё, можно генерить.

Для этого идём в раздел txt2img и в Scripts выбираем Run on Stable Horde, а также целевую модель и эффекты для постобработки.

Что означает каждое поле:

Model — в стиле какой модели вы хотите генерить. Чем больше цифра рядом с названием, тем больше воркеров её поддерживают, и тем быстрее будет генерация.
Share With LAION — возможность поделиться сгенерированным с LAION, которые помогали создавать Stable Diffusion. Так вы помогаете создавать публичные датасеты.
Post processing — какие эффекты будут применены к картинке. Есть апскейлинг (повышение разрещения) и face restoration (улучшение лиц). Можно применять цепочкой.

На видео в начале поста я сгенерил сначала локально на своей видюхе на ноуте GTX 1050 с 2 Гб VRAM без Stable Horde и на это ушло 4 м 33 сек, а потом через распределёнку.... и результат уже стал 14 сек. Разница почти в 20 раз!

Да оно будет прыгать от количества воркеров в сети, выбранной модели, настроек генерации, но это в любом случае буст и меньше необходимости покупать новое дорогостоящее железо. Чем больше будет воркеров, тем быстрее можно будет генерить. А с учетом того, что Microsoft, Nvidia, и AMD начали делать движения в сторону оптимизации для генераций (ONNX модели, DirectML, драйвера), а отец Stable Diffusion, Эмад Мостак, сказал на недавнем интервью, что вложил свои кровные в языковую модель, заточенную под кластеры, думаю эта тема будет развиваться.

YouTube обзор

Сайт Stable Horde

Расширение для A1111 (Client)

Расширение для A1111 (Worker)

Больше интересностей у меня в телеге Psy Eyes

Показать полностью 7

Искусственный интеллект Нейронные сети Арт Распределенные вычисления Stable Diffusion Видео YouTube Длиннопост

444

VerhovniyMemolog

2 года назад

Twitter

Хитрец⁠⁠

Телеграм - Три мема внутривенно

Юмор Скриншот X (Twitter) Одногруппники Учеба Студенты Помощь Хитрость Математический анализ Распределенные вычисления Повтор

5348

MEMEzya

2 года назад

Twitter

Распределенные вычисления⁠⁠

https://t.me/memezya/2932

X (Twitter) Скриншот Индусы Хитрость Распределенные вычисления Повтор

npocanueHc

3 года назад

Лига Госзакупок

Как решить проблему с дефицитом центров обработки и хранения данных в России?⁠⁠

Нифига не программист, просто лет 30 постоянно в качестве хобби ковыряюсь с компами, старый фидошник и просто опытный юзверь. Ну и раз пошла такая жизнь с санкциями, ограничениями в IT сфере и безумным ростом цен на сервера возникает мысль, а почему бы не замутить в РФ на государственном уровне сеть распределенных вычислений и хранения данных. Ведь идея висит в воздухе (сериал Кремниевая долина). В свое время многие ставили на ПК программы для распределенных вычислений. Почему бы не запустить похожее на ПК добровольцев готовых выделить 10% процессорной мощности и 100Гб дискового пространства.

В настоящее время в Российской Федерации государственные органы, организации, предприятия и предприниматели испытывают критические проблемы в центрах обработки информации, облачных хранилищах и доступом к ним. Для решения данной проблемы предлагаю организовать на государственной основе (через сайт госуслуги) обработку и хранение данных на личных компьютерах граждан РФ. На добровольной основе гражданин может поставить программу по распределенной обработке данных и выделить определенный процент загрузки процессора и дискового пространства для общего использования. В качестве поощрения ввести таким гражданам определенный социальный рейтинг, отображаемый на сайте госуслуг. По данному рейтингу в дальнейшем возможно предоставление, каких-либо преференций со стороны государства, предприятий с госучастием и банков (сниженный процент по ипотеке например).

Что это даст для страны и так понятно: снижение объема закупки импортного оборудования, повышение уровня отказоустойчивости имеющейся цифровой инфраструктуры за счет распределенных вычислений. Что это даст добровольцам? Ачивку на сайте госуслуг и повышенный социальный рейтинг. Все слышали о социальном рейтинге у китайцев, но почему бы и у нас его не внедрить. На вопрос почему пишу суда, а не оставляю на сайте госуслуг - да там ошибка постоянно выскакивает и не дает отправить обращение)))

Показать полностью

[моё] IT Распределенные вычисления Социальный рейтинг Компьютер Цод Обработка данных Импортозамещение Инициатива Текст

Programma.Boinc

3 года назад

Вышла новая версия клиента для Виндовс - Boinc 7.16.20⁠⁠

Вышла новая версия клиента для Виндовс - Boinc 7.16.20

Windows client 7.16.20 released

Boinc Windows Распределенные вычисления

Посты не найдены

1 2 3 4 5 6 7 8 9