Развиваем Data Science навыки
https://t.me/ai_tablet больше материалов тут
Основные направления:
Классическое машинное обучение (табличные данные):
Рекомендуется книга "Python Machine Learning by Sebastian Raschka". Следует обратить внимание на все главы, за исключением 13-й, информация в которой может быть устаревшей.
Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса представляет собой комплекс из шести курсов. Первые три курса охватывают основы машинного обучения, четвертый посвящен статистике. Пятый и шестой курсы ориентированы на практику и могут быть изучены по мере необходимости.
Участие в открытых соревнованиях на платформе Kaggle способствует пониманию метрик качества, методов валидации и практическому применению знаний.
Полезными могут быть лекции с конференции DataFest (https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w), в частности, материалы трека Machine Learning Training (https://www.youtube.com/playlist?list=PLTlO6nV_TaGD21r6xPHhV1k7QfVuug3BB), включая более ранние доклады, освещающие базовые концепции.
Практика и документация:
Для углубленного изучения алгоритмов бустинга рекомендуется детально разобраться в принципах их работы и областях применения, поскольку они являются ключевым инструментом при работе с табличными данными.
Официальная документация: https://catboost.ai/, https://xgboost.readthedocs.io/en, https://lightgbm.readthedocs.io/en.
MLOps:
Книга "Introducing MLOps" издательства O'Reilly представляет собой введение в управление моделями машинного обучения для обеспечения их стабильной и эффективной работы.
Системный дизайн в машинном обучении:
Книга "Designing Machine Learning Systems" (O'Reilly) рассматривает вопросы проектирования ML-систем с учетом выбора метрик, удобства сопровождения и масштабируемости.
Развитие аналитических навыков:
Книга «Девенпорт, аналитика как конкурентное преимущество» может быть полезна для развития аналитического мышления.
Необходимо владеть SQL и библиотекой Pandas для эффективной работы с данными.
Рекомендательные системы:
Курс Recsys доступен по ссылкам: https://m.youtube.com/watch?v=igwNb7dBlms и https://www.youtube.com/playlist?list=PLX6toIl17nZENhNNUTrwR3Pxb8nCSKZsV. Основная часть курса представлена первыми пятью лекциями, остальные материалы содержат прикладные примеры.
АБ-тестирование:
Рекомендуются следующие ресурсы:
Гайд от VK: https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f
Бесплатный курс от Яндекса: https://practicum.yandex.ru/statistics-basic/
Книга "Trustworthy Online Controlled Experiments"
NLP (обработка естественного языка):
Для изучения NLP рекомендуется последовательно ознакомиться с концепциями tf-idf, Word2vec и fasttext, затем перейти к LSTM, трансформерам, BERT, GPT и LLM (включая LoRA). В качестве учебных материалов могут быть полезны следующие курсы:
Курс от ШАД по NLP: https://github.com/yandexdataschool/nlp_course
Курс Лены Войта: https://lena-voita.github.io/nlp_course.html
Курс Abby (охватывает материал до трансформеров): https://github.com/DanAnastasyev/DeepNLP-Course
Также рекомендуется изучение обзорных статей, например: "A Comprehensive Overview of Large Language Models" (https://arxiv.org/pdf/2307.06435).
CV (компьютерное зрение):
В качестве базового материала по глубокому обучению рекомендуется книга "Deep Learning with PyTorch". Для практического изучения компьютерного зрения полезным будет руководство по построению базовых моделей для классификации и сегментации изображений. Дальнейшее изучение тем может осуществляться самостоятельно. Ключевые направления включают:
image classification
segmentation
GAN
object detection
instant segmentation
pose estimation
diffusion models
multimodal models
Vision Transformer
Изучение обзорных статей по данным направлениям также является важным.
Буду рад, если данная подборка окажется полезной. Ваши дополнения и комментарии приветствуются.