2

Развиваем Data Science навыки

https://t.me/ai_tablet больше материалов тут

Основные направления:

  1. Классическое машинное обучение (табличные данные):

    • Рекомендуется книга "Python Machine Learning by Sebastian Raschka". Следует обратить внимание на все главы, за исключением 13-й, информация в которой может быть устаревшей.

    • Специализация "Машинное обучение и анализ данных" от МФТИ и Яндекса представляет собой комплекс из шести курсов. Первые три курса охватывают основы машинного обучения, четвертый посвящен статистике. Пятый и шестой курсы ориентированы на практику и могут быть изучены по мере необходимости.

    • Участие в открытых соревнованиях на платформе Kaggle способствует пониманию метрик качества, методов валидации и практическому применению знаний.

    • Полезными могут быть лекции с конференции DataFest (https://www.youtube.com/channel/UCeq6ZIlvC9SVsfhfKnSvM9w), в частности, материалы трека Machine Learning Training (https://www.youtube.com/playlist?list=PLTlO6nV_TaGD21r6xPHhV1k7QfVuug3BB), включая более ранние доклады, освещающие базовые концепции.

  2. Практика и документация:

    • Для углубленного изучения алгоритмов бустинга рекомендуется детально разобраться в принципах их работы и областях применения, поскольку они являются ключевым инструментом при работе с табличными данными.

    • Официальная документация: https://catboost.ai/, https://xgboost.readthedocs.io/en, https://lightgbm.readthedocs.io/en.

  3. MLOps:

    • Книга "Introducing MLOps" издательства O'Reilly представляет собой введение в управление моделями машинного обучения для обеспечения их стабильной и эффективной работы.

  4. Системный дизайн в машинном обучении:

    • Книга "Designing Machine Learning Systems" (O'Reilly) рассматривает вопросы проектирования ML-систем с учетом выбора метрик, удобства сопровождения и масштабируемости.

  5. Развитие аналитических навыков:

    • Книга «Девенпорт, аналитика как конкурентное преимущество» может быть полезна для развития аналитического мышления.

    • Необходимо владеть SQL и библиотекой Pandas для эффективной работы с данными.

  6. Рекомендательные системы:

  7. АБ-тестирование:

  8. NLP (обработка естественного языка):

    • Для изучения NLP рекомендуется последовательно ознакомиться с концепциями tf-idf, Word2vec и fasttext, затем перейти к LSTM, трансформерам, BERT, GPT и LLM (включая LoRA). В качестве учебных материалов могут быть полезны следующие курсы:

  9. CV (компьютерное зрение):

    • В качестве базового материала по глубокому обучению рекомендуется книга "Deep Learning with PyTorch". Для практического изучения компьютерного зрения полезным будет руководство по построению базовых моделей для классификации и сегментации изображений. Дальнейшее изучение тем может осуществляться самостоятельно. Ключевые направления включают:

      • image classification

      • segmentation

      • GAN

      • object detection

      • instant segmentation

      • pose estimation

      • diffusion models

      • multimodal models

      • Vision Transformer

      • Изучение обзорных статей по данным направлениям также является важным.

Буду рад, если данная подборка окажется полезной. Ваши дополнения и комментарии приветствуются.