Senior Data Engineer (построение Lakehouse с нуля)

от 200 000 за месяц на руки

Опыт работы: 3–6 лет

Полная занятость

График: 5/2

Рабочие часы: 8

Формат работы: удалённо или гибрид

Social Media Holding

Напишите телефон, чтобы работодатель мог связаться с вами

Чтобы подтвердить, что вы не робот, введите текст с картинки:
captcha
Уровень дохода обсудим индивидуально — для нас важно найти «своего» человека.​​​​​​​

Наша сфера - интернет-траффик и всё, что с ним связано=) + Активно развиваемся в сторону нейросетей
В нашем арсенале более 10 внутренних b2b и b2c проектов собственной разработки.​​​​​​​​​​​​​​

Текущая задача: выстроить с нуля архитектуру ML отдела для нашего нового, но уже профитного, игрового продукта мирового масштаба, который динамично растет вместе с командой.​​​​​​​

Мы формируем новую Data Engineering-команду с амбициозной задачей выстроить Lakehouse-инфраструктуру с нуля. В компании уже есть сильные специалисты и ресурсы во всех смежных направлениях, и теперь нам нужен Data Engineer, который возьмёт на себя ключевую роль в проектировании и развитии гибкой и высокопроизводительной платформы для обработки данных.

Наша цель — обеспечить бизнес и продуктовые команды самым современным стеком, который позволит эффективно обрабатывать потоковые и batch-данные, создавать витрины, запускать ML-модели и применять лучшие практики DataOps/MLOps.

Что предстоит делать

  1. Разработать архитектуру Lakehouse:

    • Определять подходящие инструменты (Iceberg/Delta/Hudi),
    • Проектировать схемы хранения и структуры таблиц под ACID-транзакционность,
    • Встраивать Data Governance и контроль качества.
  2. Создавать и поддерживать пайплайны:

    • Интегрировать данные из множества источников (SQL/NoSQL, API, события в Kafka, RabbitMQ),
    • Использовать Spark (PySpark или Scala) для batch- и streaming-обработки,
    • Оркестрировать пайплайны через Airflow.
  3. Обеспечивать производительность и отказоустойчивость:

    • Настраивать кластерную инфраструктуру (Docker/Kubernetes) и CI/CD (GitLab/Jenkins/Bitbucket Pipelines),
    • Оптимизировать сложные запросы, Spark-джобы и логику распределённых вычислений.
  4. Внедрять и развивать Data Quality:

    • Использовать библиотеки (Great Expectations, dbt tests или аналогичные решения),
    • Автоматизировать мониторинг качества данных и отслеживание метрик.
  5. Работать в тесном контакте с другими командами:

    • Аналитики, ML-инженеры, продуктовые команды будут рассчитывать на стабильные витрины и удобный доступ к данным,
    • Участвовать в планировании и внедрении новых сервисов и функций, связанных с обработкой больших данных.
  6. Стать одним из ключевых экспертов:

    • Менторить менее опытных коллег,
    • Участвовать в найме и развитии Data Engineering-отдела,
    • Вносить вклад в формирование культуры и стандартов разработки

      Наш ожидаемый стек

    • Хранилище: S3-совместимый стор (или распределённое HDFS) + слой Lakehouse (Iceberg/Delta/Hudi).
    • Аналитика и обработка: Spark (PySpark или Scala), SQL (PostgreSQL, ClickHouse), Kafka, Airflow.
    • Инфраструктура: Docker, Kubernetes, Git, CI/CD (Jenkins/GitLab/Bitbucket), мониторинг и логирование (Prometheus, Grafana, ELK).
    • Data Quality: Great Expectations/dbt или подобные инструменты.
    • (Мы открыты к выбору других решений, если вы сможете аргументированно показать их преимущества.)

      Наши требования к кандидатам

    • Опыт от 3–4 лет в Data Engineering или разработке высоконагруженных систем.
    • Уверенные знания:
      • Основы распределённых вычислений, Spark (batch/stream),
      • SQL (включая оконные функции, оптимизацию запросов),
      • Kafka или другой брокер сообщений,
      • Docker/K8s, CI/CD-подходы.
    • Понимание Lakehouse-парадигмы или опыт работы с Data Lake + транзакционными слоями (Iceberg, Delta, Hudi) — большой плюс.
    • Владение Python (pandas, PySpark) и/или Scala (Spark), умение писать поддерживаемый и производительный код.
    • Ориентация на результат и качество: вы знаете, как проектировать надёжные пайплайны, следите за метриками и оформляете документацию.
    • Коммуникабельность: нужно будет плотно работать с другими командами и презентовать результаты руководству.
    • Английский язык не ниже Intermediate (для чтения документации и возможных внешних метапов).

      Что мы предлагаем

    • Уровень дохода: обсуждается индивидуально (высокий, конкурентоспособный).
    • Все необходимые ресурсы: у нас нет бюрократических ограничений — вы сможете экспериментировать и воплощать лучшие идеи.
    • Влияние на продукт: вы будете одним из первых инженеров, стоящих у истоков Data-платформы в компании.
    • Сильная мультидисциплинарная команда: рядом эксперты из разработки, аналитики, ML — у нас насыщенный обмен опытом.
    • Карьерное развитие: при желании вы можете быстро вырасти до лидирующей роли (Team Lead / Head of Data Engineering) и вести стратегические инициативы.
    • Комфортные условия: гибкий рабочий график, возможность работать в офисе или удалённо, корпоративные активности, обучение и профессиональный рост.

Ключевые навыки

  • Lakehouse
  • Spark
  • Python
  • Scala
  • SQL
  • Kafka
  • Airflow
  • Docker
  • Kubernetes
  • CI/CD
  • Git
  • Data Quality
  • dbt
  • DevOps
  • RabbitMQ

Задайте вопрос работодателю

Он получит его с откликом на вакансию

Вакансия опубликована 15 февраля 2025 в Москве

Похожие вакансии

Senior Data Engineer / Разработчик хранилищ данных и эксперт по миграции

до 500 000 ₽ за месяц, на руки
Опыт 3-6 лет
Можно удалённо
до 500 000 ₽ за месяц, на руки
Опыт 3-6 лет
Можно удалённо
Риверстарт
Москва
Москва
Риверстарт
Москва
Москва
Проектирование и реализация структур данных для корпоративного аналитического ХД. Разработка сложной логики и алгоритмов обработки данных, включая ETL-процессы (Extract...
Оконченное высшее образование в технических специальностях (компьютерные науки, прикладная математика, информационные технологии и т.д.). Практический опыт построения отказоустойчивых и...

Master of Data Extraction & Web Scraping/Parsing (Python) - Senior

от 3 000 $ за месяц, до вычета налогов
Опыт 3-6 лет
Можно удалённо
от 3 000 $ за месяц, до вычета налогов
Опыт 3-6 лет
Можно удалённо
ООО Серверные Технологии
Москва
Москва
Написание парсеров для эффективного сбора данных с основных социальных сетей. Автоматизация процесса сбора данных для повышения продуктивности. Разработка и оптимизация...
Глубокое понимание и практический опыт использования инструментов для скрапинга данных и веб-автоматизации. Опыт асинхронного программирования на Python.

Senior SRE / Системный Администратор Linux

2 500 – 4 500 $ за месяц, на руки
Опыт более 6 лет
Можно удалённо
2 500 – 4 500 $ за месяц, на руки
Опыт более 6 лет
Можно удалённо
Rx2Go
Москва
Москва
Rx2Go
Москва
Москва
Документирование инфраструктурных изменение. – Мониторинг бекапов. – Мониторинг быстродействия. – Сопровождение web-сервисов и информационных систем компании. – Обеспечение бесперебойного функционирования корпоративных приложений. –
Уверенное понимание настроек MySQL. – Опыт репликации master-master, master-slave. Перманентные и инкрементальные бекапы в условиях кластерезации. – Уверенное понимание настроек...

Senior Golang разработчик нагруженной платформы сбора и анализа данных

Опыт более 6 лет
Можно удалённо
Опыт более 6 лет
Можно удалённо
CyberOK
Москва
Бутырская  и еще 1 
Москва
Бутырская  и еще 1 
CyberOK
Москва
Бутырская  и еще 1 
Москва
Бутырская  и еще 1 
Платформа CyberOK — комплексное решение для реализации проектов по модели. «безопасность как сервис»: наши продукты предотвращают, своевременно выявляют и эффективно снижают...
отлично знаете Go, опыт от 3 лет. — умеете работать с базами данных, хорошо знаете SQL. — умеете проектировать и разрабатывать API...

Middle-Senior ML / Data Science разработчик

200 000 – 350 000 ₽ за месяц, на руки
Опыт 3-6 лет
Можно удалённо
Выплаты: два раза в месяц
200 000 – 350 000 ₽ за месяц, на руки
Опыт 3-6 лет
Можно удалённо
Выплаты: два раза в месяц
Social Media Holding
Москва
Москва
Social Media Holding
Москва
Москва
Разработка и внедрение ML-моделей: Обнаружение мошенничества (Fraud Detection): Разработка моделей для выявления подозрительных операций и аномальных паттернов поведения.
Применение методов кластеризации для таргетированного маркетинга и программ лояльности. Персональные рекомендации (Recommendation System): Создание систем рекомендаций, предлагающих продукты или услуги...

Senior Data Science

от 200 000 ₽ за месяц, на руки
Опыт 3-6 лет
Можно удалённо
от 200 000 ₽ за месяц, на руки
Опыт 3-6 лет
Можно удалённо
ООО АгроКлуб
Москва
Москва
ООО АгроКлуб
Москва
Москва
Мы создали, поддерживаем и развиваем сайт и мобильные приложения для эффективного мэтчинга участников агрорынка - фермеров, покупателей, экспортеров и логистов.
Senior Data Science будет решать исследовательские задачи, результаты которых помогут бизнесу быстрее принимать уверенные решения. Уверенные знания Python и SQL...
Social Media Holding