Creai

Plaftorm Engineer

Posted 2 months ago

Mexico

⭐ 2-5 years experience

Apply Now

Please mention DailyRemote when applying

AI Summary

The Platform Engineer will build and operate the foundational infrastructure for AI/ML projects, including CI/CD pipelines, Kubernetes orchestration, and MLOps platforms. They will also lead developer experience initiatives, ensure platform security, and define architectural standards for the organization.

Sobre Creai

En Creai, nos especializamos en aprovechar el poder de la inteligencia artificial y el aprendizaje automático para transformar negocios. Nuestra misión es ayudar a los clientes a reducir costos, aumentar la eficiencia y desbloquear nuevas oportunidades mediante soluciones de IA de vanguardia.

Descripción del Puesto

Estamos buscando un/a Platform Engineer con amplia experiencia diseñando, construyendo y operando plataformas de ingeniería de clase mundial. Este rol es fundacional: serás el primer miembro del equipo de Plataforma, reportando directamente al CTO, con la responsabilidad de construir desde cero la infraestructura que soporta todos los proyectos de IA/ML de Creai y de nuestros clientes.

Trabajarás de manera autónoma y con visión de largo plazo, estableciendo los cimientos técnicos sobre los cuales el equipo de Plataforma crecerá. Esto incluye infraestructura como código, pipelines de CI/CD, orquestación de contenedores en Kubernetes y capacidades de MLOps que soporten el ciclo de vida completo de los modelos de machine learning e IA generativa que desarrollamos para nuestros clientes.

Este Puesto Exige

Infraestructura como Código: Diseñar, implementar y mantener infraestructura en AWS y Azure utilizando Terraform o Pulumi. Definir la estrategia cloud multi-proveedor de Creai, garantizando que toda la infraestructura sea reproducible, segura y versionada.

Plataforma de CI/CD: Diseñar y operar pipelines de integración y entrega continua robustos y reutilizables para todos los equipos de ingeniería, soportando despliegues de aplicaciones y modelos de ML/IA con testing automatizado, quality gates y estrategias de rollback.

Kubernetes y Orquestación: Diseñar, desplegar y operar clústeres de Kubernetes en producción (EKS/AKS). Gestionar namespaces, RBAC, network policies, Helm/Kustomize y estrategias de escalamiento automático para cargas de trabajo de IA.

MLOps y Despliegue de Modelos: Construir y mantener la plataforma MLOps de Creai: pipelines de entrenamiento, registro y versionado de modelos, despliegue como endpoints escalables y monitoreo de performance en producción. Implementar infraestructura especializada para cargas de trabajo de IA generativa, incluyendo gestión de recursos GPU y arquitecturas RAG.

Developer Experience: Ser el principal impulsor de la experiencia del desarrollador: construir herramientas, templates y abstracciones que permitan a los equipos de ingeniería y ciencia de datos enfocarse en crear valor sin fricciones operacionales.

Seguridad y Confiabilidad: Incorporar seguridad en todos los niveles de la plataforma: gestión de secretos, IAM, cifrado y cumplimiento de mínimo privilegio. Definir y hacer seguimiento de SLAs/SLOs. Liderar la respuesta a incidentes y post-mortems. Diseñar para alta disponibilidad y recuperación ante desastres.

Observabilidad: Implementar stacks de observabilidad completos (métricas, logs y trazas) con herramientas como Prometheus, Grafana, Datadog u OpenTelemetry, garantizando visibilidad del estado de todos los servicios y modelos en producción.

Liderazgo Técnico: Como primer miembro del equipo de Plataforma, construir no solo la infraestructura sino también la cultura, los procesos y los estándares del equipo. Influir activamente en las decisiones arquitectónicas de toda la organización y mentorizar a futuros ingenieros de plataforma.

Colaboración con Clientes: Participar ocasionalmente en conversaciones técnicas con clientes para definir requisitos de infraestructura, presentar arquitecturas y asegurar que las soluciones de plataforma cumplan con las expectativas de cada proyecto.

Mejora Continua: Evaluar y mejorar continuamente el stack de plataforma, las herramientas, los procesos y las prácticas de operación, optimizando la eficiencia y la fiabilidad de las soluciones.

Comunicación Efectiva: Capacidad de comunicación clara y estructurada con stakeholders técnicos y no técnicos, presentando decisiones de arquitectura e infraestructura de manera accesible.

Requisitos

Experiencia Profesional: Más de 4 años de experiencia en roles de Platform Engineering, DevOps, SRE o Infrastructure Engineering, con responsabilidad directa sobre infraestructura en producción a escala.

Cloud Platforms: Experiencia sólida y comprobable en AWS y Azure, incluyendo servicios de cómputo, networking, almacenamiento, identidad (IAM/Entra ID) y Kubernetes gestionado (EKS/AKS).

Infraestructura como Código: Dominio de Terraform. Experiencia con gestión de estado remoto, módulos reutilizables y pipelines de IaC en CI/CD. Conocimiento de Pulumi o Ansible es un plus.

Kubernetes: Experiencia avanzada diseñando y operando clústeres de Kubernetes en producción: RBAC, network policies, Helm, Kustomize, operadores y estrategias de escalamiento (HPA, VPA, Cluster Autoscaler).

CI/CD: Experiencia diseñando pipelines de CI/CD complejos en plataformas como GitHub Actions, GitLab CI, Azure DevOps o Jenkins. Conocimiento de prácticas GitOps con ArgoCD o Flux.

Contenedores: Dominio de Docker: construcción de imágenes optimizadas, multi-stage builds y gestión de registros (ECR, ACR). Experiencia con escaneo de vulnerabilidades (Trivy, Snyk).

Observabilidad: Experiencia implementando stacks de observabilidad con Prometheus, Grafana, Datadog, OpenTelemetry o ELK/Loki. Capacidad de diseñar dashboards, alertas y SLOs significativos.

Scripting y Automatización: Sólidas habilidades de scripting en Python y Bash para automatización de tareas operacionales y desarrollo de herramientas internas.

Autonomía y Ownership: Capacidad comprobada de trabajar de forma independiente, tomar decisiones técnicas complejas y ser dueño/a de resultados end-to-end en contextos de alta ambigüedad.

Comunicación: Habilidad para explicar decisiones de infraestructura a audiencias técnicas y de negocio. Comunicación fluida en español e inglés, escrito y verbal.

MLOps (Valorado): Experiencia con herramientas como MLflow, Kubeflow, Seldon Core, KServe, SageMaker Pipelines o Azure ML Pipelines para gestión del ciclo de vida de modelos de ML.

GPU y Cargas de IA (Valorado): Experiencia gestionando infraestructura de GPU (instancias spot, scheduling) y desplegando modelos de LLMs o embeddings en producción.

Certificaciones (Valorado): Certificaciones en AWS (Solutions Architect, DevOps Engineer) o Azure (AZ-104, AZ-400).

Service Mesh (Valorado): Experiencia con Istio, Linkerd o Consul para gestión de tráfico, mTLS y observabilidad de red.

Bases de Datos Vectoriales (Valorado): Experiencia operando bases de datos vectoriales como Pinecone, Weaviate o pgvector en producción.

Open Source (Valorado): Contribuciones a proyectos open source de infraestructura o participación en comunidades CNCF, SRE o Cloud Native.

Beneficios

💻 Trabajo 100% remoto con horario alineado a CST.

🏖️ PTO ilimitado: Confiamos en que gestionarás tu tiempo de manera efectiva.

🎓 Presupuesto anual para desarrollo: Acceso a cursos, certificaciones y conferencias.

🛠️ Presupuesto para equipamiento: Configura tu espacio de trabajo remoto ideal.

🩺 Beneficio de salud: Acceso a cobertura médica privada o subsidios para seguro médico.

🚀 Oportunidades de crecimiento: Plan de carrera y mentoría con expertos en IA y tecnología.

🚀 Ambiente de startup dinámico y flexible: Autonomía para tomar decisiones y proponer ideas, con un enfoque en resultados en lugar de horas trabajadas.

⚖️ Balance vida-trabajo: Cultura que prioriza la flexibilidad y el bienestar, permitiéndote gestionar tu tiempo sin sacrificar tu vida personal.

¡Te invitamos a postularte!

Incluso si no cumples con todos los requisitos, valoramos experiencias y perspectivas diversas. Si te apasiona el reclutamiento y quieres crecer en una empresa enfocada en datos e IA, ¡nos encantaría conocerte!

Automatically Apply to the Best Remote Jobs

Stop the endless job search. Our AI finds and applies to the best jobs for you.

Try it Now

Creai