[정규직] MLOps & Site Reliability Engineer (AI Platform)

마감기한

2026년 12월 31일, 14:59D-274

경력사항

경력 무관

고용형태

인턴

직무 개요

DeepAuto.ai 는 AWS 및 각종 Neocloud 에 NVIDIA GPU 서버를 구매하고 있습니다. 현재 다수의 H100을 보유중이며, H200, B200 으로 확장 이전 중에 있습니다. 이렇게 자체적으로 확보한 GPU 를 가지고 오픈소스 모델을 서빙하고 있습니다. 또한 이 GPU 들을 추론뿐 만아니라 RL, 파인튜닝 및 OCR 등에 폭넓게 이용하고 있습니다.

MLOps & Site Reliability Engineer (AI Platform)는 이 GPU 들을 이용한 클라우드 인프라를 구축 및 관리하며, 긍극적으로는 Agentic AI 프로덕트를 위한 플랫폼 서비스 인프라를 만듭니다. 또한 필요시 고객 인프라에 저희 서비스를 구축하기도 합니다. 마지막으로, 지속가능하고 확장성 있는 ML 연구개발을 위한 방법론을 고민하고 해결해 나갑니다.

주요 업무

연구, 개발 및 배포에 필요한 요구사항을 분석하여 필요한 클라우드 인프라를 구축, 관리
플랫폼 서비스 인프라: AWS, 쿠버네티스 및 Third-party SaaS 등
MLOps 및 리서치 인프라: SkyPilot/SLURM/Ray 기반 ML 연구 환경, MLflow 등
서빙 인프라: SGLang, vLLM
프로덕트 (HTTP API, 워커, DB 등) 의 CI/CD 관리
On-prem, 하이브리드 클라우드를 포함한 엔터프라이즈 고객에 필요한 다양한 배포방식 설계
예: https://clickhouse.com/blog/building-clickhouse-byoc-on-aws
내부 AI 및 인프라 관련 툴 개발 (Python, Go, k8s 컨트롤러 등)
Agent 의 안전한 작동을 위한 샌드박스 구축
OpenTelemetry, Grafana 를 기반한 모니터링 구축
국제 보안 인증 (SOC 2 Type II, ISO 27001) 프로세스 담당/진행 및 규격을 준수하는 인프라 설계/구축

자격 요건

리눅스 관련 경험 — 서버를 직접 설치, 구축해본 경험 등•
원활한 협업/업무 능력 전반
AI 기술에 대한 하이레벨 이해
영어로 된 기술 문서 독해 능력, 영문 개발 레퍼런스를 우선하는 습관 -
기존 AI 및 SaaS 제품들에서 레퍼런스를 찾아내는 능력
Python, Go 등 하나 이상의 프로그래밍 언어에 능숙
Kubernetes 및 Terraform 등 Infrastructure as Code (IaC) 관련 지식
간단한 CI/CD 구축 경험• 컴퓨터공학 또는 관련 분야 학사 학위 이상 또는 상응하는 경험
알고리즘, 자료구조, 운영체제 등 기본 개념에 대한 이해

우대 사항

기업에서 DevOps 및 IaC 관리 경험
멀티클라우드 및 하이브리드 인프라 경험
클라우드 기반의 기업용 SaaS 제품 기획 및 설계 경험
MLOps 및 GPU 기반 인프라 구축 및 운영 경험
Untrusted code 를 구동시키기 위한 샌드박스 구축 경험 (Container, MicroVM)
Prometheus, Grafana 등의 모니터링 시스템 경험
AWS, Azure, GCP, Kubernetes 관련 자격증 보유
오픈소스 프로젝트 기여 경험
SOC 2 Type II, ISO 27001 인증 관련 경험