[정규직] MLOps & Site Reliability Engineer (AI Platform)
마감기한
2026년 12월 31일, 14:59D-274
경력사항
경력 무관
고용형태
인턴

직무 개요

DeepAuto.ai ​는 ​AWS ​및 각종 ​Neocloud 에 NVIDIA GPU ​서버를 ​구매하고 있습니다. ​현재 다수의 H100을 ​보유중이며, H200, ​B200 ​으로 확장 ​이전 ​중에 ​있습니다. 이렇게 자체적으로 ​확보한 ​GPU 를 가지고 ​오픈소스 ​모델을 ​서빙하고 있습니다. 또한 ​이 GPU ​들을 ​추론뿐 만아니라 ​RL, 파인튜닝 ​및 ​OCR 등에 폭넓게 ​이용하고 있습니다.


MLOps ​& Site Reliability Engineer (AI Platform)는 이 GPU 들을 이용한 클라우드 인프라를 구축 및 관리하며, 긍극적으로는 Agentic AI 프로덕트를 위한 플랫폼 서비스 인프라를 만듭니다. 또한 필요시 고객 인프라에 저희 서비스를 구축하기도 합니다. 마지막으로, 지속가능하고 확장성 있는 ML 연구개발을 위한 방법론을 고민하고 해결해 나갑니다.



주요 업무

  • 연구, 개발 및 배포에 필요한 요구사항을 분석하여 필요한 클라우드 인프라를 구축, 관리
  • 플랫폼 서비스 인프라: AWS, 쿠버네티스 및 Third-party SaaS 등
  • MLOps 및 리서치 인프라: SkyPilot/SLURM/Ray 기반 ML 연구 환경, MLflow 등
  • 서빙 인프라: SGLang, vLLM
  • 프로덕트 (HTTP API, 워커, DB 등) 의 CI/CD 관리
  • On-prem, 하이브리드 클라우드를 포함한 엔터프라이즈 고객에 필요한 다양한 배포방식 설계
  • 예: https://clickhouse.com/blog/building-clickhouse-byoc-on-aws
  • 내부 AI 및 인프라 관련 툴 개발 (Python, Go, k8s 컨트롤러 등)
  • Agent 의 안전한 작동을 위한 샌드박스 구축
  • OpenTelemetry, Grafana 를 기반한 모니터링 구축
  • 국제 보안 인증 (SOC 2 Type II, ISO 27001) 프로세스 담당/진행 및 규격을 준수하는 인프라 설계/구축



자격 요건

  • 리눅스 관련 경험 — 서버를 직접 설치, 구축해본 경험 등•
  • 원활한 협업/업무 능력 전반
  • AI 기술에 대한 하이레벨 이해
  • 영어로 된 기술 문서 독해 능력, 영문 개발 레퍼런스를 우선하는 습관 -
  • 기존 AI 및 SaaS 제품들에서 레퍼런스를 찾아내는 능력
  • Python, Go 등 하나 이상의 프로그래밍 언어에 능숙
  • Kubernetes 및 Terraform 등 Infrastructure as Code (IaC) 관련 지식
  • 간단한 CI/CD 구축 경험• 컴퓨터공학 또는 관련 분야 학사 학위 이상 또는 상응하는 경험
  • 알고리즘, 자료구조, 운영체제 등 기본 개념에 대한 이해



우대 사항

  • 기업에서 DevOps 및 IaC 관리 경험
  • 멀티클라우드 및 하이브리드 인프라 경험
  • 클라우드 기반의 기업용 SaaS 제품 기획 및 설계 경험
  • MLOps 및 GPU 기반 인프라 구축 및 운영 경험
  • Untrusted code 를 구동시키기 위한 샌드박스 구축 경험 (Container, MicroVM)
  • Prometheus, Grafana 등의 모니터링 시스템 경험
  • AWS, Azure, GCP, Kubernetes 관련 자격증 보유
  • 오픈소스 프로젝트 기여 경험
  • SOC 2 Type II, ISO 27001 인증 관련 경험
공유하기
[정규직] MLOps & Site Reliability Engineer (AI Platform)

직무 개요

DeepAuto.ai ​는 ​AWS ​및 각종 ​Neocloud 에 NVIDIA GPU ​서버를 ​구매하고 있습니다. ​현재 다수의 H100을 ​보유중이며, H200, ​B200 ​으로 확장 ​이전 ​중에 ​있습니다. 이렇게 자체적으로 ​확보한 ​GPU 를 가지고 ​오픈소스 ​모델을 ​서빙하고 있습니다. 또한 ​이 GPU ​들을 ​추론뿐 만아니라 ​RL, 파인튜닝 ​및 ​OCR 등에 폭넓게 ​이용하고 있습니다.


MLOps ​& Site Reliability Engineer (AI Platform)는 이 GPU 들을 이용한 클라우드 인프라를 구축 및 관리하며, 긍극적으로는 Agentic AI 프로덕트를 위한 플랫폼 서비스 인프라를 만듭니다. 또한 필요시 고객 인프라에 저희 서비스를 구축하기도 합니다. 마지막으로, 지속가능하고 확장성 있는 ML 연구개발을 위한 방법론을 고민하고 해결해 나갑니다.



주요 업무

  • 연구, 개발 및 배포에 필요한 요구사항을 분석하여 필요한 클라우드 인프라를 구축, 관리
  • 플랫폼 서비스 인프라: AWS, 쿠버네티스 및 Third-party SaaS 등
  • MLOps 및 리서치 인프라: SkyPilot/SLURM/Ray 기반 ML 연구 환경, MLflow 등
  • 서빙 인프라: SGLang, vLLM
  • 프로덕트 (HTTP API, 워커, DB 등) 의 CI/CD 관리
  • On-prem, 하이브리드 클라우드를 포함한 엔터프라이즈 고객에 필요한 다양한 배포방식 설계
  • 예: https://clickhouse.com/blog/building-clickhouse-byoc-on-aws
  • 내부 AI 및 인프라 관련 툴 개발 (Python, Go, k8s 컨트롤러 등)
  • Agent 의 안전한 작동을 위한 샌드박스 구축
  • OpenTelemetry, Grafana 를 기반한 모니터링 구축
  • 국제 보안 인증 (SOC 2 Type II, ISO 27001) 프로세스 담당/진행 및 규격을 준수하는 인프라 설계/구축



자격 요건

  • 리눅스 관련 경험 — 서버를 직접 설치, 구축해본 경험 등•
  • 원활한 협업/업무 능력 전반
  • AI 기술에 대한 하이레벨 이해
  • 영어로 된 기술 문서 독해 능력, 영문 개발 레퍼런스를 우선하는 습관 -
  • 기존 AI 및 SaaS 제품들에서 레퍼런스를 찾아내는 능력
  • Python, Go 등 하나 이상의 프로그래밍 언어에 능숙
  • Kubernetes 및 Terraform 등 Infrastructure as Code (IaC) 관련 지식
  • 간단한 CI/CD 구축 경험• 컴퓨터공학 또는 관련 분야 학사 학위 이상 또는 상응하는 경험
  • 알고리즘, 자료구조, 운영체제 등 기본 개념에 대한 이해



우대 사항

  • 기업에서 DevOps 및 IaC 관리 경험
  • 멀티클라우드 및 하이브리드 인프라 경험
  • 클라우드 기반의 기업용 SaaS 제품 기획 및 설계 경험
  • MLOps 및 GPU 기반 인프라 구축 및 운영 경험
  • Untrusted code 를 구동시키기 위한 샌드박스 구축 경험 (Container, MicroVM)
  • Prometheus, Grafana 등의 모니터링 시스템 경험
  • AWS, Azure, GCP, Kubernetes 관련 자격증 보유
  • 오픈소스 프로젝트 기여 경험
  • SOC 2 Type II, ISO 27001 인증 관련 경험