[AI Research Div.] Senior ML Infrastructure Engineer (8년 이상)
KRAFTON India · South Korea
우리는 게이머의 로망을 실현하기 위해, 누구도 가지 않는 길을 갑니다.예상을 뛰어넘는 과감한 상상력과 기술로, 전 세계 팬들이 잊지 못할 세상을 만들기 위해 담대하게 도전하고 개척합니다. We pioneer the path to players' dreams.With bold imagination and breakthrough technology, we create unforgettable worlds for fans across the globe.
우리 팀(프로젝트)을 소개합니다.
[AI Research 본부 비전]크래프톤 AI Research 본부는 자체 딥러닝 연구를 기반으로 AI 기술의 새로운 가능성을 탐구하고, 게임과 다양한 서비스에 적용 가능한 핵심 AI 기술을 개발합니다. 생성형 AI, 멀티모달 AI, 대규모 언어 모델(LLM) 등 최신 AI 기술을 연구하며, 이를 통해 게임 제작과 사용자 경험을 혁신하는 것을 목표로 합니다.[Culture Fit]AI Research 본부는 다양한 배경을 가진 구성원들이 함께 일하며, 수평적이고 활발한 커뮤니케이션 속에서 문제를 해결합니다.직급과 연차를 넘어 자유롭게 의견을 제시할 수 있으며, 여러 직군과의 협업을 통해 연구와 플랫폼, 서비스의 접점을 함께 만들어갑니다.팀 소개KRAFTON MLSys & Ops 팀은 AI Research 본부 내 모델 개발을 위한 GPU 인프라를 설계·구축·운영합니다.모델 학습 및 실험 환경, GPU 클러스터 운영, 인프라 자동화와 관측성 체계를 함께 다루며, AI 워크로드가 안정적이고 효율적으로 동작할 수 있도록 공통 플랫폼을 만들어갑니다.이번 포지션은 이미 확보된 B300 125노드 기반 GPU Infrastructure를 함께 운영·고도화하면서, 이를 연구·개발 조직이 안정적이고 효율적으로 활용할 수 있는 GPU Platform으로 발전시키는 실무형 시니어 엔지니어 역할입니다.
우리 팀과 함께할 미션을 소개합니다.
B300 125노드 기반 GPU Infrastructure의 운영 안정화, 성능 개선, 자원 효율화 및 운영 자동화에 직접 참여합니다. Kubernetes 기반 ML/GPU Platform의 스케줄링, 멀티테넌시, 워크로드 격리, Quota, 관측성, 장애 대응 체계를 설계·구축·운영합니다. 학습 및 추론 워크로드 특성을 바탕으로 GPU 활용률, 대기 시간, 처리량, 비용 효율을 개선하는 운영 전략을 수립하고 실제 플랫폼에 반영합니다. ML Platform과 재현 가능한 운영 체계를 지속적으로 고도화하고, 여러 연구·개발 조직의 요구사항을 공통 플랫폼 관점에서 조율합니다.
이런 경험을 가진 분과 함께 성장하고 싶습니다! (필수요건)
AI/ML 학습 또는 추론 워크로드가 동작하는 대규모 GPU 클러스터를 설계·구축·운영해본 경험이 있으신 분 ML/GPU Platform의 스케줄링, 워크로드 격리, 관측성, 장애 대응 체계를 직접 개선해본 경험이 있으신 분 장애 및 성능 이슈를 시스템 전반 관점에서 분석하고, 근본 원인 해결과 구조적 개선으로 연결해본 경험이 있으신 분 연구·개발 조직과 협업하며 공통 ML/GPU 인프라의 요구사항을 정리하고, 기술적 대안과 실행 우선순위를 제안해본 경험이 있으신 분 생성형 AI, LLM 기반 도구, 코드 어시스턴트 등 AI 도구를 활용하여 운영 효율, 문제 해결, 문서화 및 자동화 생산성을 높여본 경험이 있으신 분 해외 출장에 결격 사유가 없는 분
이런 경험들이 있다면 저희가 찾는 그 분입니다! (우대요건)
B-Series/B300, H100/H200, GB200/GB300 또는 동급의 차세대 GPU 아키텍처를 구축·운영하고 성능 검증 및 최적화를 수행한 경험 NCCL, RDMA, RoCE, InfiniBand 기반의 GPU 네트워크 성능을 분석하고 최적화한 경험 Ceph, MinIO 등 분산 스토리지 환경을 구축·운영하거나 AI 학습 워크로드에 맞게 성능을 최적화한 경험 GPU 활용률 분석, 리소스 할당, 스케줄링, 우선순위, 비용 및 성능 최적화 전략을 실제 운영 환경에 적용한 경험 NVIDIA GPU Operator, DCGM, MIG/MPS, Run:ai, Slurm, Kueue, Volcano 등 GPU 리소스 관리·스케줄링·오케스트레이션 도구를 활용한 경험 분산 학습 환경에서 데이터 로딩, 통신 병목, 학습 스케줄링 등을 개선하여 모델 학습 효율(Training Throughput) 및 GPU Utilization을 향상시킨 경험
크래프톤의 도전에 함께 하기 위해 아래의 전형 과정이 필요합니다.
서류 전형 > *과제 전형 > 인성검사 (Personality Assessment) > 직무면접 (Technical Fit Interview) > 종합면접 (2-3회) (Culture Fit Interview) > 합격 및 입사 *해당 절차는 각 포지션 및 후보자에 따라 변동이 있을 수 있습니다. 상시 채용으로 채용 완료 시 조기 마감될 수 있습니다. 필요 시, 인터뷰 및 직무 테스트가 추가될 수 있습니다. 전형 일정 및 합격 또는 불합격 결과는 지원서에 등록하신 이메일 또는 유선으로 개별 안내 드립니다.
필요 서류를 확인해주세요!
입사지원서 (자유 양식), 자기소개서, 경력기술서, 포트폴리오(필수) 신입일 경우 자기소개서를, 경력일 경우 경력기술서를 중심으로 기술해 주시기 바랍니다. 포트폴리오 첨부 시, 하단 안내 사항을 확인해 주시기 바랍니다.
근무지
역삼 센터필드 West 타워
고용형태
정규직
아래 안내 사항을 확인해주세요!
장애인 및 국가 유공자 등 취업 보호 대상자는 관계 법령에 따라 우대합니다. 지원서 내용 중 허위사실이 있는 경우에는 합격이 취소될 수 있습니다. 5개월의 수습기간을 적용합니다. 회사는 수습기간에 대한 평가 결과에 따라 본채용을 거부할 수 있으며, 수습기간 중이라도 중간평가 결과에 따라 수습기간을 조기 종료하고 본채용을 거부할 수 있습니다. 수습기간 내 고용형태 및 급여 조정은 없습니다. 채용 전형 중 궁금하신 사항은 크래프톤 채용 FAQ 내에서 확인하실 수 있습니다.
BE BOLD, LEARN AND WIN! 크래프톤의 성장과 도전의 스토리를 알아가고 싶다면?
크래프톤 제작 스튜디오 크래프톤 게임 크래프톤 비전 & 핵심가치 크래프톤 라이프 & 복리후생 크래프톤 공식 유튜브 채널 배틀그라운드 공식 유튜브 채널 크래프톤 인스타그램 크래프톤 블로그
Please check the information below
Those eligible for an affirmative action program such as individuals with disabilities or with distinguished service to the state will be given hiring preference according to relevant laws False statements in your resume may lead to the withdrawal of the employment offer A 5-month probationary period applies. Based on the mid-term evaluation, employment may be terminated early or not continued. No changes in employment type or salary during this period. Please contact [email protected] for other inquiries
BE BOLD, LEARN AND WIN! Would you like to explore KRAFTON’s growth and adventure stories?
KRAFTON Production Studios KRAFTON Games KRAFTON Vision and Core Values KRAFTON Life & Welfare Benefits KRAFTON Youtube Channel BATTLEGROUNDS Youtube Channel KRAFTON Instagram KRAFTON Blog