Research Engineer Large Language Model (LLM) Pretraining
Mô tả công việc
Key Responsibilities
1. Data Engineering for Pretraining
• Build and maintain scalable pipelines for text collection, cleaning, deduplication, filtering, and quality scoring.
• Process large-scale Vietnamese and multilingual datasets.
• Implement tokenization workflows, corpus sharding, mixture sampling, and dataset balancing.
• Develop automated dataset validation and quality assurance tools.
2. Model Training & Optimization
• Support distributed training of LLMs using DeepSpeed, Megatron-LM, FSDP, or similar.
• Optimize throughput, memory efficiency, and multi-node GPU performance.
• Run full-scale LLM experiments and troubleshoot training issues.
• Conduct model fine-tuning, instruction tuning, and alignment if needed.
3. Infrastructure & Engineering
• Work with multi-GPU/multi-node clusters using Slurm, Docker/Singularity.
• Maintain experiment tracking pipelines.
• Develop reusable tools for logging, checkpointing, and evaluations.
4. Evaluation & Benchmarking
• Prepare and maintain Vietnamese and multilingual benchmark suites.
• Implement automated evaluation pipelines.
• Analyze results to guide improvements.
Yêu cầu công việc
Minimum Requirements
• Bachelor’s/Master’s/PhD’s degree in CS/AI/ML or related fields.
• Strong Python programming and PyTorch experience.
• Understanding of transformer architectures and tokenization.
• Experience with GPU clusters, Linux, Bash.
• Familiarity with distributed training frameworks.
Preferred Qualifications
• Experience with large-scale datasets.
• Knowledge of Vietnamese NLP.
• Experience with MoE, long-context models, deduplication.
• Open-source contributions.
• Experience with quantization, distillation, compression.
Phân tích mức độ cạnh tranh
VietnamWorks AI
-
Bạn phù hợp bao nhiêu % cho vị trí này?
-
Bạn xếp hạng Top bao nhiêu so với những hồ sơ ứng tuyển?
-
Thị trường đang trả mức lương bao nhiêu cho vị trí tương tự?
-
Nhu cầu tuyển dụng cho vị trí này trên thị trường cao hay thấp?
Giá
29.000đ / lượt
Các phúc lợi dành cho bạn
Thưởng
Chăm sóc sức khoẻ
Khác
Thông tin việc làm
14/11/2025
Nhân viên
Giáo Dục > Nghiên Cứu Học Thuật
Python Programming, PyTorch, Transformer Architectures, Gpu Clusters, Vietnamese Nlp
Khác
Bất kỳ
3
Không giới hạn
Địa điểm làm việc
Vincom Center Đồng Khởi, Lê Thánh Tôn, Phường, Bến Nghé, Quận 1, Thành phố Hồ Chí Minh, Việt Nam
7th Floor, Technopark Tower, Vinhomes Ocean Park 1, Gia Lam District, Hanoi
TechnoPark Tower, Vinhomes Ocean Park, Đa Tốn, Gia Lâm, Hanoi, Việt Nam
(Xem bản đồ)Nhận diện một số hình thức lừa đảo
Lừa đảo thu phí
Đưa ra lời mời làm việc dễ dàng bất thường, đãi ngộ cao, kèm theo yêu cầu nộp các loại phí.
Xem chi tiết

