Model Serving
Overview
Tổng quan
Model Serving là thành phần trong hệ sinh thái của nền tảng, cho phép bạn biến các mô hình AI/ML đã huấn luyện (từ Model Registry, MLflow hoặc Hugging Face) thành các điểm cuối phục vụ (Endpoints) ổn định, bảo mật và có khả năng mở rộng.
Hệ thống hỗ trợ cả các mô hình học máy truyền thống và các mô hình ngôn ngữ lớn (LLM), giúp thu hẹp khoảng cách giữa quá trình phát triển mô hình và triển khai thực tế.
Mục tiêu
- Triển khai mô hình ML/AI đã đăng ký thành API endpoint có thể gọi từ bên ngoài.
- Quản lý vòng đời endpoint: tạo mới, theo dõi trạng thái, xóa.
- Giám sát hiệu năng theo thời gian thực qua Logs và Metrics.
- Kiểm soát truy cập bằng Access Key.
Luồng vận hành chính
Quy trình đưa một mô hình vào sử dụng thực tế thường bao gồm 3 giai đoạn:
- Triển khai (Deployment): Lựa chọn mô hình từ các Hub (MLflow hoặc Hugging Face), thiết lập tài nguyên tính toán (CPU, RAM, GPU) và khởi tạo Endpoint.
- Giám sát (Monitoring): Theo dõi hiệu suất hệ thống, kiểm tra nhật ký vận hành (Logs) và các chỉ số tài nguyên (Metrics).
- Tích hợp (Integration): Sử dụng các Access Key hặc AI Gateway để gọi API từ ứng dụng của bạn.
Các tính năng cốt lõi
- Đa dạng nguồn mô hình (Multi-hub Support): Triển khai trực tiếp từ MLflow Hub hoặc Hugging Face Hub chỉ với vài cú click.
- Tương thích chuẩn OpenAI: Các endpoint GenAI được tự động cấu hình theo chuẩn OpenAI API, giúp việc tích hợp trở nên cực kỳ đơn giản.
- Tích hợp AI Gateway: Cho phép quản lý tập trung nhiều endpoint, kiểm soát chi phí và bảo mật qua cơ chế Virtual Key.
- Quản lý tài nguyên linh hoạt: Tự động đề xuất môi trường chạy (Runtime) và cho phép tùy chỉnh cấu hình phần cứng phù hợp với quy mô tải.
- Quản lý & Giám sát Endpoint: Quản lý tập trung, theo dõi hiệu suất hệ thống, kiểm tra nhật ký vận hành (Logs) và các chỉ số tài nguyên (Metrics) để theo dõi sát sao "sức khỏe" của mô hình.
Tài liệu chi tiết
Để bắt đầu, bạn có thể tham khảo các hướng dẫn cụ thể sau:
- Khởi tạo Endpoint:
- Quản trị và Vận hành:
💡 Gợi ý: Nếu bạn đang làm việc với các mô hình LLM, hãy ưu tiên triển khai kèm theo nhãn AI Gateway để tận dụng tối đa khả năng quản lý tập trung và an toàn thông tin.