Model Serving

Triển khai mô hình từ Hugging Face Hub

Giới thiệu

Tính năng này cho phép bạn nhanh chóng đưa các mô hình tiên tiến từ Hugging Face (như Qwen, Llama, Falcon) vào ứng dụng của mình.

Điều kiện tiên quyết

Bạn đã đăng nhập vào hệ thống
Bạn có quyền truy cập vào Project và policy Serving Endpoints

Quy trình thực hiện trên giao diện

Bước 1: Cấu hình Endpoint

Thực hiện các thao tác tương tự Bước 1 của MLflow (Đặt tên, chọn Access Key).

Bước 2: Model Selection (Hugging Face)

Model hub: Chọn Hugging Face.
Registered model: Nhập chính xác ID của mô hình trên Hugging Face (Ví dụ: Qwen/Qwen-3). Hệ thống sẽ thực hiện tìm kiếm và khớp dữ liệu.
Labels: Chọn nhãn OpenAI compatible. Đây là bước quan trọng để bạn có thể sử dụng các tính năng quản lý tập trung trên AI Gateway (Rate limit, Monitoring) cho các mô hình LLM.

Bước 3: Đề xuất môi trường chạy tự động

DataForge tối ưu hóa việc cấu hình cho Hugging Face thông qua chế độ Auto-recommended:

Hệ thống sẽ tự động cấu hình Runtime type là HuggingFace.
Runtime version: Tự động chọn phiên bản container có đầy đủ thư viện (transformers, vLLM...) tương thích với mô hình bạn đã nhập.
Model task: (Ví dụ: text-generation) Tự động được xác định dựa trên metadata của mô hình trên Hub.

Bước 4: Compute Selection (Đặc thù GenAI)

Tại màn hình Compute selection:

Nhập số CPU (cores) và Memory (GB).
Tại mục GPU, các mô hình Hugging Face thường rất nặng, hãy đảm bảo bạn chọn đúng loại GPU (T4, A100...) và nhập số lượng GPU count phù hợp.
Replicas: Chọn số lượng bản sao chạy song song (mặc định là 1).
Tạo Tag để đánh dấu serving endpoint đã tạo
Kiểm tra lại toàn bộ thông tin đã nhập.
Nhấn Create để bắt đầu khởi tạo.
Hệ thống chuyển về danh sách Serving Endpoints.
Endpoint mới xuất hiện với trạng thái đang khởi động.
Nhấn Refresh để cập nhật. Khi chuyển sang Running là sẵn sàng sử dụng.

ℹ️ Nhấn Cancel để hủy và đóng form mà không tạo endpoint. ⚠️ Lưu ý: Cấu hình tài nguyên ảnh hưởng trực tiếp đến hiệu năng và chi phí vận hành. Tham khảo tài liệu kỹ thuật của mô hình để xác định yêu cầu tối thiểu.

Triển khai mô hình từ MLflow Hub

Quản lý & Giám sát Endpoint

CMC Telecom
Aspire to Inspire the Digital World