Quản lý & Giám sát Endpoint
Giới thiệu
Sau khi nhấn nút Create, endpoint của bạn sẽ được quản lý tập trung để đảm bảo tính ổn định cao nhất.
Điều kiện tiên quyết
- Bạn đã đăng nhập vào hệ thống
- Bạn có quyền truy cập vào Project và policy Serving Endpoints
Kiểm tra Trạng thái vận hành
Tại bảng danh sách Serving Endpoints, hãy theo dõi cột Status:
- 🟢 Running: Endpoint đã sẵn sàng nhận request scoring.
- 🟠 Starting: Đang trong quá trình tải mô hình và khởi chạy máy chủ.
- 🔴 Failed: Triển khai thất bại. Click vào tên endpoint để xem lý do lỗi (Failure reason).
Các công cụ giám sát chi tiết (Detail Dashboard)
Nhấn vào tên endpoint trong danh sách để mở trang chi tiết. Trang gồm 3 tab chức năng.
Thông tin chung (Header)
Phần đầu trang hiển thị nhanh:
- Tên endpoint — in đậm, kích thước lớn.
- Status badge — trạng thái hiện tại.
- Created at — thời điểm tạo (ví dụ:
Created 01/04/2026 11:10). - Endpoint URL — địa chỉ API đầy đủ, có nút copy để sao chép nhanh.
- Access key name — tên key được gán (hoặc trống nếu chưa gán).
⚠️ Nếu endpoint chưa có access key, hệ thống hiển thị cảnh báo màu cam: "No access key is authorized for this endpoint." kèm hai nút: Assign Key và Create Key.
Tab Basic Info
Tab mặc định hiển thị thông tin chi tiết của Endpoint, được chia thành 3 nhóm thông tin chính:
- Thông tin cơ bản (Basic Information):
- Endpoint Name: Tên định danh của điểm cuối phục vụ.
- Project: Dự án sở hữu và quản lý tài nguyên.
- Model source: Nguồn máy chủ đã ghi nhận lượt huấn luyện.
- Model name: Tên mô hình đã được đăng ký.
- Model version: Phiên bản cụ thể đang được triển khai.
- Model type: Loại kiến trúc của mô hình.
- Serving runtime: Thông tin về tên và phiên bản môi trường chạy được sử dụng.
- Created at: Dấu thời gian hệ thống khởi tạo endpoint.
- Phân bổ tài nguyên (Resource Allocation):
- CPU: Số lượng nhân CPU đã cấp phát.
- Memory: Dung lượng bộ nhớ RAM được phân bổ.
- GPU: Thông tin về card đồ họa (Hiển thị N/A nếu không sử dụng).
- Mã mẫu tích hợp (Example Code):
Cung cấp đoạn lệnh
curlmẫu theo chuẩn REST API để tích hợp nhanh vào ứng dụng.- Người dùng cần thay thế giá trị Access Key thực tế vào trường
<YOUR_ACCESS_KEY_VALUE>. - Thay thế
<endpoint-name>bằng tên chính xác của endpoint. - Sử dụng icon copy ở góc trên phải để sao chép toàn bộ khối lệnh.
- Người dùng cần thay thế giá trị Access Key thực tế vào trường
Tab Logs
Tính năng cho phép truy xuất và theo dõi nhật ký hoạt động của các máy chủ ảo (pods) theo thời gian thực.
- Tùy chọn lọc dữ liệu:
- Select pod: Lựa chọn xem log của một pod cụ thể trong cụm (áp dụng khi số lượng Replicas > 1).
- Filter by level: Phân loại nhật ký theo các mức độ:
All levels,INFO,WARN,ERROR,DEBUG.
- Ý nghĩa các cấp độ (Log Levels):
- INFO: Ghi lại các bước vận hành bình thường của hệ thống.
- WARN: Các cảnh báo cần lưu ý, không ảnh hưởng trực tiếp đến hoạt động nhưng cần kiểm tra.
- ERROR: Các lỗi nghiêm trọng khiến dịch vụ bị gián đoạn hoặc ngắt quãng.
- DEBUG: Các thông tin kỹ thuật chi tiết phục vụ cho quá trình tìm lỗi và phát triển.
💡 Mẹo: Log hiển thị dưới dạng văn bản có thể cuộn. Bạn nên sử dụng phím tắt Ctrl+F trong trình duyệt để tìm nhanh các từ khóa lỗi quan trọng.
Tab Metrics
Cung cấp hệ thống biểu đồ giám sát hiệu năng hạ tầng theo thời gian thực để hỗ trợ việc tối ưu hóa tài nguyên.
- Tùy chọn hiển thị:
- Time Range: Khoảng thời gian dữ liệu được truy xuất (vD: 1 giờ, 6 giờ, 24 giờ...).
- Select Pod: Xem chỉ số của toàn bộ endpoint hoặc chi tiết theo từng máy chủ ảo.
- Hệ thống các biểu đồ chính:
- CPU Usage: Mức độ tiêu thụ nhân CPU thực tế.
- CPU Throttling: Tỷ lệ phần trăm thời gian CPU bị giới hạn tốc độ do vượt ngưỡng cấp phát.
- Memory Usage: Dung lượng bộ nhớ RAM thực tế đang chiếm dụng.
- Network Received: Lưu lượng dữ liệu mạng truyền đến API (Inbound).
- Network Transmitted: Lưu lượng dữ liệu mạng truyền đi từ API (Outbound).
- GPU Utilization: Mức độ sử dụng nhân tính toán GPU (Chỉ hiển thị nếu endpoint dùng GPU).
- GPU Frame Buffer Memory Usage: Dung lượng bộ nhớ đồ họa thực tế đang sử dụng.
💡 Mẹo xử lý nhanh: Trường hợp Endpoint ở trạng thái Failed, hãy kiểm tra tab Logs với mức lọc ERROR để tìm thông tin lỗi (ví dụ: mô hình không tương thích với Runtime hoặc thiếu bộ nhớ GPU).
Quản lý Access Key (Bảo mật)
Nếu khi khởi tạo bạn quên chưa gắn key hoặc muốn thay đổi:
- Tại tab Basic Info, tìm thông báo "No access key is authorized".
- Nhấn nút Assign Key (Gắn key hiện có) hoặc Create Key (Tạo key mới).
- Chọn Key mong muốn và xác nhận để áp dụng lớp bảo mật cho API của bạn.
Lưu ý: Đối với các Model có nhãn OpenAI compatible, bạn có thể truy cập menu AI Gateway trên sidebar để thực hiện các cấu hình quản lý nâng cao.