AI Terms

Melatih model AI adalah masalah penelitian. Membuatnya menjawab ribuan permintaan per detik dengan latensi yang konsisten, ketersediaan tinggi, dan biaya yang dapat diprediksi adalah masalah rekayasa yang berbeda tingkatannya. Model serving adalah lapisan infrastruktur yang menjembatani kesenjangan antara model yang terlatih dan sistem produksi yang dapat diandalkan oleh bisnis.

Bagi pemimpin teknologi dan operasi, model serving adalah tempat di mana sebagian besar penerapan AI dunia nyata berhasil atau gagal. Modelnya mungkin sangat baik. Tetapi jika infrastruktur serving tidak dapat menangani beban, mempertahankan uptime, atau mengendalikan biaya, nilai bisnis tidak pernah terwujud.

Apa itu Model Serving

Model serving adalah kumpulan perangkat lunak dan infrastruktur yang mengekspos model machine learning yang terlatih sebagai layanan yang dapat dipanggil. Ketika aplikasi Anda mengirim kueri pengguna ke asisten AI, model serving adalah lapisan yang menerima permintaan, merutekannya ke instance model yang berjalan, menjalankan model, dan mengembalikan hasilnya.

Dalam bentuknya yang paling sederhana, model serving melibatkan:

Instance model yang berjalan (dimuat ke dalam memori GPU atau CPU)
Endpoint API yang menerima permintaan
Logika untuk mengelola konkurensi (menangani beberapa permintaan simultan)
Mekanisme untuk mengembalikan hasil ke pemanggil

Dalam praktiknya, model serving dalam produksi jauh lebih kompleks. Ini mencakup autoscaling (meluncurkan lebih banyak instance model di bawah beban dan menskalakan ke bawah untuk menghemat biaya), load balancing (mendistribusikan permintaan ke seluruh instance), health checks (mendeteksi dan mengganti instance yang gagal), pembuatan versi (menjalankan beberapa versi model secara bersamaan selama rollout), dan monitoring (melacak latensi, tingkat kesalahan, dan pemanfaatan sumber daya).

Bagaimana Model Serving Berbeda dari Istilah Terkait

Istilah-istilah ini sering digunakan secara longgar, dan perbedaannya penting untuk pengambilan keputusan.

Inference adalah tindakan menjalankan model pada input untuk menghasilkan output. Ini adalah operasi komputasi. Model serving adalah infrastruktur yang membuat inference tersedia sebagai layanan yang andal.

Optimisasi inference mengacu pada teknik yang membuat inference lebih cepat atau lebih murah: kuantisasi, batching, caching, optimisasi kernel. Optimisasi adalah properti dari model dan runtime. Serving adalah sistem yang menampung dan mengekspos model yang dioptimalkan.

MLOps adalah praktik yang lebih luas dalam mengoperasionalkan machine learning, termasuk pipeline pelatihan, pelacakan eksperimen, registri model, otomasi penerapan, dan monitoring. Model serving adalah satu komponen dalam siklus hidup MLOps, khususnya lapisan penerapan dan runtime.

Model deployment kadang digunakan secara bergantian dengan model serving, tetapi deployment lebih tepat mengacu pada tindakan membuat model tersedia (peristiwa transisi), sementara serving mengacu pada kondisi operasional yang sedang berlangsung dari ketersediaan tersebut.

Arsitektur Sistem Serving dalam Produksi

Sistem model serving dalam produksi biasanya memiliki beberapa lapisan:

Model registry. Penyimpanan berversi artefak model yang terlatih. Sebelum model dapat disajikan, model tersebut harus didaftarkan (bersama metadata: tanggal pelatihan, benchmark kinerja, dependensi).

Serving runtime. Perangkat lunak yang memuat model dan menjalankan inference. Pilihan umum mencakup TensorFlow Serving, TorchServe, NVIDIA Triton Inference Server, dan runtime yang dikelola oleh penyedia seperti AWS SageMaker atau endpoint Azure ML. Untuk large language model khususnya, framework seperti vLLM, TGI (Text Generation Inference), dan Ollama banyak digunakan.

API gateway. Merutekan permintaan masuk, menerapkan autentikasi dan batas laju, serta menyediakan alamat endpoint yang stabil yang tidak berubah ketika infrastruktur serving yang mendasarinya diskalakan atau diperbarui.

Autoscaler. Memantau volume permintaan dan pemanfaatan sumber daya, kemudian menambah atau menghapus instance model untuk menyesuaikan beban. Ini adalah mekanisme yang memungkinkan sistem menangani lonjakan trafik 10x tanpa pra-provisioning untuk kapasitas puncak sepanjang waktu.

Model monitoring. Melacak latensi, tingkat kesalahan, dan kualitas output dalam produksi. Memberi peringatan ketika perilaku model menyimpang dari baseline.

Keputusan Bisnis dalam Model Serving

Model serving adalah tempat di mana tradeoff biaya dan keandalan investasi AI Anda menjadi konkret. Pemimpin bisnis biasanya mempengaruhi beberapa keputusan penting.

Dikelola versus di-host sendiri. Penyedia cloud (AWS, Azure, Google Cloud) menawarkan platform model serving yang dikelola di mana penyedia menangani penskalaan, perangkat keras, dan manajemen runtime. Serving yang di-host sendiri (pada infrastruktur cloud Anda sendiri atau on-premises) memberikan lebih banyak kendali dan berpotensi biaya lebih rendah dalam skala besar, tetapi memerlukan investasi rekayasa untuk beroperasi.

Sebagian besar perusahaan pasar menengah dimulai dengan serving yang dikelola dari penyedia utama dan beralih ke yang di-host sendiri dalam skala yang lebih besar atau ketika ekonomi biaya membenarkan overhead rekayasa.

Endpoint bersama versus khusus. Sebagian besar API AI berjalan pada infrastruktur bersama di mana permintaan Anda mengantri bersama permintaan pelanggan lain. Endpoint khusus mereservasi kapasitas untuk Anda, menjamin latensi dan ketersediaan tetapi dengan biaya lebih tinggi. Untuk aplikasi produksi yang sensitif terhadap latensi, biaya endpoint khusus sering kali dibenarkan.

Tradeoff latensi versus biaya. Perangkat keras yang lebih cepat dan tingkat lebih tinggi membutuhkan biaya lebih. Mengelompokkan permintaan bersama (menunggu beberapa permintaan terkumpul sebelum memprosesnya bersama) meningkatkan pemanfaatan perangkat keras dan mengurangi biaya, tetapi menambah latensi. Tradeoff yang tepat bergantung pada sensitivitas kasus penggunaan Anda terhadap waktu respons.

Konfigurasi penskalaan. Berapa jumlah minimum instance model yang harus terus berjalan (nol berarti penundaan cold start ketika trafik dilanjutkan; bukan nol berarti selalu membayar untuk kapasitas idle)? Berapa maksimumnya? Seberapa agresif autoscaler harus menambah kapasitas?

Keputusan-keputusan ini memiliki implikasi biaya langsung. Penerapan serving yang terlalu di-provisioning dapat membuang puluhan ribu dolar per bulan. Yang kurang di-provisioning menurunkan pengalaman pengguna selama puncak.

Model Serving untuk Large Language Models

Large language model memperkenalkan tantangan serving yang tidak dimiliki model yang lebih kecil, terutama karena ukurannya.

Model kelas GPT-4 membutuhkan puluhan atau ratusan gigabyte memori GPU hanya untuk dimuat. Sebagian besar penerapan LLM dalam produksi memerlukan serving multi-GPU, di mana model dibagi di antara beberapa GPU. Ini disebut tensor parallelism atau pipeline parallelism, dan framework serving harus mengaturnya.

Manajemen cache key-value (KV) adalah perhatian operasional utama untuk LLM serving. Saat menghasilkan respons token demi token, model menyimpan cache perhitungan perantara dari token sebelumnya (cache KV) untuk menghindari perhitungannya kembali. Cache ini hidup dalam memori GPU dan tumbuh seiring panjang konteks. Sistem serving harus mengelola memori ini dengan hati-hati di seluruh permintaan bersamaan.

Continuous batching adalah optimasi khusus LLM di mana sistem serving mengelompokkan permintaan masuk baru dengan permintaan yang sudah dalam proses generasi, menjaga pemanfaatan GPU tetap tinggi daripada menunggu batch selesai sebelum memulai yang baru. Sistem seperti vLLM memelopori pendekatan ini.

Untuk penerapan Edge AI, model serving pada perangkat keras yang terbatas (laptop, ponsel, perangkat tertanam) memerlukan optimasi tambahan: ukuran model yang lebih kecil, inference dengan presisi lebih rendah, dan framework serving yang dirancang untuk lingkungan CPU atau GPU mobile daripada GPU pusat data.

Tanda-Tanda bahwa Masalah Serving Berdampak pada Nilai Bisnis

Masalah model serving tidak selalu mengumumkan dirinya sebagai kegagalan infrastruktur. Lebih sering, mereka muncul sebagai:

Pengguna melaporkan AI "terasa lambat" tanpa peringatan teknis yang jelas
Adopsi turun setelah lonjakan peluncuran awal, tanpa masalah kualitas yang jelas
Biaya tumbuh tidak proporsional terhadap penggunaan
Waktu respons yang tidak konsisten (cepat kadang-kadang, lambat di lain waktu) yang membuat fitur terasa tidak andal
Tingkat kesalahan melonjak di bawah beban meskipun model bekerja dengan baik dalam kondisi normal

Jika Anda melihat gejala-gejala ini, masalahnya biasanya bukan model itu sendiri. Ini adalah lapisan serving.

Fakta Penting

Model serving adalah infrastruktur yang membuat model AI yang terlatih tersedia sebagai layanan produksi, berbeda dari inference (komputasi) dan MLOps (praktik operasional yang lebih luas).
Sistem serving dalam produksi mencakup model registry, serving runtime, API gateway, autoscaler, dan monitoring.
Keputusan bisnis penting: dikelola versus di-host sendiri, endpoint bersama versus khusus, tradeoff latensi versus biaya, konfigurasi penskalaan.
Large language model memperkenalkan tantangan serving khusus: manajemen memori multi-GPU, cache KV, dan continuous batching.
Sebagian besar masalah serving muncul sebagai degradasi pengalaman pengguna (kelambatan, ketidakkonsistenan) daripada kegagalan keras.

Victor Hoang

Co-Founder & CMO, Rework

AI Terms

Apa itu Model Serving? Menerapkan Model AI yang Bekerja dalam Skala Besar