AI Terms

Seorang peritel melatih model prediksi permintaan selama enam bulan. Para ilmuwan data memvalidasinya. Pimpinan menyetujuinya. Model tersebut siap. Kemudian masuk ke produksi dan harus menjawab ribuan kueri per hari, masing-masing dalam waktu kurang dari 200 milidetik, selama berbulan-bulan atau bertahun-tahun. Itulah inferensi: proses langsung dan berkelanjutan menjalankan model terlatih pada data nyata untuk menghasilkan output nyata.

Pelatihan mendapatkan sebagian besar perhatian dalam liputan AI. Inferensi adalah tempat nilai bisnis sebenarnya berada.

Pelatihan vs. Inferensi: Perbedaan Fundamental

Memahami inferensi membutuhkan pemahaman tentang apa yang bukan inferensi. Pelatihan adalah proses mengajar model dengan mengeksposnya pada sejumlah besar data dan menyesuaikan parameternya hingga menghasilkan output yang akurat. Pelatihan intensif secara komputasi, mahal, dan dilakukan relatif jarang.

Inferensi adalah kebalikan dari ketiganya. Ini adalah proses mengambil model yang parameternya sudah ditetapkan dan menjalankannya pada input baru untuk menghasilkan prediksi. Inferensi terjadi ketika:

Pelanggan mengetik pertanyaan ke chatbot dan mendapat respons
Sistem deteksi penipuan mengevaluasi transaksi secara real-time
Pipeline pemrosesan dokumen mengekstrak data dari faktur yang diunggah
Mesin rekomendasi memutuskan apa yang ditampilkan kepada pengguna berikutnya

Pelatihan terjadi sekali (atau secara berkala). Inferensi terjadi secara terus-menerus, pada volume yang diminta oleh sistem produksi. Bagi kebanyakan bisnis, inferensi adalah tempat asal hampir semua biaya komputasi AI dalam produksi.

Cara Kerja Inferensi

Selama inferensi, model terlatih menerima input, baik teks, gambar, data terstruktur, atau audio, dan menjalankannya melalui parameter yang telah dipelajari untuk menghasilkan output. Untuk sebuah large language model, ini berarti input dikonversi menjadi token, model memproses token tersebut melalui arsitektur transformer menggunakan mekanisme perhatian yang dipelajari, dan token output dihasilkan secara berurutan hingga respons selesai.

Parameter model tidak berubah selama inferensi. Model tidak belajar dari kueri; ia menerapkan apa yang sudah dipelajari pada input baru. Perbedaan ini penting secara praktis: artinya model yang sama dapat melayani ribuan pengguna secara bersamaan tanpa satu pun memengaruhi yang lain.

Biaya inferensi berasal dari komputasi yang diperlukan untuk memproses input melalui model yang mungkin memiliki miliaran atau ratusan miliaran parameter. Lebih banyak parameter umumnya berarti lebih banyak kemampuan dan lebih banyak komputasi per panggilan inferensi.

Dua Dimensi Kinerja Utama

Latensi adalah berapa lama satu panggilan inferensi berlangsung dari input ke output. Pengguna yang menunggu respons chatbot mengalami latensi. AI pencitraan medis membutuhkan latensi rendah saat ahli radiologi menunggu pembacaan. Pemrosesan dokumen yang terjadi semalam dalam batch dapat mentolerir latensi yang lebih tinggi.

Throughput adalah berapa banyak panggilan inferensi yang dapat ditangani sistem per satuan waktu. Mesin rekomendasi e-commerce yang melayani jutaan pembeli membutuhkan throughput tinggi. Alat analisis dokumen hukum yang digunakan oleh tim 20 analis memiliki persyaratan throughput yang jauh lebih rendah.

Kedua dimensi ini sering saling bertentangan. Mengelompokkan beberapa permintaan inferensi bersama, misalnya, meningkatkan throughput karena perangkat keras memproses banyak input secara paralel, tetapi meningkatkan latensi untuk setiap permintaan individual karena menunggu batch terisi. Keseimbangan yang tepat tergantung pada kasus penggunaan.

Optimasi inferensi adalah bidang teknis yang didedikasikan untuk meningkatkan kedua dimensi, membuat model berjalan lebih cepat dan lebih murah tanpa mengorbankan kualitas.

Inferensi dalam Konteks Stack AI Lengkap

Inferensi berada di bagian atas stack AI. Model fondasi dilatih sekali oleh laboratorium AI menggunakan kluster komputasi besar. Bisnis baik memanggil model ini via API (dalam hal ini inferensi berjalan di infrastruktur penyedia) atau menerapkan model secara lokal di hardware mereka sendiri atau instans cloud.

Pilihan antara inferensi API dan deployment lokal melibatkan trade-off: inferensi API lebih mudah dimulai, berskala otomatis, dan menjaga biaya variabel dengan penggunaan. Deployment lokal memberikan lebih banyak kendali atas privasi data, bisa lebih murah pada volume yang sangat tinggi, memungkinkan kustomisasi melalui fine-tuning, dan menghilangkan ketergantungan pada penyedia eksternal.

Praktik MLOps mengatur bagaimana inferensi dikelola dalam produksi: bagaimana model diberi versi dan dideploy, bagaimana kinerja dipantau, bagaimana rollback ketika model berperilaku tidak terduga, dan kapan perlu melatih ulang. Pemantauan model adalah praktik berkelanjutan mengawasi output inferensi dan metrik kinerja untuk mendeteksi degradasi sebelum menyebabkan dampak bisnis.

Biaya Bisnis dari Inferensi

Bagi organisasi yang menggunakan AI dalam skala besar, biaya inferensi adalah baris anggaran yang material. Pendorong biaya meliputi:

Ukuran model. Model yang lebih besar memerlukan lebih banyak komputasi per panggilan inferensi. Model dengan 70 miliar parameter menghabiskan biaya sekitar 10 kali lebih banyak untuk inferensi dibandingkan model dengan 7 miliar parameter, meskipun perbedaan kualitas dapat membenarkan biaya tersebut untuk beberapa kasus penggunaan.

Volume permintaan. Biaya inferensi berskala dengan penggunaan. Sistem yang menangani 10 juta panggilan inferensi harian menghabiskan biaya lebih banyak secara proporsional dibandingkan yang menangani 10.000.

Perangkat keras. Inferensi GPU lebih cepat tapi lebih mahal dari inferensi CPU. Chip inferensi khusus (seperti TPU Google atau AWS Inferentia) dapat meningkatkan efisiensi biaya untuk beban kerja tertentu.

Ukuran jendela konteks. Untuk model bahasa, input yang lebih panjang menghabiskan lebih banyak biaya untuk diproses karena biaya inferensi berskala dengan jumlah token. Sistem yang melewati konteks besar di setiap panggilan menghadapi biaya yang lebih tinggi secara proporsional.

Kuantisasi, distilasi, caching, dan batching adalah tuas teknis utama untuk mengurangi biaya inferensi tanpa beralih ke model yang berbeda secara fundamental.

Inferensi Real-Time vs. Inferensi Batch

Tidak semua inferensi terjadi secara real-time. Banyak aplikasi AI yang berharga berjalan pada jadwal batch daripada merespons permintaan langsung.

Inferensi real-time menangani permintaan saat tiba, dengan latensi milidetik hingga detik. Chatbot, deteksi penipuan, personalisasi real-time, dan asisten suara semuanya memerlukan mode ini.

Inferensi batch memproses dataset besar sesuai jadwal, sering semalam atau sesuai permintaan. Pengayaan CRM yang berjalan setiap malam untuk menilai semua leads, pemrosesan dokumen yang bekerja melalui antrean file yang diunggah, atau beban kerja analitik yang menghasilkan laporan mingguan semuanya cocok dengan pola batch. Inferensi batch umumnya lebih murah per panggilan inferensi karena dapat memanfaatkan strategi batching yang efisien tanpa kendala persyaratan latensi yang berhadapan dengan pengguna.

Pilihan antara mode adalah keputusan produk dan arsitektur, bukan semata-mata teknis. Banyak kasus penggunaan yang awalnya tampak memerlukan inferensi real-time dapat dirancang ulang sebagai mendekati-real-time atau batch tanpa kehilangan nilai bisnis yang berarti, dengan biaya yang jauh lebih rendah.

Yang Perlu Dipahami oleh Pemimpin Bisnis

Istilah AI yang paling banyak diperhatikan, data pelatihan, arsitektur model, skor benchmark, semuanya berkaitan dengan potensi model. Inferensi adalah tempat potensi tersebut diterjemahkan menjadi hasil bisnis atau tidak.

Pemimpin yang membuat keputusan investasi AI perlu memikirkan ekonomi inferensi dari awal. Model yang tampil luar biasa dalam pengujian tetapi menghabiskan biaya 10 kali anggaran yang diproyeksikan untuk dijalankan dalam produksi bukan sebuah keberhasilan. Model dengan akurasi sedikit lebih rendah tetapi latensi inferensi yang membuat pengguna tetap terlibat mungkin memberikan nilai lebih besar.

Saat mengevaluasi vendor AI atau opsi pembangunan, tanyakan tentang biaya inferensi per panggilan, latensi pada volume produksi, bagaimana biaya inferensi berskala dengan penggunaan, dan apa pendekatan vendor terhadap optimasi inferensi. Itulah angka yang menentukan apakah kasus penggunaan AI secara ekonomis berkelanjutan.

Konsep AI Terkait

Optimasi Inferensi - Teknik untuk membuat inferensi lebih cepat dan lebih murah
MLOps - Mengelola deployment model dan pipeline inferensi
AI di Tepi - Menjalankan inferensi di hardware lokal alih-alih cloud
Pemantauan Model - Melacak kinerja inferensi dari waktu ke waktu
Jendela Konteks - Pendorong biaya utama inferensi untuk model bahasa
Arsitektur Transformer - Cara sebagian besar model modern menghitung inferensi
Kuantisasi - Mengurangi ukuran model untuk menurunkan biaya inferensi

Sumber Eksternal

NVIDIA Inference Platform - Infrastruktur standar industri untuk inferensi model skala besar
Hugging Face Inference Endpoints - Panduan untuk serving model produksi dan trade-off inferensi
Google AI Inference Best Practices - Panduan praktis untuk arsitektur dan optimasi inferensi

Pertanyaan yang Sering Diajukan

Victor Hoang

Co-Founder & CMO, Rework