AI Terms

Seorang peruncit melatih model ramalan permintaan selama enam bulan. Saintis data mengesahkannya. Pihak pengurusan meluluskannya. Model itu bersedia. Kemudian ia memasuki pengeluaran dan perlu menjawab ribuan pertanyaan setiap hari, setiap satu dalam masa kurang daripada 200 milisaat, selama berbulan-bulan atau bertahun-tahun. Itulah inferens: proses langsung dan berterusan menjalankan model terlatih pada data sebenar untuk menjana output sebenar.

Latihan mendapat sebahagian besar perhatian dalam liputan AI. Inferens adalah tempat nilai perniagaan sebenarnya wujud.

Latihan vs. Inferens: Perbezaan Asas

Memahami inferens memerlukan pemahaman tentang apa yang ia bukan. Latihan adalah proses mengajar model dengan mendedahkannya kepada data dalam jumlah besar dan melaraskan parameternya sehingga ia menghasilkan output yang tepat. Latihan memerlukan pengiraan yang intensif, mahal dan dijalankan agak jarang.

Inferens adalah sebaliknya dalam ketiga-tiga aspek tersebut. Ia adalah proses mengambil model yang parameternya sudah ditetapkan dan menjalankannya pada input baharu untuk menjana ramalan. Inferens berlaku apabila:

Pelanggan menaip soalan ke dalam chatbot dan mendapat respons
Sistem pengesanan penipuan menilai transaksi dalam masa nyata
Pipeline pemprosesan dokumen mengekstrak data daripada invois yang dimuat naik
Enjin cadangan memutuskan apa yang perlu ditunjukkan kepada pengguna seterusnya

Latihan berlaku sekali (atau berkala). Inferens berlaku secara berterusan, pada volum yang dituntut oleh sistem pengeluaran. Bagi kebanyakan perniagaan, inferens adalah tempat hampir semua kos pengkomputeran AI dalam pengeluaran berasal.

Cara Inferens Berfungsi

Semasa inferens, model terlatih menerima input, sama ada teks, imej, data berstruktur atau audio, dan menjalankannya melalui parameter yang telah dipelajari untuk menghasilkan output. Bagi sebuah large language model, ini bermakna input ditukar kepada token, model memproses token tersebut melalui seni bina transformer menggunakan mekanisme perhatian yang telah dipelajari, dan token output dijana secara berurutan sehingga respons selesai.

Parameter model tidak berubah semasa inferens. Model tidak belajar daripada pertanyaan; ia menerapkan apa yang telah dipelajari kepada input baharu. Perbezaan ini penting secara praktikal: ia bermakna model yang sama boleh melayani ribuan pengguna serentak tanpa seorang pun mempengaruhi yang lain.

Kos inferens datang daripada pengiraan yang diperlukan untuk memproses input melalui model yang mungkin mempunyai berbilion atau ratusan berbilion parameter. Lebih banyak parameter biasanya bermakna lebih banyak keupayaan dan lebih banyak pengiraan per panggilan inferens.

Dua Dimensi Prestasi Utama

Latensi ialah tempoh masa yang diambil oleh satu panggilan inferens dari input ke output. Pengguna yang menunggu respons chatbot mengalami latensi. AI pengimejan perubatan memerlukan latensi rendah apabila ahli radiologi menunggu bacaan. Pemprosesan dokumen yang berlaku pada waktu malam dalam kelompok boleh bertolak ansur dengan latensi yang lebih tinggi.

Throughput ialah berapa banyak panggilan inferens yang boleh dikendalikan oleh sistem per unit masa. Enjin cadangan e-dagang yang melayani jutaan pembeli memerlukan throughput yang tinggi. Alat analisis dokumen undang-undang yang digunakan oleh pasukan 20 penganalisis mempunyai keperluan throughput yang jauh lebih rendah.

Kedua-dua dimensi ini sering mengalami pertukaran antara satu sama lain. Mengelompokkan beberapa permintaan inferens bersama, sebagai contoh, meningkatkan throughput kerana perkakasan memproses banyak input secara selari, tetapi meningkatkan latensi untuk setiap permintaan individu kerana ia menunggu kelompok diisi. Imbangan yang tepat bergantung pada kes penggunaan.

Pengoptimuman inferens adalah bidang teknikal yang didedikasikan untuk meningkatkan kedua-dua dimensi, menjadikan model lebih pantas dan lebih murah tanpa mengorbankan kualiti.

Inferens dalam Konteks Stack AI Penuh

Inferens berada di bahagian atas stack AI. Model asas dilatih sekali oleh makmal AI menggunakan kelompok pengiraan yang besar. Perniagaan sama ada memanggil model ini melalui API (dalam kes ini inferens berjalan pada infrastruktur pembekal) atau menggunakan model secara tempatan pada perkakasan sendiri atau contoh awan.

Pilihan antara inferens API dan penggunaan tempatan melibatkan pertukaran: inferens API lebih mudah untuk dimulakan, berskala secara automatik dan mengekalkan kos berubah dengan penggunaan. Penggunaan tempatan memberikan lebih kawalan ke atas privasi data, boleh lebih murah pada volum yang sangat tinggi, membolehkan penyesuaian melalui fine-tuning dan menghapuskan pergantungan pada pembekal luaran.

Amalan MLOps mengawal cara inferens diurus dalam pengeluaran: cara model diberi versi dan digunakan, cara prestasi dipantau, cara untuk memulihkan semula apabila model berkelakuan tidak dijangka dan bila perlu melatih semula. Pemantauan model adalah amalan berterusan memerhati output inferens dan metrik prestasi untuk mengesan kemerosotan sebelum ia menyebabkan kesan perniagaan.

Kos Perniagaan Inferens

Bagi organisasi yang menggunakan AI pada skala besar, kos inferens adalah baris belanjawan yang material. Pemacu kos termasuk:

Saiz model. Model yang lebih besar memerlukan lebih banyak pengiraan per panggilan inferens. Model dengan 70 bilion parameter mengambil kos lebih kurang 10 kali lebih banyak untuk menjalankan inferens berbanding model dengan 7 bilion parameter, walaupun perbezaan kualiti mungkin membenarkan kos tersebut untuk beberapa kes penggunaan.

Volum permintaan. Kos inferens berskala dengan penggunaan. Sistem yang mengendalikan 10 juta panggilan inferens harian mengambil kos lebih banyak berbanding sistem yang mengendalikan 10,000.

Perkakasan. Inferens GPU lebih pantas tetapi lebih mahal berbanding inferens CPU. Cip inferens khusus (seperti TPU Google atau AWS Inferentia) boleh meningkatkan kecekapan kos untuk beban kerja tertentu.

Saiz tetingkap konteks. Bagi model bahasa, input yang lebih panjang mengambil kos lebih banyak untuk diproses kerana kos inferens berskala dengan bilangan token. Sistem yang menghantar konteks yang besar pada setiap panggilan menghadapi kos yang lebih tinggi secara berkadar.

Kuantisasi, penyulingan, caching dan pengelompokan adalah tuas teknikal utama untuk mengurangkan kos inferens tanpa bertukar kepada model yang berbeza secara asas.

Inferens Masa Nyata vs. Inferens Kelompok

Tidak semua inferens berlaku dalam masa nyata. Banyak aplikasi AI yang berharga beroperasi mengikut jadual kelompok dan bukannya menjawab permintaan langsung.

Inferens masa nyata mengendalikan permintaan semasa ia tiba, dengan latensi milisaat hingga saat. Chatbot, pengesanan penipuan, pemperibadian masa nyata dan pembantu suara semuanya memerlukan mod ini.

Inferens kelompok memproses set data yang besar mengikut jadual, sering pada waktu malam atau atas permintaan. Pengayaan CRM yang berjalan setiap malam untuk menilai semua petunjuk jualan, pemprosesan dokumen yang melalui baris fail yang dimuat naik, atau beban kerja analitik yang menjana laporan mingguan, semuanya sesuai dengan corak kelompok. Inferens kelompok umumnya lebih murah per panggilan inferens kerana ia boleh memanfaatkan strategi pengelompokan yang cekap tanpa kekangan keperluan latensi yang berhadapan dengan pengguna.

Pilihan antara mod adalah keputusan produk dan seni bina, bukan semata-mata teknikal. Banyak kes penggunaan yang pada mulanya kelihatan memerlukan inferens masa nyata boleh direka bentuk semula sebagai hampir-masa-nyata atau kelompok tanpa kehilangan nilai perniagaan yang bermakna, pada kos yang jauh lebih rendah.

Apa yang Perlu Difahami oleh Pemimpin Perniagaan

Istilah AI yang mendapat paling banyak perhatian, data latihan, seni bina model, skor penanda aras, semuanya berkaitan dengan potensi model. Inferens adalah tempat potensi tersebut sama ada diterjemahkan kepada keputusan perniagaan atau tidak.

Pemimpin yang membuat keputusan pelaburan AI perlu memikirkan ekonomi inferens dari awal. Model yang berprestasi cemerlang dalam ujian tetapi mengambil kos 10 kali ganda daripada belanjawan yang diunjurkan untuk dijalankan dalam pengeluaran bukanlah kejayaan. Model dengan ketepatan yang sedikit lebih rendah tetapi latensi inferens yang mengekalkan penglibatan pengguna mungkin memberikan lebih banyak nilai.

Apabila menilai vendor AI atau pilihan pembinaan, tanya tentang kos inferens per panggilan, latensi pada volum pengeluaran, cara kos inferens berskala dengan penggunaan dan pendekatan vendor terhadap pengoptimuman inferens. Itulah angka yang menentukan sama ada kes penggunaan AI boleh dikekalkan secara ekonomi.

Konsep AI Berkaitan

Pengoptimuman Inferens - Teknik untuk menjadikan inferens lebih pantas dan lebih murah
MLOps - Mengurus penggunaan model dan pipeline inferens
AI Tepi - Menjalankan inferens pada perkakasan tempatan dan bukannya awan
Pemantauan Model - Menjejaki prestasi inferens dari masa ke masa
Tetingkap Konteks - Pemacu kos utama inferens untuk model bahasa
Seni Bina Transformer - Cara kebanyakan model moden mengira inferens
Kuantisasi - Mengurangkan saiz model untuk merendahkan kos inferens

Sumber Luaran

NVIDIA Inference Platform - Infrastruktur piawai industri untuk inferens model berskala besar
Hugging Face Inference Endpoints - Panduan untuk serving model dalam pengeluaran dan pertukaran inferens
Google AI Inference Best Practices - Panduan praktikal untuk seni bina dan pengoptimuman inferens

Soalan Lazim

Victor Hoang

Co-Founder & CMO, Rework