AI Terms

Seorang wakil jualan meminta pembantu AI mereka untuk merumuskan akaun sebelum panggilan. Jika jawapan datang dalam masa 2 saat, mereka menggunakannya setiap kali. Jika ia mengambil masa 18 saat, mereka berhenti menggunakannya dalam masa seminggu. Ciri itu masih wujud. AI masih berfungsi. Tetapi latency telah mematikan penggunaan sebelum sesiapa menyedarinya.

Bagi pemimpin perniagaan yang menggunakan AI, latency bukan kemewahan teknikal. Ia adalah perbezaan antara pelaburan AI yang mengubah tingkah laku dan pelaburan yang ditinggalkan secara senyap. Memahami apa yang mendorongnya dan apa yang boleh anda kawal adalah keperluan praktikal bagi sesiapa yang menaja penggunaan AI.

Apa yang Latency Bermaksud dalam Sistem AI

Latency adalah masa yang berlalu antara menghantar permintaan kepada sistem AI dan menerima respons yang lengkap. Dalam bahasa harian: berapa lama ia mengambil masa?

Tetapi nombor tunggal ini menyembunyikan variasi yang penting. Jurutera AI biasanya mengukur dua komponen yang berasingan:

Masa ke token pertama (TTFT). Berapa lama sehingga model mula menjana output. Untuk respons penstriman (di mana teks muncul perkataan demi perkataan), ini adalah apa yang pengguna tanggap sebagai "betapa cepat AI mula menjawab." TTFT yang tinggi terasa seolah-olah sistem dibekukan.

Masa setiap token output (TPOT). Betapa cepatnya model menjana setiap token selepas yang pertama. Untuk respons yang panjang, ini menentukan jumlah masa yang berlalu. TTFT yang pantas tetapi TPOT yang perlahan bermakna AI bermula dengan cepat tetapi kemudian merangkak melalui jawapan yang panjang.

Jumlah masa respons adalah jumlah kedua-duanya. Untuk respons 500-token dengan TTFT 50ms dan 20ms setiap token, jumlah masanya ialah 10 saat. Untuk respons 50-token, ia adalah 1 saat.

Metrik yang relevan secara praktikal bergantung pada kes penggunaan. Untuk pembantu perbualan, TTFT yang paling penting. Untuk pemproses dokumen kelompok yang berjalan semalaman, jumlah daya pemprosesan lebih penting daripada kelajuan mana-mana pertanyaan tunggal.

Apa yang Mendorong Latency

Latency dalam sistem AI mempunyai beberapa sumber yang berbeza. Mengetahui mana yang dominan dalam penggunaan anda menentukan tempat untuk fokus.

Saiz model. Model yang lebih besar (lebih banyak parameter) lebih perlahan untuk dijalankan. Model kelas GPT-4 mempunyai ratusan bilion parameter. Model kecil yang khusus mungkin mempunyai 7 bilion. Model yang lebih kecil menjawab lebih cepat, kadang-kadang 10-20x lebih cepat, tetapi dengan keupayaan yang lebih rendah. Ini adalah tradeoff teras pengoptimuman inference.

Perkakasan. Inference AI berjalan pada GPU atau cip AI khusus (TPU, AWS Inferentia, dan sebagainya). Model yang sama pada GPU H100 kelas tinggi berjalan dengan ketara lebih cepat daripada pada tika peringkat lebih rendah. Pembekal awan memberi peringkat ketersediaan GPU; penggunaan yang lebih kecil sering mendapat perkakasan yang lebih lama.

Quantization dan ketepatan. Model boleh dijalankan pada ketepatan berangka yang lebih rendah (contohnya, INT8 dan bukannya FP16) untuk mengurangkan keperluan ingatan dan pengiraan. Quantization yang dilaksanakan dengan baik boleh memotong latency sebanyak 2-4x dengan impak kualiti yang sederhana untuk banyak tugas.

Jarak rangkaian. Jika aplikasi anda berada di Eropah dan endpoint inference pembekal AI anda berada di rantau US East, anda menambah 80-150ms latency rangkaian pusing balik sebelum model pun mula "berfikir." Untuk aplikasi masa nyata, pemilihan rantau adalah penting.

Panjang konteks. Model Transformer berskala secara kuadratik dengan panjang tetingkap konteks dalam pengiraan perhatian mereka. Menghantar konteks 100,000-token adalah jauh lebih perlahan daripada konteks 1,000-token. Aplikasi konteks panjang (analisis dokumen, semakan kod pangkalan kod yang besar) membayar kos latency yang ketara.

Batching dan kedalaman baris gilir. Endpoint inference awan melayan banyak pengguna serentak. Apabila permintaan meningkat, permintaan menunggu dalam baris gilir. Masa menunggu baris gilir ini adalah latency yang tidak kelihatan dari perspektif pengguna tetapi boleh menambah saat kepada masa respons di bawah beban.

Langkah pengambilan semula. Sistem retrieval-augmented generation menambah langkah carian sebelum inference model. Carian vektor yang dioptimumkan dengan baik mengambil masa 50-200ms. Yang dioptimumkan dengan buruk boleh mengambil masa 2-5 saat, mendominasi jumlah latency.

Mengapa Ia Lebih Penting daripada Kebanyakan Metrik

Penyelidikan tentang pengalaman pengguna dan penggunaan AI menunjukkan corak yang konsisten: ambang masa respons menentukan sama ada ciri menjadi tabiat atau titik geseran.

Untuk kes penggunaan interaktif (pembantu, copilot, carian), respons di bawah 2 saat terasa segera. 2-5 saat adalah ketara tetapi boleh diterima. Melebihi 5 saat, pengguna melepaskan perhatian, berhenti menunggu atau mencari penyelesaian lain. Melebihi 10 saat untuk pertanyaan rutin, kadar penggunaan jatuh dengan mendadak dan sering tidak pulih walaupun sistem bertambah baik.

Ini mewujudkan masalah berganda untuk AI perusahaan. Sistem yang perlahan semasa pelancaran melatih pengguna untuk menjangkakan kelambatan dan mengembangkan tingkah laku mengatasi (mengabaikan ciri itu, mencari jalan lain). Walaupun apabila latency bertambah baik, perubahan tingkah laku sudah berlaku.

Implikasi perniagaan: ambang latency harus ditakrifkan sebagai kriteria penerimaan sebelum penggunaan, bukan diukur selepas pelancaran sebagai renungan kemudian.

Alternatif Edge AI

Satu tindak balas seni bina terhadap latency inference awan adalah untuk memindahkan model lebih dekat kepada pengguna, secara harfiah. Edge AI menjalankan model yang lebih kecil dan dioptimumkan pada peranti tempatan atau perkakasan on-premises, menghapuskan latency rangkaian sepenuhnya.

Untuk kes penggunaan di mana privasi data adalah penting (perubatan, undang-undang, kewangan), penggunaan edge juga menghapuskan data yang meninggalkan kawalan organisasi. Tradeoffnya ialah model edge biasanya lebih kecil dan kurang berkemampuan daripada model frontier yang dihoskan di awan.

Kerangka keputusan adalah mudah: jika kes penggunaan anda memerlukan respons hampir masa nyata (antara muka suara, pengimbasan dokumen masa nyata, alatan jualan lapangan dengan kesambungan yang tidak boleh dipercayai), penggunaan edge adalah berbaloi untuk dinilai. Jika kes penggunaan anda bertolak ansur dengan beberapa saat (analisis tak segerak, kelompok semalaman, pengayaan latar belakang), inference awan dengan model frontier biasanya merupakan pilihan yang betul.

Apa yang Boleh Dipengaruhi oleh Pemimpin Perniagaan

Pasukan teknikal mengurus kebanyakan keputusan pengoptimuman latency, tetapi pemimpin perniagaan mengawal beberapa faktor yang menentukan sampul latency operasi.

Reka bentuk kes penggunaan. Aliran kerja tak segerak (menyediakan ringkasan sebelum mesyuarat, bukan semasa) mengubah latency 15 saat daripada masalah kepada bukan isu. Reka bentuk produk yang baik sering menghapuskan latency sebagai kekangan dengan mengalihkan masa pengiraan berlaku.

Tradeoff pemilihan model. Memilih antara model frontier dan model khusus yang lebih kecil sering merupakan keputusan perniagaan dengan dimensi latency. Model yang lebih kecil yang diselaraskan untuk tugas khusus anda mungkin lebih pantas dan lebih murah sambil memenuhi keperluan kualiti. Ini memerlukan model monitoring untuk mengesahkan kualiti sebelum menggunakan alternatif yang lebih kecil.

Definisi SLA. Mentakrifkan SLA latency yang eksplisit (contohnya, "respons persentil ke-95 di bawah 3 saat") memberikan pasukan kejuruteraan sasaran konkrit dan mewujudkan infrastruktur pengukuran untuk mengesan kemerosotan sebelum pengguna melakukannya.

Bajet infrastruktur. Tahap GPU premium memerlukan kos lebih. Endpoint inference kos rendah adalah lebih perlahan. Tradeoff ini biasanya berbaloi untuk dibuat secara eksplisit dan bukannya membiarkannya sebagai lalai yang tidak kelihatan.

Fakta Utama

Latency AI mempunyai dua komponen: masa ke token pertama (responsiviti yang ditanggap pengguna) dan jumlah masa respons (berkaitan untuk output yang panjang).
Pemacu utama adalah saiz model, tahap perkakasan, quantization, jarak rangkaian, panjang konteks dan kedalaman baris gilir di bawah beban.
Penggunaan pengguna biasanya pecah melebihi 5 saat untuk kes penggunaan interaktif, dan sering tidak pulih walaupun apabila latency bertambah baik kemudian.
Pilihan seni bina (aliran kerja tak segerak, penggunaan edge, pemilihan model) boleh menghapuskan atau membingkai semula kekangan latency dan bukannya hanya mengoptimumkannya.
SLA latency harus ditakrifkan sebelum penggunaan, bukan diukur selepas pelancaran.

Victor Hoang

Co-Founder & CMO, Rework