Bahasa Melayu

A/B Testing Chat Funnel: Apa yang Perlu Diuji dan Caranya

Seorang ketua pertumbuhan menguji dua mesej pembuka merentasi 1,200 perbualan. Yang pertama dibuka dengan soalan terus: "Apa yang cuba anda selesaikan?" Yang kedua dibuka dengan pernyataan pembingkaian masalah: "Kebanyakan pasukan jualan yang kami bercakap sedang berhadapan dengan [masalah khusus], adakah itu sesuatu yang anda sedang kerjakan?"

Versi pembingkaian masalah mempunyai kadar penyempurnaan 22 mata lebih tinggi. Bukan kerana ia lebih panjang atau mesra, tetapi kerana ia menunjukkan pemahaman sebelum bertanya apa-apa. Penemuan itu mengambil masa 20 minit untuk disediakan dan menghasilkan keputusan berdasarkan data sebenar.

Kebanyakan pasukan chat funnel mengoptimumkan berdasarkan naluri. Seseorang mempunyai firasat, mereka mengubah aliran, dan mereka tidak pernah tahu sama ada perubahan itu membantu atau menyakitkan. A/B testing berstruktur mengubah itu. Penyelidikan Harvard Business Review mengenai A/B testing dalam B2B menggambarkan A/B testing sebagai salah satu amalan pengoptimuman ROI tertinggi yang tersedia untuk pasukan pemasaran, kerana ia menggantikan andaian yang mahal dengan data yang murah. Panduan ini merangkumi enam pemboleh ubah yang berbaloi untuk diuji, langkah persediaan dalam ManyChat dan Respond.io, serta cara membaca keputusan tanpa disesatkan oleh hingar.

Apa yang Berbaloi Diuji dalam Chat Funnel

Tidak setiap elemen menghasilkan data bermakna apabila diuji. Fokuskan masa pengujian anda pada enam pemboleh ubah dengan impak tertinggi pada kadar penyempurnaan dan kadar kelayakan. Metrik yang menandakan sama ada hasil ujian bermakna, kadar penyempurnaan, kadar kelayakan, kadar mesyuarat yang ditempah, ditakrifkan dalam mengukur prestasi chat funnel.

Pemboleh ubah Mengapa ia penting Metrik utama untuk diukur
Teks mesej pembuka Tanggapan pertama menentukan sama ada perbualan diteruskan Kadar penyempurnaan
Susunan soalan Geseran awal menyebabkan pelepasan sebelum kelayakan selesai Kadar penyempurnaan setiap langkah
Bilangan soalan sebelum menawarkan nilai Terlalu banyak soalan sebelum timbal balik membunuh penglibatan Kadar penyempurnaan
Frasa CTA (tempah panggilan berbanding dapatkan audit percuma) Kata-kata khusus menentukan sama ada tindakan terasa berisiko rendah atau tinggi Kadar mesyuarat yang ditempah
Masa serah (tawarkan mesyuarat pada S3 berbanding S5) Memasa tawaran kepada kesediaan pembeli mengubah penukaran Kadar mesyuarat yang ditempah
Media (imej/GIF berbanding teks sahaja) Kandungan visual boleh meningkatkan penglibatan atau terasa mengganggu bergantung pada audiens Kadar buka kepada penyempurnaan

Apa yang tidak berbaloi diuji lagi:

  • Warna butang (UI WhatsApp tidak menyokong gaya tersuai)
  • Masa penghantaran mesej (uji ini selepas pemboleh ubah lain dioptimumkan)
  • Nama aliran atau persona bot (impak rendah pada metrik penukaran)
  • Pindaan frasa kecil kurang daripada 5 patah perkataan berbeza (tidak cukup isyarat untuk diukur dengan dipercayai)

Mulakan dengan teks mesej pembuka jika anda belum menjalankan sebarang ujian. Ia adalah pemboleh ubah dengan daya ungkit tertinggi dan menghasilkan keputusan yang jelas dan boleh diambil tindakan. Untuk asas tentang seperti apa mesej pembuka yang baik untuk B2B, kelayakan perbualan membincangkan prinsip reka bentuk di sebalik penjujukan soalan.

Persediaan A/B Testing dalam ManyChat

ManyChat mempunyai ciri A/B split natif di bawah Flow Builder. Berikut adalah persediaannya:

Langkah 1: Bina aliran garis dasar anda. Ini adalah Variant A. Pastikan ia stabil dan telah berjalan sekurang-kurangnya seminggu sebelum anda memperkenalkan ujian.

Langkah 2: Cipta Variant B. Duplikat aliran. Ubah hanya satu elemen: teks mesej pembuka, atau susunan soalan, tetapi bukan kedua-duanya. Namakan semula dengan konvensyen yang jelas: "Qualification Flow - Variant B - OpenMsg - Apr2026."

Langkah 3: Tambah blok A/B Split. Dalam titik masuk anda (aliran yang diaktifkan apabila perbualan baru bermula), tambah syarat "Random Split" sebelum mesej pertama. Tetapkan kepada 50% → Aliran A, 50% → Aliran B.

Langkah 4: Konfigurasi peratusan pembahagian trafik. Jika anda ingin bersikap konservatif dengan varian baru, mulakan dengan 20% → Variant B, 80% → Variant A. Ini melindungi jumlah penukaran anda sambil masih menjana data ujian. Beralih kepada 50/50 selepas 100 perbualan pada varian baru.

Langkah 5: Jejak varian mengikut atribut tersuai. Tambah langkah pada permulaan setiap varian yang menetapkan atribut tersuai: test_variant = "A" atau "B". Ini membolehkan anda menapis analitik mengikut varian untuk membandingkan hasil.

Langkah 6: Konvensyen penamaan untuk penjejakan. Gunakan format penamaan yang konsisten: [Nama Aliran] - [Pemboleh Ubah Diuji] - [Varian] - [Tarikh]. Ini mencegah kekeliruan apabila anda menyemak ujian 3 bulan kemudian.

Apa yang dijejak ManyChat secara natif: buka mesej, klik butang, penyempurnaan aliran, dan kiraan perbualan bagi setiap aliran. Anda perlu merujuk silang dengan CRM anda untuk mengukur metrik hiliran seperti mesyuarat yang ditempah atau kadar lead berkelayakan.

Persediaan A/B Testing dalam Respond.io

Respond.io tidak mempunyai ciri A/B split natif. Tetapi anda boleh mencipta pembahagian berasaskan penghalaan yang mencapai hasil yang sama.

Kaedah: Peraturan penghalaan berselang-seli

  1. Cipta dua versi aliran automasi anda: Aliran A dan Aliran B
  2. Di bawah Automation → Routing Rules, cipta peraturan yang menugaskan perbualan masuk ke Aliran A jika ID kenalan adalah genap, dan Aliran B jika ID kenalan adalah ganjil (gunakan syarat modulo)
  3. Tandakan setiap perbualan dengan varian yang ditugaskan menggunakan tindakan Label pada permulaan setiap aliran: "test-variant-a" atau "test-variant-b"
  4. Jalankan kedua-dua aliran automasi serentak

Sebagai alternatif, gunakan pembahagian berasaskan masa:

Jalankan Variant A selama seminggu, kemudian Variant B minggu berikutnya. Ini lebih mudah dikonfigurasi tetapi memperkenalkan masa sebagai pemboleh ubah yang mengelirukan. Jika kualiti atau jumlah lead berubah dari minggu ke minggu, keputusan anda tidak akan bersih. Gunakan kaedah ini hanya jika jumlah perbualan anda konsisten dari minggu ke minggu.

Pelaporan mengikut varian: Dalam Respond.io, pergi ke Reports → Labels. Tapis mengikut "test-variant-a" dan "test-variant-b" untuk melihat kiraan perbualan dan hasil mengikut varian. Untuk kadar lead berkelayakan, anda perlu mengeksport data dan merujuk silang dengan rekod CRM yang ditanda mengikut varian.

Menentukan Metrik Kejayaan Anda Sebelum Menguji

Pilih satu metrik utama bagi setiap ujian. Jika anda menguji terhadap kempen Click-to-WhatsApp, ambil perhatian bahawa persediaan iklan itu sendiri mempunyai acara penukaran sendiri (perbualan dimulakan) yang berada di hulu daripada penyempurnaan aliran, pastikan ujian anda mengukur langkah yang betul dalam funnel. Menguji dengan berbilang metrik secara serentak menjadikan tafsiran tidak jelas. Adakah Variant B menang kerana kadar penyempurnaan yang lebih tinggi atau kadar mesyuarat yang ditempah yang lebih tinggi?

Pilihan metrik utama:

  • Kadar penyempurnaan: Perbualan yang mencapai langkah terakhir aliran. Terbaik untuk menguji mesej pembuka dan susunan soalan.
  • Kadar kelayakan: Perbualan di mana lead memenuhi kriteria ICP. Terbaik untuk menguji frasa dan susunan soalan.
  • Kadar mesyuarat yang ditempah: Perbualan yang menghasilkan tempahan kalendar. Terbaik untuk menguji frasa CTA dan masa serah.
  • Pelepasan pada langkah tertentu: Perbualan yang berhenti pada soalan tertentu. Terbaik untuk mengenal pasti soalan mana yang menyebabkan geseran.

Saiz sampel minimum. Anda memerlukan sekurang-kurangnya 250 penyempurnaan bagi setiap varian sebelum membaca keputusan. Bukan 250 perbualan, tetapi 250 penyempurnaan (perbualan yang mencapai langkah terakhir). Pada saiz sampel yang lebih rendah, perbezaan 10 mata boleh jadi hingar rawak. Entri Wikipedia mengenai kepentingan statistik adalah rujukan berguna untuk memahami mengapa ujian yang kurang berkuasa menghasilkan keputusan tidak dipercayai, khususnya konsep Ralat Jenis I (positif palsu) yang mendorong pasukan melaksanakan perubahan yang sebenarnya tidak berfungsi.

Untuk kebanyakan chat funnel dengan kadar penyempurnaan sekitar 50%, ini bermakna anda memerlukan 500 jumlah perbualan bagi setiap varian. Pada 100 perbualan sehari, itu adalah 10 hari bagi setiap ujian. Rancang dengan sewajarnya.

Menjalankan Ujian Tanpa Pencemaran

Cegah pendedahan berganda. Lead yang sama tidak sepatutnya memasuki kedua-dua varian. Pembahagian natif ManyChat mengendalikan ini secara automatik (kenalan ditetapkan kepada satu varian secara kekal). Untuk kaedah penghalaan Respond.io, gunakan syarat "telah ditugaskan" untuk mencegah penghalaan semula kenalan yang kembali.

Berapa lama untuk dijalankan. Jalankan ujian sehingga anda mencapai saiz sampel minimum bagi setiap varian, bukan sehingga anda melihat keputusan yang anda suka. Kesilapan pengujian yang paling biasa: berhenti selepas 100 perbualan apabila Variant B menang dengan 15 mata. Pada saiz sampel itu, perbezaan 15 mata mempunyai kebarangkalian tinggi untuk berbalik dengan lebih banyak data.

Jangan ubah aliran garis dasar semasa ujian. Jika anda membetulkan pepijat atau mengemas kini frasa dalam Variant A semasa ujian sedang berjalan, anda telah membatalkan perbandingan. Buat nota mengenai sebarang perubahan aliran dan mulakan semula jam ujian dari masa perubahan dibuat.

Elakkan kesan bermusim. Jangan mulakan ujian semasa minggu cuti utama atau semasa tempoh trafik luar biasa tinggi atau rendah. Trafik yang luar biasa menherotkan sampel dan keputusan anda.

Membaca Keputusan

Selepas mencapai saiz sampel minimum anda, bandingkan metrik utama merentasi varian. Berikut adalah cara untuk mentafsir apa yang anda lihat:

Perbezaan melebihi 15 mata (contohnya, 62% berbanding 47% kadar penyempurnaan): Bermakna secara statistik dalam kebanyakan kes. Laksanakan pemenang. Dokumentasikan pembelajaran.

Perbezaan antara 5-15 mata: Berpotensi bermakna. Uji semula sebelum melaksanakan. Jalankan ujian kedua dengan kohort segar. Jika varian yang sama menang dalam ujian semula, laksanakannya. Jika keputusan berbalik, pemboleh ubah tersebut mempunyai impak rendah pada audiens khusus anda.

Perbezaan di bawah 5 mata: Tidak bermakna. Kedua-dua varian berprestasi serupa. Jangan laksanakan mana-mana sebagai perubahan. Pilih pemboleh ubah berbeza untuk diuji seterusnya.

Dalam analitik ManyChat: Pergi ke Analytics → Flows. Bandingkan kadar penyempurnaan untuk setiap varian aliran. Untuk atribut tersuai (kadar kelayakan, mesyuarat yang ditempah), anda perlu menjalankan penapis dalam CRM atau mengeksport data ManyChat.

Membina spreadsheet log ujian yang mudah: Kekalkan log berterusan dengan lajur: Nama ujian, Tarikh mula, Tarikh tamat, Pemboleh ubah yang diuji, Penerangan Variant A, Penerangan Variant B, Metrik utama, Keputusan Variant A, Keputusan Variant B, Pemenang, Nota. Ini menjadi perpustakaan yang boleh dicari tentang apa yang telah anda pelajari tentang audiens khusus anda.

Melaksanakan Pemenang dan Mendokumentasikan Pembelajaran

Setelah anda mempunyai pemenang yang jelas, pasukan RevOps yang menjalankan semakan kebersihan Pipeline mendapat manfaat daripada hasil ujian ini yang didokumentasikan, budaya kebersihan Pipeline merangkumi cara tabiat penambahbaikan sistematik di peringkat funnel bergabung dengan amalan kebersihan di peringkat urusan.

  1. Jadikan varian yang menang sebagai aliran garis dasar yang baharu
  2. Arkibkan Variant B (jangan padam, anda mungkin perlu merujuknya kemudian)
  3. Kemas kini log ujian anda dengan keputusan dan pembelajaran utama
  4. Kenal pasti pemboleh ubah seterusnya untuk diuji dari senarai tunggakan anda

Kesan bergabung. Menjalankan 2 ujian sebulan selama 6 bulan menghasilkan 12 penambahbaikan aliran yang disokong data. Jika setiap penambahbaikan meningkatkan kadar penyempurnaan sebanyak 3-5 mata peratusan, kesan bergabung selama 6 bulan adalah funnel yang jauh lebih berprestasi berbanding permulaan anda. Penyelidikan McKinsey mengenai organisasi pemasaran dipacu data mendapati bahawa syarikat yang menjalankan program eksperimen sistematik mengatasi rakan sebaya dalam pertumbuhan hasil sebanyak 20%, kesan bergabung daripada pengujian yang konsisten adalah salah satu peramal terkuat prestasi pemasaran jangka panjang. Pasukan yang mengoptimumkan paling cepat bukan lebih bijak. Mereka hanya menjalankan lebih banyak ujian dengan dokumentasi yang lebih baik.

Apa yang perlu direkodkan dalam log ujian anda: Jangan hanya rekodkan pemenang. Rekodkan mengapa anda fikir ia menang. "Pembuka pembingkaian masalah menang kerana ia menunjukkan pemahaman sebelum bertanya" lebih berguna daripada "Variant B mempunyai kadar penyempurnaan lebih tinggi." Hipotesis membantu anda menggunakan pembelajaran untuk reka bentuk ujian masa hadapan.

Kesilapan Biasa

Menguji dua elemen serentak. Jika anda mengubah teks mesej pembuka dan susunan soalan antara Variant A dan Variant B, anda tidak boleh tahu perubahan mana yang memacu keputusan. Sentiasa asingkan satu pemboleh ubah bagi setiap ujian.

Menamatkan ujian pada 50 perbualan bagi setiap varian. Pada saiz sampel ini, perbezaan 20 mata boleh dengan mudah menjadi hingar. Tunggu minimum. Kos ketidaksabaran menunggu 2 minggu tambahan jauh lebih rendah daripada kos melaksanakan perubahan yang sebenarnya menjejaskan prestasi.

Mengubah aliran garis dasar semasa ujian. Sebarang perubahan pada mana-mana varian semasa ujian membatalkan data. Jika anda menemui pepijat yang mesti dibetulkan, mulakan semula ujian selepas membetulkannya dalam kedua-dua varian sama rata.

Merawat perbezaan 3 mata sebagai kemenangan. Ia bukan. Dalam julat 5 mata, anda telah belajar bahawa pemboleh ubah ini tidak mempunyai impak bermakna pada audiens khusus anda. Itu adalah data berguna, tetapi jawapannya adalah beralih ke pemboleh ubah yang lebih berkesan, bukan mengisytiharkan pemenang.

Apa yang Perlu Dilakukan Seterusnya

Sebelum menjalankan ujian pertama anda, bina senarai tunggakan 10 hipotesis ujian. Susun mengikut jangkaan impak (berapa besar perbezaan yang anda jangkakan?) dan kemudahan pelaksanaan (berapa banyak kerja yang diperlukan untuk membina varian?). Mulakan dengan ujian berdampak tinggi yang mudah dilaksanakan.

Format hipotesis yang berkesan: "Mengubah [elemen] dari [keadaan semasa] kepada [keadaan baharu] akan meningkatkan [metrik utama] kerana [sebab berdasarkan apa yang anda ketahui tentang audiens anda]."

Dengan 10 hipotesis dalam senarai tunggakan, anda akan sentiasa mempunyai ujian seterusnya yang sedia dijalankan sebaik sahaja satu selesai. Kesinambungan itulah yang membezakan pasukan yang menambah baik funnel mereka secara sistematik daripada pasukan yang menguji sekali dan kembali kepada tekaan.

Ketahui Lebih Lanjut