Bahasa Indonesia

A/B Testing Chat Funnel: Apa yang Diuji dan Bagaimana Caranya

Seorang growth lead menguji dua pesan pembuka di 1.200 percakapan. Yang pertama dibuka dengan pertanyaan langsung: "Apa yang ingin Anda selesaikan?" Yang kedua dibuka dengan pernyataan framing masalah: "Sebagian besar tim penjualan yang kami ajak bicara menghadapi [masalah spesifik]. Apakah itu sesuatu yang sedang Anda kerjakan?"

Versi problem-framing memiliki tingkat penyelesaian 22 poin lebih tinggi. Bukan karena lebih panjang atau lebih ramah, melainkan karena menunjukkan pemahaman sebelum bertanya apa pun. Penemuan itu membutuhkan 20 menit untuk disiapkan dan menghasilkan keputusan berdasarkan data nyata.

Sebagian besar tim chat funnel mengoptimalkan berdasarkan insting. Seseorang memiliki firasat, mereka mengubah alur, dan mereka tidak pernah tahu apakah perubahan itu membantu atau menyakiti. A/B testing terstruktur mengubah itu. Riset Harvard Business Review tentang A/B testing di B2B menggambarkan A/B testing sebagai salah satu praktik optimasi dengan ROI tertinggi yang tersedia untuk tim pemasaran, karena menggantikan asumsi yang mahal dengan data yang murah. Panduan ini mencakup enam variabel yang layak diuji, langkah setup di ManyChat dan Respond.io, dan cara membaca hasil tanpa tersesat oleh noise.

Apa yang Layak Diuji dalam Chat Funnel

Tidak setiap elemen menghasilkan data yang bermakna ketika diuji. Fokuskan waktu pengujian pada enam variabel dengan dampak tertinggi pada tingkat penyelesaian dan tingkat kualifikasi. Metrik yang menandakan apakah hasil pengujian bermakna, yaitu tingkat penyelesaian, tingkat kualifikasi, tingkat pertemuan yang dipesan, didefinisikan dalam mengukur performa chat funnel.

Variabel Mengapa penting Metrik utama yang diukur
Teks pesan pembuka Kesan pertama menentukan apakah percakapan berlanjut Tingkat penyelesaian
Urutan pertanyaan Gesekan awal menyebabkan drop-off sebelum kualifikasi selesai Tingkat penyelesaian per langkah
Jumlah pertanyaan sebelum menawarkan nilai Terlalu banyak pertanyaan sebelum timbal balik membunuh keterlibatan Tingkat penyelesaian
Frasa CTA (pesan panggilan vs dapatkan audit gratis) Kata-kata spesifik menentukan apakah tindakan terasa bertaruhan rendah atau tinggi Tingkat pertemuan yang dipesan
Waktu penyerahan (tawarkan pertemuan di Q3 vs Q5) Penetapan waktu penawaran sesuai kesiapan pembeli mengubah konversi Tingkat pertemuan yang dipesan
Media (gambar/GIF vs teks saja) Konten visual dapat meningkatkan keterlibatan atau terasa mengganggu tergantung audiens Tingkat buka-ke-penyelesaian

Yang belum layak diuji:

  • Warna tombol (UI WhatsApp tidak mendukung styling kustom)
  • Waktu pengiriman pesan (uji ini setelah variabel lain dioptimalkan)
  • Nama alur atau persona bot (dampak rendah pada metrik konversi)
  • Perubahan kata-kata kecil di bawah 5 kata yang berbeda (sinyal tidak cukup untuk diukur dengan andal)

Mulai dengan teks pesan pembuka jika belum pernah menjalankan pengujian apa pun. Ini adalah variabel dengan pengaruh tertinggi dan menghasilkan hasil yang jelas dan dapat ditindaklanjuti. Untuk landasan tentang seperti apa pesan pembuka yang baik untuk B2B, kualifikasi percakapan membahas prinsip-prinsip desain di balik urutan pertanyaan.

Setup A/B Testing di ManyChat

ManyChat memiliki fitur A/B split bawaan di bawah Flow Builder. Berikut setupnya:

Langkah 1: Bangun alur baseline Anda. Ini adalah Variant A. Pastikan sudah stabil dan telah berjalan setidaknya satu minggu sebelum Anda memperkenalkan pengujian.

Langkah 2: Buat Variant B. Duplikat alur. Ubah hanya satu elemen: teks pesan pembuka, atau urutan pertanyaan, tetapi tidak keduanya. Ganti nama dengan konvensi yang jelas: "Qualification Flow - Variant B - OpenMsg - Apr2026."

Langkah 3: Tambahkan blok A/B Split. Di titik masuk Anda (alur yang aktif ketika percakapan baru dimulai), tambahkan kondisi "Random Split" sebelum pesan pertama. Atur ke 50% untuk Alur A dan 50% untuk Alur B.

Langkah 4: Konfigurasikan persentase pembagian traffic. Jika ingin konservatif dengan variant baru, mulai dengan 20% untuk Variant B dan 80% untuk Variant A. Ini melindungi volume konversi Anda sambil tetap menghasilkan data pengujian. Pindah ke 50/50 setelah 100 percakapan pada variant baru.

Langkah 5: Lacak variant dengan atribut kustom. Tambahkan langkah di awal setiap variant yang mengatur atribut kustom: test_variant = "A" atau "B". Ini memungkinkan Anda memfilter analitik berdasarkan variant untuk membandingkan hasil.

Langkah 6: Konvensi penamaan untuk pelacakan. Gunakan format penamaan yang konsisten: [Nama Alur] - [Variabel Diuji] - [Variant] - [Tanggal]. Ini mencegah kebingungan ketika Anda meninjau pengujian 3 bulan kemudian.

Yang dilacak ManyChat secara bawaan: buka pesan, klik tombol, penyelesaian alur, dan jumlah percakapan per alur. Anda perlu mencocokkan silang dengan CRM Anda untuk mengukur metrik hilir seperti pertemuan yang dipesan atau tingkat lead yang memenuhi syarat.

Setup A/B Testing di Respond.io

Respond.io tidak memiliki fitur A/B split bawaan. Tetapi Anda dapat membuat split berbasis perutean yang mencapai hasil yang sama.

Metode: Aturan perutean bergantian

  1. Buat dua versi alur otomatisasi Anda: Alur A dan Alur B
  2. Di bawah Automation, kemudian Routing Rules, buat aturan yang menetapkan percakapan masuk ke Alur A jika ID kontak genap, dan Alur B jika ID kontak ganjil (gunakan kondisi modulo)
  3. Beri tag setiap percakapan dengan variant yang ditetapkan menggunakan aksi Label di awal setiap alur: "test-variant-a" atau "test-variant-b"
  4. Jalankan kedua alur otomatisasi secara bersamaan

Alternatif, gunakan pembagian berbasis waktu:

Jalankan Variant A selama satu minggu, lalu Variant B minggu berikutnya. Ini lebih mudah dikonfigurasi tetapi memperkenalkan waktu sebagai variabel pengganggu. Jika kualitas atau volume lead berubah dari minggu ke minggu, hasil Anda tidak akan bersih. Gunakan metode ini hanya jika volume percakapan Anda konsisten dari minggu ke minggu.

Pelaporan berdasarkan variant: Di Respond.io, pergi ke Reports, kemudian Labels. Filter berdasarkan "test-variant-a" dan "test-variant-b" untuk melihat jumlah percakapan dan hasil berdasarkan variant. Untuk tingkat lead yang memenuhi syarat, Anda perlu mengekspor data dan mencocokkan silang dengan catatan CRM yang diberi tag berdasarkan variant.

Mendefinisikan Metrik Keberhasilan Sebelum Pengujian

Pilih satu metrik utama per pengujian. Jika Anda menguji terhadap kampanye Click-to-WhatsApp, perhatikan bahwa setup iklan itu sendiri memiliki event konversinya sendiri (percakapan dimulai) yang berada di hulu dari penyelesaian alur. Pastikan pengujian Anda mengukur langkah yang tepat dalam Funnel. Menguji dengan beberapa metrik secara bersamaan membuat interpretasi menjadi ambigu. Apakah Variant B menang karena tingkat penyelesaian lebih tinggi atau tingkat pertemuan yang dipesan lebih tinggi?

Opsi metrik utama:

  • Tingkat penyelesaian: Percakapan yang mencapai langkah terakhir alur. Terbaik untuk menguji pesan pembuka dan urutan pertanyaan.
  • Tingkat kualifikasi: Percakapan di mana lead memenuhi kriteria ICP. Terbaik untuk menguji frasa dan urutan pertanyaan.
  • Tingkat pertemuan yang dipesan: Percakapan yang menghasilkan pemesanan kalender. Terbaik untuk menguji frasa CTA dan waktu penyerahan.
  • Drop-off pada langkah tertentu: Percakapan yang berhenti pada pertanyaan tertentu. Terbaik untuk mengidentifikasi pertanyaan mana yang menyebabkan gesekan.

Ukuran sampel minimum. Anda memerlukan setidaknya 250 penyelesaian per variant sebelum membaca hasil. Bukan 250 percakapan, melainkan 250 penyelesaian (percakapan yang mencapai langkah terakhir). Pada ukuran sampel lebih kecil, perbedaan 10 poin bisa jadi noise acak. Entri Wikipedia tentang signifikansi statistik adalah referensi yang berguna untuk memahami mengapa pengujian dengan tenaga rendah menghasilkan hasil yang tidak dapat diandalkan, khususnya konsep Type I errors (false positive) yang membuat tim mengimplementasikan perubahan yang sebenarnya tidak berhasil.

Untuk sebagian besar chat funnel dengan tingkat penyelesaian sekitar 50%, ini berarti Anda memerlukan 500 total percakapan per variant. Pada 100 percakapan per hari, itu adalah 10 hari per pengujian. Rencanakan sesuai.

Menjalankan Pengujian Tanpa Kontaminasi

Cegah paparan ganda. Lead yang sama tidak boleh memasuki kedua variant. Split bawaan ManyChat menangani ini secara otomatis (kontak ditetapkan ke satu variant secara permanen). Untuk metode perutean Respond.io, gunakan kondisi "telah ditetapkan" untuk mencegah perutean ulang kontak yang kembali.

Berapa lama dijalankan. Jalankan pengujian hingga Anda mencapai ukuran sampel minimum per variant, bukan sampai Anda melihat hasil yang Anda sukai. Kesalahan pengujian yang paling umum: berhenti setelah 100 percakapan ketika Variant B menang dengan 15 poin. Pada ukuran sampel tersebut, perbedaan 15 poin memiliki probabilitas tinggi untuk berbalik dengan lebih banyak data.

Jangan ubah alur baseline di tengah pengujian. Jika Anda memperbaiki bug atau memperbarui frasa di Variant A saat pengujian berjalan, Anda telah membatalkan perbandingan. Catat setiap perubahan alur dan mulai ulang jam pengujian dari saat perubahan dibuat.

Hindari efek musiman. Jangan mulai pengujian selama minggu hari raya besar atau selama periode traffic yang luar biasa tinggi atau rendah. Traffic yang tidak normal memiringkan sampel dan hasil Anda.

Membaca Hasilnya

Setelah mencapai ukuran sampel minimum, bandingkan metrik utama di seluruh variant. Berikut cara menginterpretasikan yang Anda lihat:

Perbedaan lebih dari 15 poin (misalnya, 62% vs 47% tingkat penyelesaian): Bermakna secara statistik dalam sebagian besar kasus. Implementasikan pemenang. Dokumentasikan pembelajaran.

Perbedaan antara 5-15 poin: Berpotensi bermakna. Uji ulang sebelum mengimplementasikan. Jalankan pengujian kedua dengan kohort baru. Jika variant yang sama menang di pengujian ulang, implementasikan. Jika hasil berbalik, variabel memiliki dampak rendah pada audiens spesifik Anda.

Perbedaan di bawah 5 poin: Tidak bermakna. Kedua variant berkinerja serupa. Jangan implementasikan keduanya sebagai perubahan. Pilih variabel berbeda untuk diuji selanjutnya.

Di analitik ManyChat: Pergi ke Analytics, kemudian Flows. Bandingkan tingkat penyelesaian untuk setiap variant alur. Untuk atribut kustom (tingkat kualifikasi, pertemuan yang dipesan), Anda perlu menjalankan filter di CRM atau mengekspor data ManyChat.

Membangun spreadsheet log pengujian sederhana: Pertahankan log berjalan dengan kolom: Nama pengujian, Tanggal mulai, Tanggal selesai, Variabel yang diuji, Deskripsi Variant A, Deskripsi Variant B, Metrik utama, Hasil Variant A, Hasil Variant B, Pemenang, Catatan. Ini menjadi perpustakaan yang dapat dicari tentang apa yang telah Anda pelajari tentang audiens spesifik Anda.

Mengimplementasikan Pemenang dan Mendokumentasikan Pembelajaran

Setelah Anda memiliki pemenang yang jelas. Tim RevOps yang menjalankan tinjauan kebersihan Pipeline mendapat manfaat dari hasil pengujian yang terdokumentasi. Budaya kebersihan Pipeline mencakup bagaimana kebiasaan perbaikan sistematis di tingkat Funnel saling melengkapi dengan praktik kebersihan di tingkat transaksi.

  1. Jadikan variant pemenang sebagai alur baseline baru
  2. Arsipkan Variant B (jangan hapus, Anda mungkin perlu merujuknya nanti)
  3. Perbarui log pengujian Anda dengan hasil dan pembelajaran utama
  4. Identifikasi variabel berikutnya yang akan diuji dari backlog Anda

Efek gabungan. Menjalankan 2 pengujian per bulan selama 6 bulan menghasilkan 12 perbaikan berbasis data pada alur Anda. Jika setiap perbaikan meningkatkan tingkat penyelesaian sebesar 3-5 poin persentase, efek gabungan selama 6 bulan adalah Funnel yang berkinerja jauh lebih tinggi dari awal. Riset McKinsey tentang organisasi pemasaran berbasis data menemukan bahwa perusahaan yang menjalankan program eksperimentasi sistematis mengungguli rekan-rekan dalam pertumbuhan pendapatan sebesar 20%. Tim yang mengoptimalkan paling cepat bukan yang paling cerdas. Mereka hanya menjalankan lebih banyak pengujian dengan dokumentasi yang lebih baik.

Apa yang dicatat dalam log pengujian Anda: Jangan hanya mencatat pemenang. Catat mengapa menurut Anda itu menang. "Pembuka problem-framing menang karena menunjukkan pemahaman sebelum bertanya" lebih berguna dari "Variant B memiliki tingkat penyelesaian lebih tinggi." Hipotesis membantu Anda menerapkan pembelajaran pada desain pengujian mendatang.

Kesalahan Umum

Menguji dua elemen secara bersamaan. Jika Anda mengubah teks pesan pembuka dan urutan pertanyaan antara Variant A dan Variant B, Anda tidak dapat mengetahui perubahan mana yang mendorong hasilnya. Selalu isolasi satu variabel per pengujian.

Mengakhiri pengujian pada 50 percakapan per variant. Pada ukuran sampel ini, perbedaan 20 poin bisa dengan mudah menjadi noise. Tunggu untuk mencapai minimum. Biaya ketidaksabaran menunggu 2 minggu ekstra jauh lebih rendah dari biaya mengimplementasikan perubahan yang sebenarnya merusak performa.

Mengubah alur baseline di tengah pengujian. Setiap perubahan pada variant mana pun selama pengujian membatalkan data. Jika Anda menemukan bug yang harus diperbaiki, mulai ulang pengujian setelah memperbaikinya di kedua variant secara merata.

Memperlakukan perbedaan 3 poin sebagai kemenangan. Itu bukan kemenangan. Dalam rentang 5 poin, Anda telah belajar bahwa variabel ini tidak memiliki dampak bermakna pada audiens spesifik Anda. Data itu berguna, tetapi jawabannya adalah beralih ke variabel yang lebih berdampak, bukan menyatakan pemenang.

Langkah Selanjutnya

Sebelum menjalankan pengujian pertama, bangun backlog dari 10 hipotesis pengujian. Peringkatkan berdasarkan dampak yang diharapkan (seberapa besar perbedaan yang Anda harapkan?) dan kemudahan implementasi (berapa banyak pekerjaan yang dibutuhkan untuk membangun variant?). Mulai dengan pengujian berdampak tinggi dan mudah diimplementasikan.

Format hipotesis yang berfungsi: "Mengubah [elemen] dari [kondisi saat ini] menjadi [kondisi baru] akan meningkatkan [metrik utama] karena [alasan berdasarkan apa yang Anda ketahui tentang audiens Anda]."

Dengan 10 hipotesis di backlog, Anda akan selalu memiliki pengujian berikutnya siap begitu satu selesai. Kesinambungan itulah yang membedakan tim yang secara sistematis meningkatkan Funnel mereka dari tim yang menguji sekali dan kembali ke menebak-nebak.

Pelajari Lebih Lanjut