옛날에 한 나무꾼이 금도끼를 잃어버렸어. 산신령은 그 모습을 보고 안타까워하며 물속에서 나타났지. 산신령이 금도끼를 다시 만들어 주려 했어. 근데 문득 궁금해졌어.
👴 "음? 금도끼는 물러서 나무 자르기 불편하지 않나? 은도끼가 나을거같은데?"
그래서 실험을 해보기로 했어. 주변 마을의 나무꾼들을 불러모아 두 그룹으로 나눈 다음 각각 다른 도끼를 나눠줬지.
🟢 A그룹 (컨트롤 그룹): 금도끼를 받은 나무꾼들
🔵 B그룹 (테스트 그룹): 은도끼를 받은 나무꾼들
나무꾼들은 일정 기간 동안 주어진 도끼로 나무를 벨 것을 요청받았어. 그리고 시간이 지난 후, 산신령은 두 그룹의 결과를 비교했지.
📊 실험 결과: ✅ 금도끼를 받은 나무꾼들은 나무를 벨 때 도끼가 쉽게 무뎌지고 부러지는 문제가 있었어. ✅ 은도끼를 받은 나무꾼들은 튼튼한 도끼 덕분에 훨씬 많은 나무를 벨 수 있었어.
👴 "실험 결과를 보니, 금도끼보다는 은도끼가 나무 베는데 더 적합하구나!"
그렇게 산신령은 결론을 내리고, 금도끼 대신 모두에게 은도끼를 나눠주기로 했어.
- 나무꾼 : 아니, 됐고.. 그냥 금도끼 줘... 금도끼... 내 금 내놔!! 산신령 : 놉, 이제 내 꺼
A/B 테스트란?
A/B 테스트는 두 가지 버전(A와 B)을 비교하여 어떤 것이 더 좋은 결과를 내는지 검증하는 실험 방법이다. 쉽게 말해, 두 개의 옵션을 실제 사용자에게 테스트해 보고 데이터를 바탕으로 최적의 선택을 결정하는 과정!
금도끼 vs 은도끼 실험과 A/B 테스트 비교
산신령이 진행한 도끼 실험도 A/B 테스트와 비슷한 구조다.
✅ A그룹 (테스트 그룹) → 금도끼를 받은 나무꾼들 ✅ B그룹 (컨트롤 그룹) → 은도끼를 받은 나무꾼들
그 결과, 은도끼가 더 튼튼해서 나무를 더 많이 벨 수 있었고, 산신령은 이 데이터를 기반으로 금도끼 대신 은도끼를 배포하기로 결정했다
하지만 여기서 중요한 점이 있다
"사용자가 원하는 것"과 "실제로 더 좋은 성능"이 항상 일치하는 건 아니라는 것!
📌 산신령은 ‘더 효율적인 도끼’가 중요하다고 생각해서 은도끼를 선택했지만, 정작 나무꾼들은 금도끼를 더 좋아하는 데이터도 있었던 거다
👉 A/B 테스트는 단순한 선호도가 아니라, 실제 성능과 사용자 경험을 최적화하는 것이 목표다. 이번 실험에서는 '더 많은 나무를 벨 수 있는 도끼'라는 객관적인 성능 지표를 기준으로 했기 때문에, 산신령은 은도끼를 최적의 선택으로 본 것이다.
하지만 만약 실험의 목적이 **'나무꾼들이 가장 갖고 싶어하는 도끼를 찾는 것'**이었다면, 결과는 다르게 나왔을 수도 있다.
앞서 애자일은 처음부터 완벽한 제품을 제공하기보다, 우선 빠르게 출시하고 시장 반응 보며 개선하는 것이라고 말했었다.
때문에 가장 가벼운 mvp모델만을 만들고, 그걸 바탕으로 계속해서 발전시켜 나간다.
그 발전 과정에서 MVP → 시장 반응 분석 → 개선(데이터 기반 실험) 이 반복되는데.
그 데이터 기반 실험 방법 중 하나가 a/b테스트이다.
실제 예시 사례를 보여주겠다.
1. 토스 UXUI _A/B 테스트 사례
이 화면은 토스 앱에서 여러 가지 옵션을 선택하는 방식이었다. 어떤 문제가 있는지 느껴지는가?
1️⃣ 잘 모르겠다.
2️⃣ 알 것 같다.
이것은 문제는 바로 사용성이다. 디자인도 깔끔하고 나올 컴포넌트들도 명확한데 뭐가 사용성이 불편하냐 물으면 그건 바로 손가락의 물리적 가동범위이다. 별것 아닌 것 처럼 느껴질 수 있겠으나 상단 플러스 아이콘과 바텀 시트 사이의 손가락 가동범위가 상당히 넓어진다. 화면 위에서 버튼을 누른 후 아래에서 올라오는 바텀시트의 버튼까지 시선이 닿으려면, 사용자들은 인지 비용을 더 써야 하기 때문에 선택까지의 시간이 늘어나게된다. 현실 세계에서는 어떤 버튼을 눌렀을 때 그에 대한 반응이 버튼을 누른 곳에서 오는게 당연하다. 그런데 이 사용성은 현실 세계와 동떨어진 모습을 띄고 있어요. 특히 지금 보시는 이미지처럼 옵션 개수가 적을 경우엔 거리가 더 멀어진다는 것이다.
때문에 토스는 이를 개선한 새로운 ui 컴포넌트를 제작해 A/B테스트를 진행했다. 새로 실험한 테스트 군을 보면 어떤가? 상단 플러스 버튼에서 바로 언더드롭 셀렉터의 형태로 ui를 변경하였다. 이렇게 되면 디자인적으로는 다텀시트보다 떨어진 수는 있어도 손가락 가동범위가 좁아지며 상당히 사용성이 좋아진다. 이렇게 A/B테스트를 진행했고, 실제로 바텀시트 ui 보다 테스트한 메뉴ui 에서 아이템 클릭율이 10% 더 높게 나와 변경이 결정되었다고 한다.
그렇기 때문에 A/B테스트를 진행하는 것이다.
이는 단순한 ui 컴포넌트 하나를 만들 때에도 사용성에 큰 차이가 있을 수 있고
그 사용성은 클릭률 변화로 이뤄질 수 있다는 있다는 토스의 사례였다.
2. 넷플릭스 가입 문구 변경 실험
넷플릭스는 AB테스트를 프로덕트 개발에 적극적으로 사용하는 대표 기업이라고 한다. UX뿐만 아니라 개인화 알고리즘, 인코딩 품질 등 프로덕트의 거의 모든 부분에서 AB테스트를 진행하고 있다고 한다. 특히 가입 문구를 두고 실험한 실험은 성공 사례로 아주 유명하다고 한다
해당 사진을 보면 랜딩페이지 CTA버튼의 문구가 다른 것이 보이는가?
[join netflix]
[join now]
[get netflix]
[try it now]
등 수많은 문구로 AB테스트를 진행한 넷플릭스는 결국 단순하게 [try it now]만 노출하는 테스트 성과가 가장 좋아 [try it now]로 결정했다고 한다. 무료 체험기간을 명시한 경우에는 사용자에게 무료체험 이후 구독을 유지할지 말지 고민하게 만들었지만, 단순히 카피만 노출시킨 경우에는 심리적 허들을 낮추어 높은 전환률을 가져왔다고 짐작할 수 있었다고 한다.
세계 최대의 온라인 숙박 플랫폼 중 하나인 Booking.com은 연간 2만 5천 개가 넘는 AB 테스트를 실행하는 데이터 기업이기도 하다고 한다. 숙소를 등록하려고 가입한 숙박업소주가 첫 3개월 동안 크게 이탈하는 데이터를 확인한 Booking.com은 숙박업소주를 대상으로 한 온보딩 과정에서 제품을 설명하는 둘러보기 단계에서 대부분이 건너뛰는 선택지를 고른다는 것을 알아낸다.
둘러보기 단계를 시작하는 팝업은 둘러보기 계속, 건너뛰기, 닫기의 3가지 기능으로 구성되어 있었는데, Booking.com은 처음에 건너뛰기 기능을 없애고 계속하기와 닫기 기능만 남겨 실험을 진행했다. 그 결과 둘러보기를 진행하는 고객을 13% 늘어났다고 한다.
그 이후 한번더 실험을 했는데, 이번엔 기능 변경 없이 팝업의 문구를 수정했다. 이 대안에서 고객은 제품이 어떤 일을 할 수 있는지가 아니라, 나에게 어떤 도움이 되는지를 설명 받도록 문구가 변경되었다고 한다. 그리고 이는 둘러보기를 진행하는 고객을 50% 늘렸다고 한다.
3. 리디북스 웹툰 썸네일
이건 조사하며 내가 미치도록 공감했던 벤치마킹이었다.
다들 유튜브를 보든 나처럼 웹툰이나 웹소설을 보든 마음에 드는 콘텐츠가 나올 때 까지 끝도 없이 스크롤 해본 경험이 있을 것이다.
내가 그간 볼 작품을 골랐던 경험들을 되짚어보면 텍스트는 잘 읽지 않고 표지만 보며 휙휙 내렸던 것 같다. 그러다 걸렸던 작품도 있었는데 표지에 헉, 해서 클릭해보니 진짜 이상한 제목이었던 기억도 있을 정도다.
표지 보고 깜짝 놀라 클릭해 봤는데 소설 제목이 '망나니 PD아이돌로 살아남기'였던...
텍스트만 있었다면 클릭하기 진입장벽 있었을 제목이
표지로 홀려 들어가 재밌게 봤던 기억이 있다.
이런 사정이다 보니 리디북스에선 웹툰의 경우 수많은 삽화를 가지고 무엇이 가장 작품 클릭률이 좋은지 수많은 AB테스트를 진행한다고 한다. 로판의 경우에는 남녀주인공의 로맨스 템션이 극대화된 표지가 클릭률이 좋았다고 한다.
이건 웹툰에서만의 사례도 아닌 게
넷플릭스도 이렇듯 많은 썸네일을 가지고 AB테스트를 진행한다고 하니, 콘텐츠 분야에선 AB테스트가 얼마나 중요한지 알려주는 대목이다.
정리. AB테스트는 왜 필요할까?
1. 사용자 경험 최적화
2. 데이터 기반 의사결정
3. 위험 감소.
4. 지속적인 개선
A/B 테스트는 어느 팀에 필요할까?
모든 팀에 필요하다. 테스트할 여건만 된다면 A/B 테스트를 하는 것이 언제나 낫다고 권장된다. 아무리 경험이 많은 팀이라도고객 경험을 100% 예측할 수 없기 때문이다.
A/B 테스트의 핵심 원칙
🔹거의 모든 작업에서 A/B 테스트를 진행한다.
변경 하나하나마다 성공/실패가 명확한 성적표로 평가된다.
통계적으로 유의미한 차이가 있거나, 긍정적인 효과가 나타났을 때만 '성공'으로 간주한다.
긍정적인 효과가 있어도다른 영역에서 부정적인 영향을 미치면 실패로 판단한다.
🔹모든 고객을 대상으로 테스트할 수는 없다.
고객은 서로 다른 니즈와 행동 패턴을 가지고 있다.
사전에 고객 인터뷰, 데이터 분석, 사용성 테스트를 해도100% 정확한 예측은 불가능하다.
따라서일단 테스트를 하고, 결과를 분석하며 피드백을 받아 개선하는 것이 최선이다.
A/B 테스트는 고객이 몇 명일 때부터 가능할까?
✔이론적으로 실험군이 30명 이상이면 유의미한 결과를 얻을 수 있다. ✔ 그러나테스트군 규모가 클수록 신뢰할 수 있는 결과를 얻기까지 시간이 오래 걸린다. ✔ 일반적으로최소 2~4주 이상테스트하는 것이 권장된다. ✔ 현실적으로극초기 스타트업보다는 일정 규모의 사용자를 확보한 기업에서 A/B 테스트를 진행하는 것이 유리하다. ✔ 사용자 규모가 큰 글로벌 기업에서도일주일 이상의 테스트 기간을 권장한다.
결론
A/B 테스트는고객 경험을 데이터 기반으로 최적화하는 필수적인 방법론이다. 테스트할 수 있는 여건만 된다면,모든 팀이 적용하는 것이 유리하며, 특히일정 규모 이상의 사용자를 보유한 기업에서 적극적으로 활용하는 것이 효과적이다.