기업들은 새로운 마케팅 캠페인이든 웹 사이트 재설계든 간에, 비즈니스를 개선하기 위해 끊임없이 변화해야 합니다. 그리고 궁극적으로, 우리는 이러한 변화가 그들의 목표에 영향을 미치는지 알고 싶어합니다. 새로운 랜딩 페이지는 더 많은 이메일 가입을 유도합니까? 아티클 구독은 어떤가요? PPC캠페인은 거래를 증가시켰습니까?

이런 유형의 질문에 대답하는 것은 숫자를 뽑는 것만큼 간단하지 않습니다. 우리는 제 시간에 스냅 샷만을 볼 수는 없습니다. 변화와 숫자 사이의 인과 관계를 알고 싶다면 우리의 데이터를 맥락 속에 넣어야 합니다.

인과 관계란?

인과 관계는 특정한 조건 하에서 하나의 상황(원인)이 다른 어떤 것(그 결과)을 발생시키거나 야기시키는 현상입니다. 그러나 “이후”와 “이것 때문에” 사이에는 차이가 있습니다. 그러므로 인과 관계를 연구할 때, 실제로 변화의 영향을 분석적으로 측정하려고 애쓰는 것이 중요합니다.

우리의 새로운 캠페인이 신규 고객 증가의 원인이라는 사실을 어떻게 알 수 있습니까? 우리의 새로운 결제 프로세스 재설계가 더 많은 유입 경로 이탈을 만들어 낸다고 확신할 수 있습니까? 우리 모두는 “상관관계는 인과관계가 아니다”라는 말을 충분히 들어왔기 때문에 예를 들어 상기시킬 필요는 없습니다. 대신 마케팅이나 디자인 노력의 효과를 실제로 측정할 수 있는 몇 가지 방법에 대해 논의하고자 합니다.

왜 추적하기가 그렇게 어려울까요?

현실 세계에서 변화를 만들 때, 모든 다른 변수들을 설명하기는 어렵습니다. 계절성, 선택 편향성, 지리 등과 같은 혼란스러운 변수들은 현실이 다를 때 숫자가 하나의 의미를 내포하게 만들 수 있습니다.

자기잠식이나 후광효과처럼 새로운 캠페인이나 프로모션의 다른 결과들도 있습니다. 자기잠식은 한 가지 “것”의 증가가 관련된 “것”을 감소시키는 것입니다. 이에 대한 한 예로 여러분의 PPC 캠패인이 유료 트래픽을 증가시키지만, 유기적 트래픽을 (자기잠식하여) 감소시키는 것이 될 수 있습니다. 이 예로 든 상황은 이미 유기적으로 얻고 있는 트래픽에 대해 지불하게 되기 때문에 최적의 상황이 아닙니다.

반면, 후광 효과는 한 가지 “것”의 증가가 관련된 “것”을 증가시키는 것입니다. 예를 들어, 샴푸에 대한 프로모션은 (할인되지 않은) 컨디셔너의 판매도 증가시킬 수 있습니다. 일반적으로 복잡한 관계가 있으며, 우리는 명확한 답을 얻기 위해 가능한 많은 것을 통제할 수 있기를 원합니다.

우리는 무엇을 할 수 있습니까?

변화가 있을 때마다, 우리는 그 효과를 어떻게 목격할지에 대해 생각하고자 합니다. 이러한 변화들을 실험처럼 다루는 것이 중요합니다. 이상적으로는, 우리는 통제 집단을 갖고 싶어 합니다. 통제 집단은 실험에서 ‘실험’을 받지 않은 집단으로, 시험 대상(실험을 받은 집단)이 수행하는 방법을 측정하기 위한 벤치마크로 사용됩니다. 단 한 가지만 변경(예를 들어, CTA 버튼의 단어 변경 또는 배너 색 변경)하고 측정 가능한 목표를 염두에 두고 있다고 합시다. 더 많은 구매를 원합니까? 페이지에서의 더 높은 평균 시간을 원합니까?

본질적으로, 우리는 응답 변수가 무엇이 될 것인지 결정할 필요가 있습니다.

통제 실험

통제된 실험에서, 우리는 우리가 실험하고자 하는 새로운 버전을 보거나 경험한 참가자의 무작위 표본을 가지고 있으며, 다른 모든 사람들은 변화 없이 이전 버전을 경험합니다. 변화를 보지 못한 참가자들은 대조군으로 간주되어 우리가 비교할 수 있도록 기준 역할을 합니다.

구글 옵티마이즈(Google Optimize)는 이러한 경우에 사용할 수 있는 훌륭한 도구입니다. A/B 테스트를 실행해야 하는 이유에 대한 자세한 내용은 이 블로그 게시물을 읽어보십시오.

구글 옵티마이즈는 WYSIWYG 편집기로, 웹 사이트에서 실험을 실행하고 구글 애널리틱스와 자연스럽게 통합할 수 있습니다. 구글 옵티마이즈를 사용하면 웹 사이트에서 디자인 변경을 시도하고 변경 사항을 실험할 사용자의 비율을 선택할 수 있습니다. 그런 다음 미리 선택된 목표와 관련하여 어느 A/B 변형이 더 잘 수행되고 있는지에 대한 피드백을 제공합니다.

[마소캠퍼스] 구글 애널리틱스 데이터 속의 인과관계 보기

충분한 데이터가 수집되면, 구글은 어느 A/B 버전이 승자인지 결정합니다.

옵티마이즈 변화가 실험과 통제 집단 사이에서 유일한 차이이기 때문에, 과학적으로 우리의 목표에 대한 모든 변화가 그 변화에 의해 야기되었다고 말할 수 있습니다. 통계적으로 유의미한 결과를 얻으려면, 충분한 데이터를 얻을 때까지 실험을 실행해야 합니다.

옵티마이즈 360을 사용하면 특정 잠재고객을 타겟팅하고 A/B 실험 대신 다변수 실험을 수행할 수 있습니다. 선택 편향이나 다른 교란 요인을 피하기 위해 우리의 실험 및 통제 집단이 동일한 사용자 집단에서 비롯되는 것이 중요합니다.

데이터 과학 솔루션

때로는 무작위 통제 실험은 선택사항이 아닙니다. 어쩌면 우리가 모든 점검 프로세스를 바꿨을 수 있습니다. 어쩌면 제품 세부 정보 페이지의 일부 하위 항목에 사진을 추가한 후, 전체 거래에 미치는 영향을 보고자 합니다. 아니면 우리의 국제 웹사이트 중 하나를 재설계했을 수도 있습니다. 측정 가능한 목표를 염두에 두고, 우리는 이러한 변화가 목표에 어떤 영향을 미치는지 보고 싶어 합니다. 이러한 경우에는 인과 분석을 위해 데이터 과학 솔루션에 대해 자세히 알아봐야 합니다.

이 모델의 기본 개념은 과거 데이터를 교육 데이터로 사용하고, 변경이 발생하지 않은 경우 예상되는 결과를 예측(예견)한 다음, 그 변경으로 인해 실제로 무엇이 발생했는지 결과를 비교하는 것입니다.

이러한 분석에 R 또는 파이썬(Python)과 같은 데이터 과학 도구를 사용할 수 있으며, 빅쿼리(BigQuery) 또는 구글 애널리틱스에서 데이터를 가져올 수 있습니다(여기에서 데이터 가져오기 및 내보내기에 대해 자세히 알아보십시오).

예측

예측은 통제 또는 비교 집단이 없을 때 사용해야 합니다. 이는 사이트 전반의 변화에 적합한 옵션입니다. 분석을 실행하기 위해 시계열 데이터 즉, 일정한 간격(매일, 매주, 매월 등)으로 수집된 데이터를 사용합니다. 단일 변수 시계열 데이터의 경우 일일 총 트랜잭션을 가져온 다음, “예측” 패키지를 사용하여 변경이 발생하기 전 데이터를 분석할 수 있습니다.

일단 데이터가 분석되면, 신뢰 구간(일반적으로 95%) 내에서 향후 데이터 포인트의 예측이 제공됩니다. 실제 관측 데이터를 예측 구간 위에 좌표로 나타내면 변경사항이 유의미한 영향을 미치는지의 여부를 알 수 있습니다.

회색 영역은 95% 신뢰 구간을 나타냅니다. 과거 데이터에서 멀어질수록 신뢰 구간의 범위가 커집니다.

인과 효과(Causal Impact)

이 방법은 사용자 중 일부만이 접하는 변경 사항을 측정하는 데 유용합니다. 인과 효과는 실험 및 통제 집단 간의 과거 패턴 차이를 고려하고, 변경 시 측정 가능한 효과가 관찰되었는지 여부를 결정하기 위해 그 차이를 사용합니다. 즉, 통제 집단은 실험 집단과 다소 유사하거나 상관 관계가 있어야 합니다.

예를 들어, 미국이나 멕시코 웹사이트가 아닌 캐나다 웹사이트를 재설계 했다면, 캐나다 웹사이트의 웹 데이터는 실험 데이터가 될 것이고, 미국과 멕시코 웹사이트 데이터는 우리의 통제 집단이 될 것입니다. (이것이 통제된 실험과 어떻게 다른지 주목하십시오!)

인과 효과 분석에서는 예측 변수(우리의 통제 집단), 반응 변수(실험 집단), 전 기간(변화가 발생하기 전의 과거 데이터), 그리고 후 기간(변화가 발생한 시점에 시작)을 정의합니다. 그런 다음 CausalImpact R 패키지는 분석에 대한 약간의 그래프와 요약을 생성할 수 있습니다. CausalImpact R 패키지에 대한 이 아티클을 참조하십시오. 예제 데이터로 생성된 분석은 아래와 같으며, 여기서 X축의 70에서 변경이 발생했습니다.

첫 번째 패널에는 처리 후 기간에 대한 데이터 및 반사실적 예측을 보여줍니다. 두 번째 패널은 관측된 데이터와 반사실적 예측 간의 차이를 보여줍니다. 이것은 모형에 의해 추정된 점으로 인과 효과입니다.

세 번째 패널은 두 번째 패널의 각 점에서의 원인이 추가되어 개입의 누적 효과의 좌표가 그려집니다. 예측 및 인과 영향 모델을 수행하는 많은 R 및 파이썬 패키지가 있습니다.

대량의 과거 데이터를 사용하는 것은 계절적 및 기타 장기 추세를 포착하고, 통계 분석을 실시할 때 이를 고려할 수 있기 때문에 중요합니다. 하지만, 더욱 중요한 것은 우리가 모형에 신뢰할 수 있는 데이터를 제공하는 것과 우리의 목표가 그 동안 지속적으로 추적되었다는 것 입니다.

이러한 방법은 어떤 변화나 실험을 분석하는데 도움이 될 뿐만 아니라 우리가 웹사이트의 향후 변경 사항을 테스트할 방법을 생각해 내는 데 도움이 됩니다.

원문 URL : https://www.lunametrics.com/blog/2018/08/07/seeing-causality-google-analytics-data/
원문 제목 : Seeing Causality in Google Analytics Data
작성자 및 작성일자: By Dr. Hannah Vogel / August 7, 2018

2022/10/30