M온고잉
목록으로
개발·11분 읽기

루커 스튜디오 데이터 혼합, 완벽하게 이해하고 활용하는 법

여러 데이터 소스를 하나의 대시보드로 통합하고 싶다면 데이터 혼합 기능을 마스터해야 합니다. 조인 조건 설정부터 연산자 선택까지, 실무에서 바로 써먹을 수 있는 핵심 노하우를 정리했습니다.

왜 데이터 혼합이 필요한가

분산된 데이터 소스들이 하나의 통합 대시보드로 결합되는 과정을 보여주는 일러스트
분산된 데이터 소스들이 하나의 통합 대시보드로 결합되는 과정을 보여주는 일러스트

비즈니스 인텔리전스 도구를 활용하다 보면, 흩어진 데이터를 하나로 모아 통합 대시보드를 만들어야 하는 상황이 자주 발생합니다. 예를 들어 판매 데이터는 ERP 시스템에, 제품 정보는 별도 스프레드시트에, 마케팅 데이터는 광고 플랫폼에 각각 저장되어 있는 경우가 대표적입니다.

이처럼 분산된 데이터를 미리 하나의 소스로 통합하지 않고도, 시각화 도구 내에서 직접 결합하여 분석할 수 있다면 작업 효율이 크게 향상됩니다. 루커 스튜디오의 데이터 혼합 기능이 바로 이런 니즈를 해결해줍니다.

데이터 혼합이 빛을 발하는 두 가지 시나리오

동일 소스 테이블 연결과 이종 플랫폼 데이터 통합이라는 두 가지 데이터 혼합 시나리오
동일 소스 테이블 연결과 이종 플랫폼 데이터 통합이라는 두 가지 데이터 혼합 시나리오

시나리오 1: 동일 소스, 분리된 테이블

같은 데이터베이스나 스프레드시트 내에서도 정보 특성에 따라 테이블을 분리하는 경우가 많습니다. 예컨대 자동차 판매 회사라면 '판매 이력 테이블'과 '차량 모델 정보 테이블'을 별도로 관리할 수 있습니다. 전자는 일별 판매 기록을, 후자는 모델별 사양과 가격 정보를 담고 있죠.

이 두 테이블을 연결하면 "특정 모델의 상세 스펙과 해당 모델의 실제 판매 실적"을 하나의 화면에서 동시에 확인할 수 있는 인터랙티브 대시보드를 구축할 수 있습니다.

시나리오 2: 이종 플랫폼 데이터 통합

디지털 마케팅 담당자라면 구글 애즈와 페이스북 광고를 동시에 운영하는 경우가 흔합니다. 각 플랫폼은 독립적인 데이터 소스를 제공하는데, 이를 일일이 다운로드해서 수동으로 합치는 대신 루커 스튜디오에서 직접 혼합하면 실시간 통합 리포트를 자동화할 수 있습니다.

데이터 혼합 시작하기: 세 가지 진입점

루커 스튜디오에서 데이터 혼합 기능에 접근하는 세 가지 방법을 보여주는 인터페이스 다이어그램
루커 스튜디오에서 데이터 혼합 기능에 접근하는 세 가지 방법을 보여주는 인터페이스 다이어그램

데이터 혼합 설정에 접근하는 방법은 세 가지입니다:

  • 차트 레벨 접근: 차트를 추가한 후 데이터 소스 하단의 '데이터 혼합' 버튼 클릭
  • 리소스 메뉴: 상단 메뉴의 '리소스 > 혼합 소스 관리'에서 직접 생성
  • 멀티 셀렉션: 이미 추가된 여러 차트를 Shift 키로 선택 후 우클릭하여 '데이터 혼합' 선택

실무에서는 리소스 메뉴를 통한 방식이 가장 체계적이며 재사용 가능한 혼합 소스를 만들 수 있어 권장됩니다.

조인 조건: 데이터 연결의 핵심 열쇠

데이터 테이블 간 조인 조건과 키 매칭을 열쇠와 자물쇠로 표현한 기술 일러스트
데이터 테이블 간 조인 조건과 키 매칭을 열쇠와 자물쇠로 표현한 기술 일러스트

올바른 조인 키 선택하기

조인 조건은 두 테이블을 어떤 기준으로 매칭할지 정의합니다. 단순히 "같은 이름의 컬럼끼리 연결"하는 것이 아니라, 비즈니스 로직을 고려한 전략적 선택이 필요합니다.

예를 들어 자동차 판매 데이터와 모델 정보를 연결할 때, 단순히 '모델명'만으로 조인하면 문제가 생깁니다. 같은 모델이라도 월별로 가격이 변동될 수 있기 때문입니다. 따라서 '판매일자'와 '모델명'을 복합 조인 키로 사용해야 정확한 매칭이 가능합니다.

데이터 타입 정합성 확보

조인 조건으로 설정한 컬럼들은 반드시 동일한 데이터 타입과 포맷을 가져야 합니다. 한쪽은 'YYYY-MM-DD' 형식의 일자 데이터인데 다른 쪽은 'YYYY-MM' 형식의 월 데이터라면 매칭이 실패합니다.

이런 경우 데이터 소스 설정에서 컬럼을 복제하고, 복제본의 데이터 타입을 '연도-월'로 변경하여 조인에 활용할 수 있습니다. 이는 원본 데이터를 수정하지 않고도 루커 스튜디오 레이어에서 포맷을 맞추는 효율적인 방법입니다.

조인 연산자: 데이터 포함 범위 결정하기

LEFT OUTER JOIN과 INNER JOIN의 데이터 포함 범위를 벤 다이어그램으로 표현한 설명 이미지
LEFT OUTER JOIN과 INNER JOIN의 데이터 포함 범위를 벤 다이어그램으로 표현한 설명 이미지

LEFT OUTER JOIN: 기준 테이블 중심 접근

실무에서 가장 많이 사용되는 조인 방식입니다. 왼쪽 테이블의 모든 행을 유지하면서, 오른쪽 테이블에서 매칭되는 데이터만 추가합니다.

자동차 카탈로그 대시보드를 예로 들면, 제품 정보 테이블을 왼쪽에 배치하고 판매 이력을 오른쪽에 두는 것이 적절합니다. 이렇게 하면 아직 판매 실적이 없는 신규 모델도 카탈로그에 표시되기 때문입니다.

주의사항: 오른쪽 테이블에 매칭되는 행이 여러 개 있으면 왼쪽 행이 반복 생성됩니다. 예를 들어 특정 모델의 판매 건수가 10건이면, 해당 모델의 제품 정보 행도 10번 복제됩니다. 따라서 집계 함수(SUM, AVG 등) 사용 시 이를 고려해야 합니다.

INNER JOIN: 양쪽 모두 존재하는 데이터만

두 테이블 모두에 매칭되는 데이터만 결과에 포함시킵니다. 어느 한쪽에만 존재하는 데이터는 제외됩니다.

마케팅 캠페인 비교 대시보드에서 유용합니다. 구글 애즈와 페이스북 광고 데이터를 비교할 때, 양쪽 플랫폼에서 모두 집행된 캠페인만 분석하고 싶다면 INNER JOIN을 사용합니다. 이렇게 하면 한쪽에서만 진행된 캠페인은 자동으로 필터링됩니다.

기타 조인 타입

  • RIGHT OUTER JOIN: LEFT JOIN의 반대로, 오른쪽 테이블 기준
  • FULL OUTER JOIN: 양쪽 테이블의 모든 데이터를 포함하며, 매칭되지 않는 부분은 NULL로 표시
  • CROSS JOIN: 모든 조합을 생성하는 카테시안 프로덕트(실무에서 거의 사용 안 함)

측정기준과 측정항목 설정 전략

측정기준(차원)과 측정항목(지표)의 개념적 차이를 시각적으로 구분한 일러스트
측정기준(차원)과 측정항목(지표)의 개념적 차이를 시각적으로 구분한 일러스트

측정기준(Dimension)

분석의 기준축이 되는 항목들입니다. 날짜, 제품명, 지역, 카테고리 등 그룹핑이나 필터링에 사용되는 텍스트/날짜 필드가 여기에 해당합니다.

측정항목(Metric)

실제 분석 대상이 되는 수치 데이터입니다. 매출액, 클릭수, 전환율 등 집계하거나 계산할 수 있는 숫자 필드를 포함합니다.

집계 함수 선택의 중요성: 앞서 언급한 행 복제 현象 때문에, 측정항목의 집계 함수를 신중히 선택해야 합니다. 제품 기준가격처럼 중복 생성되어도 값이 동일한 경우 AVG(평균)를 사용하면 원래 값을 정확히 표시할 수 있습니다.

실전 활용 팁

필터링과 차트 상호작용 기능을 활용한 인터랙티브 대시보드 구성 예시
필터링과 차트 상호작용 기능을 활용한 인터랙티브 대시보드 구성 예시

필터 활용하기

혼합 전에 특정 테이블의 데이터를 미리 필터링하고 싶다면, 각 테이블 설정에서 필터를 추가할 수 있습니다. 예를 들어 "지난 3개월 데이터만" 또는 "특정 지역 데이터만" 포함시킬 수 있습니다.

인터랙티브 대시보드 구성

혼합 데이터로 여러 차트를 만들 때, 차트 상호작용 기능(교차 필터링)을 활성화하면 사용자가 한 차트에서 항목을 선택했을 때 다른 차트들이 자동으로 필터링됩니다. 이는 탐색적 분석에 매우 유용합니다.

컬럼명 커스터마이징

혼합 후 생성되는 컬럼명이 직관적이지 않을 수 있습니다. 차트 설정에서 각 필드명을 클릭하면 표시명을 변경할 수 있어, 최종 사용자가 이해하기 쉬운 대시보드를 만들 수 있습니다.

데이터 혼합의 한계와 대안

데이터 혼합 기능의 제약사항과 한계를 시각적으로 표현한 인포그래픽
데이터 혼합 기능의 제약사항과 한계를 시각적으로 표현한 인포그래픽

조인 개수 제한

최대 5개의 데이터 소스까지만 혼합할 수 있습니다. 그 이상이 필요하다면 데이터 파이프라인 단계에서 사전 통합을 고려해야 합니다.

필드 개수 제약

단일 소스 사용 시 구글 시트나 BigQuery는 측정기준 100개, 측정항목 100개까지 지원하지만, 데이터 혼합 시에는 측정기준 10개, 측정항목 20개로 제한됩니다. 복잡한 분석이 필요하다면 사전에 데이터 웨어하우스에서 조인을 수행하는 것이 더 효율적일 수 있습니다.

성능 고려사항

조인하는 테이블이 많거나 데이터 볼륨이 클수록 대시보드 로딩 속도가 느려질 수 있습니다. 가능하면 2~3개 테이블 조인에 그치고, 필요 시 데이터 추출 빈도를 조정하거나 캐싱 전략을 활용하는 것이 좋습니다.

마치며

데이터 혼합은 루커 스튜디오의 강력한 기능이지만, 올바른 이해 없이 사용하면 부정확한 분석 결과를 초래할 수 있습니다. 조인 조건과 연산자의 의미를 정확히 파악하고, 데이터 특성에 맞는 설정을 선택하는 것이 핵심입니다.

실무에서는 먼저 소규모 샘플 데이터로 혼합 설정을 테스트하고, 결과값이 예상과 일치하는지 검증한 후 프로덕션에 적용하는 것을 권장합니다. 이를 통해 신뢰할 수 있는 통합 대시보드를 구축할 수 있을 것입니다.