본문 바로가기
DA/아티클

[강의] 데이터 리터러시 1

by chysh 2025. 5. 13.

<키워드>

데이터 리터러시, 문제 정의 및 방법론, 데이터 유형(정량적 데이터, 정성적 데이터)

 

 

[데이터 리터러시]

1. 데이터 리터러시

-데이터 읽는 능력, 데이터 이해 능력, 데이터 비판적 분석 능력,

결과를 의사소통에 활용할 수 있는 능력

 

-데이터 수집과 데이터 원천을 이해, 데이터에 대한 활용법을 이해,

데이터를 통한 핵심 지표 이해

-> 올바른 질문을 던질 수 있도록 만들어 줌

 

2. 착각

-sql, python, 태블로만 배움

-> 데이터만 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각함,

데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각함,

분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각함

 

=>사실은 리터러시가 부족해서임

 

3. 데이터 해석 오류

1)심슨의 역설: 부분에서 성립한 대소관계가 그부분들을 종합한

전체에 대해서는 성립하지 않는 모순적인 경우

-> 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님,

데이터 기반 결론이라고 해서 이를 맹목적으로 받아들이면 x

 

2)시각화 활용한 왜곡

-자료의 표현 방법에 따라 해석의 오류여지가 존재

(원본, 증가량에 로그, 최초값을 100프로로 놓고 이후 증가율 비교..결과가 확연히 달라짐)

 

3)샘플링 편향

-전체를 대표하지 못하는 편향된 샘플 선정으로 오류 발생

 

4) 상관관계와 인간관계

-상관관계: 두 변수가 얼마나 상호의존적인지 파악, 

한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이 따름

(소아마비-아이스크림/날씨)

->인과관계가 아닌 것을 항상 유의. 

-인과관계: 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태

원인과 결과가 명확한 것

=> 상관관계만으로 섣불리 의사결정 x, 양쪽 모두 활용해 합리적인 의사판단

 

4. 데이터 활용

-그래프를 통해 데이터를 읽어보고,

데이터 작업 전 알고싶은 것을 생각해보는 목적 사고적 방식 가져야함

 

5. 데이터 분석 접근법

문제 및 가설 정의 - 데이터 분석 - 결과 해석 및 액션 도출

(생각-작업-생각)

*생각= 데이터 리터러시가 필요(문제가 되는 경우 多)

항상 왜?를 생각해야 함

 


 

[문제 정의]

1. 문제 정의

데이터 분석 프젝의 성공을 위한 초석,

분석하려는 특정 상황 현상에 대한 명확하고 구체적인 진술

프젝의 목표를 설정하고 분석 방향을 결정

 

-사례

-매출을 어떻게 늘릴 수 있을까?

-> 문제 정의는 했지만, 모호하고 구체적이지 않음

어떤 고객, 제품에 초점을 맞출지에 대한 명확한 지침이 없음

 

=> 지난 6개월 동안 25 - 35세 여성 고객층의 구매 전환율이 급격히 감소했다. 이 고객층의 전환율을 2%에서 5%로 끌어올리기 위해 어떤 마케팅 전략을 적용할 수 있을까?

 

2. 문제 정의 예

🧐 상황: 3개월 전부터 자사 제품의 사용자 수가 감소하고 있다.

사용자 수를 늘리기 위한 포인트 이벤트를 하고 있지만,

효과가 없어 보인다. 또한 자사 제품 내 서비스 중 A 보다 B가

더 안 좋은 상황이다. 사용자가 줄었기 때문에, 수입도 감소하고 있다.

 

  • 사용자 수는 충분히 생각해볼 만한 문제이나,결과적으로 풀고자 하는것이 수입 감소라고 한다면, 사용자 수는 문제가 아닌 원인
  • 이벤트 효과가 없는 것은 충분한 살펴볼 만합니다. 그러나, 이벤트가 효과적이지 않기 때문에 발생하는 문제가 근본적으로 해결되어야 하는 것일까요?
  • a, b서비스 상황 분석은 확인해 봐야 할 내용인 것 같습니다. 그러나 이것을 근본적인 문제라고 하기에는 어려워 보입니다.
  • 궁극적인 문제의 관점에서 수입의 감소는 매우 중요한 문제라고 판단됩니다.그러나, 단어의 정의에 있어 더 명확할 필요가 있습니다. 가령 수입이 의미하는 것이 매출액인지, 순이익인지 등을 고려해야 합니다.

-> 문제 정의는 더 복잡하고 시간이 소요되는 과정, 항상 문제를 올바르게 정의했는지 질문을 가져야함

 

3. 문제 정의 방법론

-MECE: 문제를 상호배타적이면서, 전체적으로 포괄적인 구성요소로 나누는 것.

복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음

  • 사람 - 남성, 여성, 아저씨로 나눔: 남성과 아저씨가 중복
  • 영화 장르 - 액션, 스릴러, 공포로 나눔: 멜로 코메디 등 누락 장르 존재
  • 자동차 - SUV, 세단, 쿠페, 현기차로 나눔: 분류 기준이 다름. 자동차 종류 VS 브랜드
  • 3학년 3반 학급원 - 영어 우수 학생, 수학 우수 학생으로 나눔: 분류 기준이 불명확, 서로 중복되고 누락된 정보가 존재

 

-로직 트리: MECE 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용,

상위문제-> 하위문제로 계층적 접근, 일반적으로 도표형식이라 쉽게 파악 가능

 

-기존 예제를 구조화

  • 수입 = 매출액으로 정의하고 구조화
  • 사용자 수 감소에서 A, B 서비스를 나누어 생각
  • 포인트 이벤트는 해결 방안 중 하나이고, 문제가 되는 것은 아님
  • B서비스를 더 세분화해서 A서비스와 비교해서 다른 점이 무엇인지 찾아볼 수 있도록 구조화

-개선 방법 구조

-실제 예시

 

-앱 서비스에 적용하기 위해 변경해 본다면? (비즈니스에 따라서 정의가 달라짐!)

-세그먼트 분류: 라이트유저, 일반유저, 헤비유저 > 구매 전 고객, 재구매 고객, VIP 고객

ex) 배달의 민족 고마운분, 귀한분, 더귀한분, 천생연분

-캡슐 점유율: 해당 서비스 시장 점유율로 변화

 

 

4) 문제정의를 왜하는가?

  • 문제 정의는 풀고자 하는 것을 명확하게 정의하고
  • 이것을 해결하기 위한 데이터 분석의 방향성을 정하고
  • 결과를 정리하고 해석하여
  • 더 나아지기 위한 새로운 액션 플랜을 수립하기 위함

-> so what? why so?  (핵심 추출, 왜그런건지?)

 

5) 문제정의 팁

  • 결과를 공유하고자 하는 사람이 누구인지 정의하기
  • 결과를 통해 원하는 변화를 생각하기
  • 회사 소속이라면, 경영자의 입장에서 보려고 노력
  • 많은 사람들과 의견을 나눠보는 것도 방법
  • 반드시 혼자서 오래 고민해보는 시간을 가질 것

[데이터 유형]

 

1. 정성적 데이터, 정량적 데이터

 

-정성적 데이터 (Qualitative Data)

  • 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함해요
  • 대부분 텍스트, 비디오, 오디오 형태로 존재해요
  • 정형되지 않고 구조화 되어있지 않아요
  • 데이터를 구조화하기 어려워요
  • 새로운 현상이나 개념에 대한 이해를 심화하는데 사용해요

-정량적 데이터 (Quantitative Data)

  • 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있어요
  • 데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬워요
  • 개인의 해석이나 주관이 적게 작용하는 객관성을 가지고 있어요
  • 지표로 만들기에 용이해요
  • 설문조사, 실험, 인구 통계, 지표 분석 등에 활용해요

 

-유형별 비교

  • 비즈니스 목표를 위해서 두 가지 데이터를 적절하게 활용하는 것이 필요
  • 지표설정과 분석에 활용하기 위한 정량적 데이터를 중점적으로 살펴볼 예정

 

-예제

  • Q1. 한 레스토랑에서 하루에 판매되는 햄버거 세트의 수는 150개 입니다. -양
  • Q2. 한 고객이 카페 이용 리뷰에 "커피 맛이 너무 좋았고, 분위기가 아늑했다"고 말했습니다.-성
  • Q3. 한 온라인 쇼핑몰의 지난 달의 평균 구매 금액은 10만원입니다.-양
  • Q4. 어떤 서비스를 이용한 유저가 "사용하기 쉽고, 인터페이스가 직관적이다"라는 평가를 남겼습니다.-성
  • Q5. 고객 설문 조사에서, 고객들이 서비스에 대해 "만족한다", "매우 만족한다", "만족하지 않는다"와 같이 응답했습니다. -성(양으로 변환o)
  • Q6. 어떤 연구자가 인터뷰를 통해 수집한 데이터에는 참가자들의 나이, 성별, 직업과 더불어 그들의 생각과 느낌이 포함되어 있습니다. -양, 성

 

-정량적 데이터 사례: 인구통계 데이터, 수치형 설문조사 데이터, 비즈니스 성과 데이터, 행동 로그 데이터, 마케팅 데이터

 

-정량적 데이터 활용:

  • 객관적이고 측정가능한 지표를 만들기에 적합
  • 일일 활성 사용자수(DAU, Daily Active User), 재방문 비율(Retention) 등 서비스의 건강 상태를 나타내는 중요한 지표들을 확인할 수 있음 -> 수치형 설문조사 데이터를 정량적인 기준으로 나눈 사례, 추천 지수(NPS)를 만들 수 있음

-통계적 분석 적용

  • 분포, 평균, 중앙값 등을 계산해서 데이터의 경향성과 패턴을 파악
  • 해당 내용을 근거로 의사결정 과정에서 중요한 판단을 내림.-> 여행 키워드 검색 및 예약 시계열 그래프/ 요일별, 성별 레스토랑 팁 분포 그래프

 

- 다양한 데이터 분석 방법 적용

  • 비즈니스 분석, 예측 모델링, 추세 분석을 포함한 머신러닝과 같은 현대적 데이터 분석 기법에 활용
  • 이를 통해 미래 예측, 효율적 자원 배분, 시장 변화에 대한 적응이 가능해짐

 

-위 특성을 바탕으로 우리는 다음과 같은 질문에 대답을 할 수 있음.

  • 한 달 동안 우리 회사가 벌어들이는 매출은 얼마인가?
  • 하루 평균 우리 플랫폼에 접속하는 고객 수는?
  • 지난달에 방문한 유저 중 얼만큼이 다시 우리 서비스를 이용했는가?