<키워드>
데이터 리터러시, 문제 정의 및 방법론, 데이터 유형(정량적 데이터, 정성적 데이터)
[데이터 리터러시]
1. 데이터 리터러시
-데이터 읽는 능력, 데이터 이해 능력, 데이터 비판적 분석 능력,
결과를 의사소통에 활용할 수 있는 능력
-데이터 수집과 데이터 원천을 이해, 데이터에 대한 활용법을 이해,
데이터를 통한 핵심 지표 이해
-> 올바른 질문을 던질 수 있도록 만들어 줌
2. 착각
-sql, python, 태블로만 배움
-> 데이터만 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각함,
데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각함,
분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각함
=>사실은 리터러시가 부족해서임
3. 데이터 해석 오류
1)심슨의 역설: 부분에서 성립한 대소관계가 그부분들을 종합한
전체에 대해서는 성립하지 않는 모순적인 경우
-> 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님,
데이터 기반 결론이라고 해서 이를 맹목적으로 받아들이면 x
2)시각화 활용한 왜곡
-자료의 표현 방법에 따라 해석의 오류여지가 존재
(원본, 증가량에 로그, 최초값을 100프로로 놓고 이후 증가율 비교..결과가 확연히 달라짐)
3)샘플링 편향
-전체를 대표하지 못하는 편향된 샘플 선정으로 오류 발생
4) 상관관계와 인간관계
-상관관계: 두 변수가 얼마나 상호의존적인지 파악,
한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이 따름
(소아마비-아이스크림/날씨)
->인과관계가 아닌 것을 항상 유의.
-인과관계: 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태
원인과 결과가 명확한 것
=> 상관관계만으로 섣불리 의사결정 x, 양쪽 모두 활용해 합리적인 의사판단
4. 데이터 활용
-그래프를 통해 데이터를 읽어보고,
데이터 작업 전 알고싶은 것을 생각해보는 목적 사고적 방식 가져야함
5. 데이터 분석 접근법
문제 및 가설 정의 - 데이터 분석 - 결과 해석 및 액션 도출
(생각-작업-생각)
*생각= 데이터 리터러시가 필요(문제가 되는 경우 多)
항상 왜?를 생각해야 함
[문제 정의]
1. 문제 정의
데이터 분석 프젝의 성공을 위한 초석,
분석하려는 특정 상황 현상에 대한 명확하고 구체적인 진술
프젝의 목표를 설정하고 분석 방향을 결정
-사례
-매출을 어떻게 늘릴 수 있을까?
-> 문제 정의는 했지만, 모호하고 구체적이지 않음
어떤 고객, 제품에 초점을 맞출지에 대한 명확한 지침이 없음
=> 지난 6개월 동안 25 - 35세 여성 고객층의 구매 전환율이 급격히 감소했다. 이 고객층의 전환율을 2%에서 5%로 끌어올리기 위해 어떤 마케팅 전략을 적용할 수 있을까?
2. 문제 정의 예
🧐 상황: 3개월 전부터 자사 제품의 사용자 수가 감소하고 있다.
사용자 수를 늘리기 위한 포인트 이벤트를 하고 있지만,
효과가 없어 보인다. 또한 자사 제품 내 서비스 중 A 보다 B가
더 안 좋은 상황이다. 사용자가 줄었기 때문에, 수입도 감소하고 있다.
- 사용자 수는 충분히 생각해볼 만한 문제이나,결과적으로 풀고자 하는것이 수입 감소라고 한다면, 사용자 수는 문제가 아닌 원인
- 이벤트 효과가 없는 것은 충분한 살펴볼 만합니다. 그러나, 이벤트가 효과적이지 않기 때문에 발생하는 문제가 근본적으로 해결되어야 하는 것일까요?
- a, b서비스 상황 분석은 확인해 봐야 할 내용인 것 같습니다. 그러나 이것을 근본적인 문제라고 하기에는 어려워 보입니다.
- 궁극적인 문제의 관점에서 수입의 감소는 매우 중요한 문제라고 판단됩니다.그러나, 단어의 정의에 있어 더 명확할 필요가 있습니다. 가령 수입이 의미하는 것이 매출액인지, 순이익인지 등을 고려해야 합니다.
-> 문제 정의는 더 복잡하고 시간이 소요되는 과정, 항상 문제를 올바르게 정의했는지 질문을 가져야함
3. 문제 정의 방법론
-MECE: 문제를 상호배타적이면서, 전체적으로 포괄적인 구성요소로 나누는 것.
복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음
- 사람 - 남성, 여성, 아저씨로 나눔: 남성과 아저씨가 중복
- 영화 장르 - 액션, 스릴러, 공포로 나눔: 멜로 코메디 등 누락 장르 존재
- 자동차 - SUV, 세단, 쿠페, 현기차로 나눔: 분류 기준이 다름. 자동차 종류 VS 브랜드
- 3학년 3반 학급원 - 영어 우수 학생, 수학 우수 학생으로 나눔: 분류 기준이 불명확, 서로 중복되고 누락된 정보가 존재
-로직 트리: MECE 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는데 사용,
상위문제-> 하위문제로 계층적 접근, 일반적으로 도표형식이라 쉽게 파악 가능
-기존 예제를 구조화
- 수입 = 매출액으로 정의하고 구조화
- 사용자 수 감소에서 A, B 서비스를 나누어 생각
- 포인트 이벤트는 해결 방안 중 하나이고, 문제가 되는 것은 아님
- B서비스를 더 세분화해서 A서비스와 비교해서 다른 점이 무엇인지 찾아볼 수 있도록 구조화
-개선 방법 구조
-실제 예시
-앱 서비스에 적용하기 위해 변경해 본다면? (비즈니스에 따라서 정의가 달라짐!)
-세그먼트 분류: 라이트유저, 일반유저, 헤비유저 > 구매 전 고객, 재구매 고객, VIP 고객
ex) 배달의 민족 고마운분, 귀한분, 더귀한분, 천생연분
-캡슐 점유율: 해당 서비스 시장 점유율로 변화
4) 문제정의를 왜하는가?
- 문제 정의는 풀고자 하는 것을 명확하게 정의하고
- 이것을 해결하기 위한 데이터 분석의 방향성을 정하고
- 결과를 정리하고 해석하여
- 더 나아지기 위한 새로운 액션 플랜을 수립하기 위함
-> so what? why so? (핵심 추출, 왜그런건지?)
5) 문제정의 팁
- 결과를 공유하고자 하는 사람이 누구인지 정의하기
- 결과를 통해 원하는 변화를 생각하기
- 회사 소속이라면, 경영자의 입장에서 보려고 노력
- 많은 사람들과 의견을 나눠보는 것도 방법
- 반드시 혼자서 오래 고민해보는 시간을 가질 것
[데이터 유형]
1. 정성적 데이터, 정량적 데이터
-정성적 데이터 (Qualitative Data)
- 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함해요
- 대부분 텍스트, 비디오, 오디오 형태로 존재해요
- 정형되지 않고 구조화 되어있지 않아요
- 데이터를 구조화하기 어려워요
- 새로운 현상이나 개념에 대한 이해를 심화하는데 사용해요
-정량적 데이터 (Quantitative Data)
- 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있어요
- 데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬워요
- 개인의 해석이나 주관이 적게 작용하는 객관성을 가지고 있어요
- 지표로 만들기에 용이해요
- 설문조사, 실험, 인구 통계, 지표 분석 등에 활용해요
-유형별 비교
- 비즈니스 목표를 위해서 두 가지 데이터를 적절하게 활용하는 것이 필요
- 지표설정과 분석에 활용하기 위한 정량적 데이터를 중점적으로 살펴볼 예정
-예제
- Q1. 한 레스토랑에서 하루에 판매되는 햄버거 세트의 수는 150개 입니다. -양
- Q2. 한 고객이 카페 이용 리뷰에 "커피 맛이 너무 좋았고, 분위기가 아늑했다"고 말했습니다.-성
- Q3. 한 온라인 쇼핑몰의 지난 달의 평균 구매 금액은 10만원입니다.-양
- Q4. 어떤 서비스를 이용한 유저가 "사용하기 쉽고, 인터페이스가 직관적이다"라는 평가를 남겼습니다.-성
- Q5. 고객 설문 조사에서, 고객들이 서비스에 대해 "만족한다", "매우 만족한다", "만족하지 않는다"와 같이 응답했습니다. -성(양으로 변환o)
- Q6. 어떤 연구자가 인터뷰를 통해 수집한 데이터에는 참가자들의 나이, 성별, 직업과 더불어 그들의 생각과 느낌이 포함되어 있습니다. -양, 성
-정량적 데이터 사례: 인구통계 데이터, 수치형 설문조사 데이터, 비즈니스 성과 데이터, 행동 로그 데이터, 마케팅 데이터
-정량적 데이터 활용:
- 객관적이고 측정가능한 지표를 만들기에 적합
- 일일 활성 사용자수(DAU, Daily Active User), 재방문 비율(Retention) 등 서비스의 건강 상태를 나타내는 중요한 지표들을 확인할 수 있음 -> 수치형 설문조사 데이터를 정량적인 기준으로 나눈 사례, 추천 지수(NPS)를 만들 수 있음
-통계적 분석 적용
- 분포, 평균, 중앙값 등을 계산해서 데이터의 경향성과 패턴을 파악
- 해당 내용을 근거로 의사결정 과정에서 중요한 판단을 내림.-> 여행 키워드 검색 및 예약 시계열 그래프/ 요일별, 성별 레스토랑 팁 분포 그래프
- 다양한 데이터 분석 방법 적용
- 비즈니스 분석, 예측 모델링, 추세 분석을 포함한 머신러닝과 같은 현대적 데이터 분석 기법에 활용
- 이를 통해 미래 예측, 효율적 자원 배분, 시장 변화에 대한 적응이 가능해짐
-위 특성을 바탕으로 우리는 다음과 같은 질문에 대답을 할 수 있음.
- 한 달 동안 우리 회사가 벌어들이는 매출은 얼마인가?
- 하루 평균 우리 플랫폼에 접속하는 고객 수는?
- 지난달에 방문한 유저 중 얼만큼이 다시 우리 서비스를 이용했는가?
'DA > 아티클' 카테고리의 다른 글
250519 - 데이터 시각화 101: 데이터 속 거짓말 발견하기 (0) | 2025.05.19 |
---|---|
[강의] 데이터 리터러시 2 (2) | 2025.05.14 |
직무 분석 (0) | 2025.05.12 |
250509 - 주니어 데이터사이언티스트에게 하고 싶은 이야기들 (0) | 2025.05.09 |
250502 - SQL 가독성을 높이는 다섯가지 사소한 습관 (1) | 2025.05.02 |