Bachelor of Business Administration @PNU/Marketing Analytics

프로젝트 계획 | Project Plan (04.02.2022.)

Hazel Y. 2022. 4. 14. 10:15

이 카테고리에 나는 교수님 한 분과 나, 학부생 1명, 석사생 1명, 이렇게 총 4명이 진행 중인 마케팅 애널리틱스 세미나 프로젝트 진행 과정을 적어나갈 예정이다. 본 세미나를 처음 만들고 학생들을 모집한 교수님은 송태호 교수님이며, 교수님의 약력과 정보가 궁금하다면 아래 링크를 클릭하면 된다.

 

In this category, I'm going to record the progress of the marketing analytics research seminar with one of my professors. For the professor's information, please visit the following link.

https://marketing.pusan.ac.kr/marketing/27894/subview.do

 

Professor

 

marketing.pusan.ac.kr


주제: 세 가지 제품 카테고리의 온라인 리뷰들에서 소비자들은 어떤 트렌드에 대해 많이 언급하나

 

Topic: Identifying trends of what consumers mention in online reviews based on three product categories

 

데이터 수집을 할 웹사이트

  • 세포라 (2020년 미국에서 두 번째로 높은 순매출액을 보여준 온라인 화장품 판매 플랫폼)
  • 순매출액 1위? 배쓰앤바디웍스 (스킨케어, 목욕, 바디케어 제품들만 판매)
  • 3위? 울타 뷰티 (세포라보다 적은 소비자 리뷰 수)

 

From where?

  • sephora.com (an online cosmetic platform that had the second-largest net sales in America in 2020)
  • the first? bathandbodyworks.com (only skincare, bathing, and body care products)
  • the third? ulta.com (fewer consumer reviews than sephora.com)

Top online stores in the Beauty segment in the U.S. in 2020, by e-commerce net sales (source: Statista 2022)

 

데이터 수집 계획

  • 리뷰 텍스트 마이닝
  • 수집할 제품 카테고리
    • 파운데이션
    • 아이섀도우
    • 립스틱

      → 총 20개의 제품에서 각각 55개의 리뷰

  • 도움수 순으로 리뷰 정렬
  • 각각의 제품마다 도움수 상위 55개의 리뷰 수집

 

How?

  • text mining (reviews)
  • product categories
    • foundation
    • eyeshadow
    • lipstick

      → total: 20 products * 55 reviews each

  • sorted reviews by the number of helpfulness
  • gathered the top 55 reviews for each product

내가 세 가지의 제품군으로 파운데이션, 아이섀도우, 그리고 립스틱을 선정한 이유는 이 프로젝트에 가장 적절할 것 같아서였다. 파운데이션 제품은 베이스 제품이기에 화장을 하는 사람들이라면 대부분 사용할 것이라 생각해서였고, 아이섀도우와 립스틱의 경우 제품 특성상 다양한 색, 톤, 글리터, 질감 등이 있기 때문에 메이크업 산업에서의 트렌드를 잘 보여줄 수 있을 거라 생각했기 때문이었다.

세포라 웹사이트에서 처음 리뷰 데이터 수집을 시도했을 때, 이유를 모르는 기술적 문제 때문에 55개보다 많은 수의 리뷰를 수집할 수 없었다. 그래서 그냥 총 20개의 제품에서 리뷰를 도움수 순으로 정렬해서 55개의 리뷰만 모으기로 결정했다.

리뷰를 도움수 순으로 정렬한 이유는 도움수가 많은 수록 더 많은 사람이 그 리뷰에 공감한다는 것을 보여준다고 생각했기 때문이다.

 

The reason why I chose foundation, eyeshadow, and lipstick the three product categories is because I thought that they are most appropriate for this project. I thought that foundation products are used by most of the people who wear make-up because they are make-up base products. And in terms of eyeshadow and lipstick products, I thought that they could show the trend in the make-up industry easily due to their product characteristics - colors, tone, glitters, glowing/matt, etc.

When I first tried web crawling to collect the review data from sephora.com, I could not scrape more than 55 reviews due to some technical issues. So I decided to just gather the top 55 reviews from the sorted ones by the number of helpfulness for 20 products in total.

The reason I sorted the reviews by the number of helpfulness is that I thought that more clicks of helpfulness show more people think similar to the review content.


프로젝트 계획

  • CNN 모델 (의미 있는 문장 필터링)
  • 토픽 모델링 (각각의 제품군에서 어떤 토픽들이 가장 많이 언급되어 왔는지 파악)
  • 시계열 분석 (각각의 토픽의 시간에 따른 변화, 즉 트렌드 파악)

 

Plan

  • CNN (filtering informative sentences)
  • topic modeling (identifying what topics have been mentioned most for each product category)
  • time-series analysis (identifying trends for each topic)

 

나의 학사 마지막 학기 마케팅 애널리틱스 수업 때 진행한 프로젝트에서 나와 또 다른 학우 분 1명, 이렇게 두 명이 한 팀이 되어 올리브영 웹사이트 상의 소비자 화장품 리뷰를 수집한 후 단어 빈도 분석과 간단한 의미 연결망 분석과 토픽 모델링을 진행하였다. 나는 그 프로젝트를 하면서 분석에 큰 의미가 없는 단어들이 너무 많다는 것을 발견하게 되었다. 예를 들어, 아이섀도우 제품 리뷰에 대한 단어 빈도 분석 시 '눈'이나 '아이섀도우' 등과 같은 단어들이 빈도 수 상위 순위를 기록했는데, 이는 물론 말은 되지만 너무 당연해서 그렇게 큰 인사이트를 주지는 못했다. 그래서 이번에는 분석에 의미가 있을 만한 문장들을 필터링할 수 있는 툴을 사용하기로 생각했고, 기존의 연구 논문들을 읽던 중 CNN이라고 불리는 딥러닝 모델을 발견하게 되었다. 그래서 CNN 모델을 사용해야 겠다는 생각을 하게 되었다.

 

As a marketing analytics project that I did during the last semester of my bachelor's program, a fellow student and I conducted word frequency analysis and simple semantic network analysis and topic modeling using cosmetic product reviews on oliveyoung.co.kr. While I was on the project, I found that there were too many useless words for analysis. For example, during the word frequency analysis of eyeshadow product reviews, words such as eye or eyeshadow were mostly on the top of the frequency, which makes sense but doesn't give much insight. So, this time I decided to use a tool to filter sentences that are meaningful for analyses, and while I was reading several research articles, I saw a deep learning model called CNN, which led me to think that I should use it.

 

 

 

* Unauthorized copying and distribution of this post are not allowed.

* 해당 글에 대한 무단 배포 및 복사를 허용하지 않습니다.