목록캐글 (2)
SQL & Python Study

📊 INDEX01. 고객 구성에 따른 total_socre와 adr의 관계 02. 국적에 따른 total_socre와 adr의 관계 03. 마켓 세그먼트에 따른 total_score와 adr의 관계 *호텔 서비스 이용 점수는 total_socre, 평균 일일 요금은 adr 칼럼입니다. *마켓 세그먼트(market_segment)는 고객의 예약 채널을 의미합니다. 01. 고객 구성에 따른 total_score와 adr의 관계 저는 SQL을 활용해서 데이터를 1차 집계했고, 해당 결과를 파이썬에 가져와서 시각화했어요. 추후에 SQL에서 쿼리를 CSV 파일로 추출하는 방법은 나중에 한번 정리해서 올려보겠습니다! 고객 구성에 따른 호텔 서비스 사용 점수를 집계하기 위해서 서브 쿼리를 두 번 사용했는..

📊 Hotel Booking 데이터 전처리 내용 1. 결측치 처리 : SQL에서 사용하기 위해 Na → Null 값으로 변경했어요. 2. 이상치 처리 : adr(평균 일일 요금) 에서 음수 값을 제거했습니다. 음수 데이터가 1건이라, 평균으로 대체하기 보다 제외하는 것을 택했어요. 이 외에 다른 이상치는 발견하지 못 했고, NULL 값은 '해당 없음'이라는 의미를 갖고 있어서 그대로 활용했습니다. 3. 고객 세그멘테이션 : 고객 구성별, 국적별, 예약 채널별(market segmentation)로 군집을 나누었어요. Hotel Booking 데이터에는 고객의 성별이나 연령대 등을 알 수 있는 데이터가 없었어요. 그래서 첫번째로 인원 및 아이 동반 여부에 따라서 고객 구성을 나누었고, 두 번째로 호텔 ..