목록전체 글 (28)
SQL & Python Study

📊 INDEX 01. 경기 시간별 상관계수 분석 02. 경기 시간별 오브젝트, 킬/데스, 골드 획득 추이03. 승패 집단별 각 요인 차이 비교🙋🏻♀️ 숮엉's comment"첫째 날 담당했던 오브젝트와 승리 요인 분석을 더 깊게 들어가봤습니다! 다소 특이한 양상을 보여주었던 900초 미만 플레이를 비롯해 [ 15분 미만 / 15분 이상 ~ 25분 미만 / 25분 이상 ~ 35분 미만 / 35분 이상 ] 4개로 데이터를 나누어, 경기 시간 별로 승리 요인이 어떻게 바뀌는지 분석해봤습니다." 📌 LOL 사전지식 (= 경기 시간에 따라 집단을 나누어서 분석했는지)데이터를 EDA 해보았을 때 900초 미만의 플레이에서 데이터가 많이 튀는 것을 볼 수 있었는데요. LOL 게임 룰에 따르면 15분(900초..

📊 INDEX 01. 사용할 데이터 확인 02. 필요한 컬럼 생성 03. 담당 분석 주제 선정 및 1차 EDA- 오브젝트와 승패의 상관관계 분석- 킬, 데스와 승패의 관계 분석 📌 프로젝트 개요 01. 사용할 데이터 확인 info(), describe() 를 활용해 데이터를 빠르게 확인.총 180928개의 데이터로 49개 컬럼으로 구성되어 있음. 결측치는 없었으나, 900초 이전에 게임이 끝난 경기들이 존재(9496건)게임 규칙상 15분(900초) 이전에 기권을 진행할 수 없기 때문에, 특이 플레이로 간주추후 게임 플레이 시간별로 집단을 나누어 확인하는 것으로 논의. 각 플레이어의 킬 수, 데스 수, 데미지 피해량, 골드 총량, 시야 점수, 군중 제어 시간(초)을 알 수 있었으나, 챔피언은..

✏️ STUDY INDEX 01. 로지스틱 회귀 (Logistic Regression) 02. 최근접 이웃 (K-Nearest Neighbors, K-NN)03. 평가지표 F1-score와 혼동행렬 01. 로지스틱 회귀 (Logistic Regression)이진 또는 다항 분류 문제 해결에 주로 사용하는 분석 기법*범주가 2개인 것 (ex. 스팸 메일인지 아닌지)데이터가 어떤 범주에 속할 확률을 예측선형 회귀 결과를 0~1 사이 값으로 반환하는 시그모이드 함수를 활용하여 확률로 반환하는 원리.비용 함수를 최소화하여 모델의 예측 성능을 높이는 것이 목표*비용함수 : 로지스틱 회귀 모델이 예측한 값과 실제 타겟 값 사이의 차이 🍀 파이썬 로지스틱 회귀 분석 관련 함수sklearn.linear_mode..

✏️ STUDY INDEX00. 머신러닝의 학습 방식 01. 선형 회귀 02. 비선형 회귀(다항 회귀) 03. 회귀 분석 평가지표 - MSE, RMSE, R² ✅ 머신러닝의 데이터 학습 방법은 3가지로 구분할 수 있어요. 이번 포스팅은 지도 학습에 해당하는 회귀 분석에 대한 내용입니다. 지도 학습 (Supervised Learning) : 정답이 있는 학습. 주어진 데이터(x)를 바탕으로 정답(y)을 예측하는 것.회귀 분석 : 예측값(y)가 연속형 데이터인 경우 분류 분석 : 예측값(y)가 이산형 데이터인 경우 - 범주형 데이터, 이미지 등을 인코딩하여 분석함. 비지도 학습 (Unsupervised Learning) : 정답이 없는 학습. 데이터를 분석하여 패턴이나 구조를 발견하는 것. 군집화(Clu..

✏️ STUDY INDEX 01. 수치형 데이터 전처리 : 스케일링(Scaling) - 표준화(Standardization) - 정규화(Normalization) - 로버스트 스케일링(Robust Scaling) 02. 범주형 데이터 전처리 : 인코딩(Encoding) - 레이블 인코딩(Label Encoding)- 원-핫 인코딩(One-hot Encoding) 01. 수치형 데이터 전처리 : 스케일링(Scaling)스케일링(Scaling)은 수치형 데이터 전처리 방식으로 변수의 범위(단위) 값을 맞춰주는 작업이에요. 💡스케일링이 필요한 이유 - 변수의 크기가 다르면 종속 변수(y) 에 미치는 영향을 제대로 파악하기 어려움.- 특히, 가중치와 간 거리 계산 기반의 알고리즘(ex. 경사하강법, KNN)..

🚨코드카타 슬럼프에 빠지게 만든 65-75번 문제 구간🚨그중 73번 문제. 입양 시각 구하기(2)을 통해 새로운 방식을 알게 되어 TIL로 기록해 보겠습니다. 처음에는 CASE WHEN 구문을 사용하여 0 ~ 24시에 해당하는 입양 건을 카운트하려고 했는데요. 쿼리가 너무 길어지고 비효율적이어서 '어.. 이게 아닌데..?' 싶더라구요. 그래서 다른 분들이 활용하신 SET문과 ROW_NUMBER()을 참고해서 풀었습니다. 1. SET문 변수 설정을 활용한 풀이SET @HOUR = -1; # 변수 선언 및 HOUR 초기 값 세팅SELECT @HOUR := @HOUR+1 AS `HOUR`, (SELECT COUNT(*) FROM ANIMAL_OUTS WHERE @HOUR = HO..

✏️ STUDY INDEX 01. 이동 평균 개념02. 이동 평균 관련 함수 및 구문 01. 이동 평균 개념 이동 평균(Moving Average)은 시계열 데이터의 노이즈를 줄이고 데이터의 패턴을 이해하는 데 사용되는 통계적 기법이다. 일정한 기간 동안의 데이터의 평균을 계산하여 각 시점에서의 값을 구합니다.이동 평균은 주로 다음과 같은 목적으로 사용됩니다.1. 데이터 스무딩: 시계열 데이터의 변동성을 줄여서 패턴을 더 명확하게 보기 위해 사용됩니다. 2. 추세 분석: 데이터의 장기적인 추세를 파악하는 데 사용됩니다. 3. 주식 및 금융 시장 분석: 주식 가격의 움직임을 분석하여 매수 및 매도 시점 결정에 도움을 줍니다.ChatGPT 이동평균'에 대한 답변 일부 발췌 (2024-05-29) 요약하..

📊 INDEX01. 고객 구성에 따른 total_socre와 adr의 관계 02. 국적에 따른 total_socre와 adr의 관계 03. 마켓 세그먼트에 따른 total_score와 adr의 관계 *호텔 서비스 이용 점수는 total_socre, 평균 일일 요금은 adr 칼럼입니다. *마켓 세그먼트(market_segment)는 고객의 예약 채널을 의미합니다. 01. 고객 구성에 따른 total_score와 adr의 관계 저는 SQL을 활용해서 데이터를 1차 집계했고, 해당 결과를 파이썬에 가져와서 시각화했어요. 추후에 SQL에서 쿼리를 CSV 파일로 추출하는 방법은 나중에 한번 정리해서 올려보겠습니다! 고객 구성에 따른 호텔 서비스 사용 점수를 집계하기 위해서 서브 쿼리를 두 번 사용했는..

📊 Hotel Booking 데이터 전처리 내용 1. 결측치 처리 : SQL에서 사용하기 위해 Na → Null 값으로 변경했어요. 2. 이상치 처리 : adr(평균 일일 요금) 에서 음수 값을 제거했습니다. 음수 데이터가 1건이라, 평균으로 대체하기 보다 제외하는 것을 택했어요. 이 외에 다른 이상치는 발견하지 못 했고, NULL 값은 '해당 없음'이라는 의미를 갖고 있어서 그대로 활용했습니다. 3. 고객 세그멘테이션 : 고객 구성별, 국적별, 예약 채널별(market segmentation)로 군집을 나누었어요. Hotel Booking 데이터에는 고객의 성별이나 연령대 등을 알 수 있는 데이터가 없었어요. 그래서 첫번째로 인원 및 아이 동반 여부에 따라서 고객 구성을 나누었고, 두 번째로 호텔 ..