전체 글
-
[Pandas/Matplotlib] 소소하지만 알면 좋은 팁 (판다스 포맷, 플랏 한글폰트 깨짐, 화질 설정 등)Codes & Programming 2021. 7. 1. 23:14
스티키 노트에 적어두어도, 항상 언젠가 사라지는 코드 모음 pd.set_option('display.max_rows',100) # 데이터 프레임 맥스 로우를 늘려준다. 한 눈에 데이터보기에 (그럴만한 양이라면) 아주 유용하다 pd.set_option('display.float_format', '{:,.1f}'.format) #float 값의 포맷을 지정해준다. 이거 컬럼에 돈 들어가있을 때 정말 좋다. 혹은 인구 수 같은 큰 수치들.. !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf #이건 맨날 내가 어디 적어뒀다가, 잊어버리는 코드인데. MATPLOTLIB에서 한글글자 깨질때 돌리고, 런타임 다시 시작..
-
[Kaggle] Bike Sharing Demand - 자전거 수요 예측 경진대회(RandomForestRegression)Codes & Programming 2021. 6. 13. 19:47
오늘은 이미 종료된 대회인 케글 Bike Sharing Demand 경진대회를 참가했다. RandomFrorestRegression 을 통해서 예측하였고, 스코어는 위와같이 나왔다 :) 스코어는 RMSLE를 이용한다. RMSLE는 Overestimate한 값보다 Underestimate 했을 때 패널티가 더 크고,. 또한 같은 논리선상에서 Outlier에 덜 예민하다고 한다.(참고: https://towardsdatascience.com/mercari-price-recommendation-for-online-retail-sellers-979c4d07f45c) 6년 전 경진대회 마감시 1등 스코어는 0.33756이다. 이미 마감된 컴피티션이라 순위는 나오지 않고 대략 123등(3,242팀)정도 되는 스코어..
-
[Data Scaling] 정규화(Normalization)와 표준화(Standarization)Statistics and Linear Algebra 2021. 6. 12. 16:58
정규화(Normalization)와 표준화(Standarization) 데이터 처리시 변수들의 단위값이 다른 경우, 이를 스케일링 해줘야할 필요가있다. 머신러닝시 예측값 도출에 영향을 미치기 때문이다. 정규화(Nomalization): 변수를 0~1(Min ~ Max)값으로 변환시켜 준다. 사이킷런(Sklearn)에서 사용하는 함수는 "MinMaxScaler"다. 1) fit으로 데이터를 맞추어주고, 2) transform으로 데이터를 변환해준다. fit자체로는 변환된 데이터를 볼 수 없을 것이다. 만일 둘을 한번에 하려는 경우에는 fit_transform()으로 해주면 된다. from sklearn.preprocessing import MinMaxScaler scaler=MinMaxScaler() sc..
-
[Kaggle] 경진대회 - 타이타닉 생존률 예측 (Top 21%)Codes & Programming 2021. 6. 11. 14:03
Github에서 Code 보기 > https://github.com/DamiSoh/Posting_Materials/blob/main/Titanic_submission.ipynb Horay ~ Tada ! 오늘 처음으로 캐글에 서브미션을 해보았다. 타이타닉 Train 데이터로 Test 데이터의 생존여부 (0 혹은 1)를 예측하는 것이었다. EDA > Age 의 Null 값 -> "Mr", "Mrs" 등 " Name" Feature에서 뽑아와 평균치로 넣어주었고, Cabin의 Null값 -> 평균치로 넣어주었다. 또한 카테코리컬 변수는 One Hot Encoding으로 변경하였다. Model> 예측모델은 로지스틱 회귀모델(Logistic Regression)으로 예측하였다. Age Null값 채우기는 하기 ..
-
[서적추천] 통계가 낯선 당신을 위한 달달구리 - 누워서 읽는 통계학Statistics and Linear Algebra 2021. 6. 11. 01:11
누워서 읽는 통계학 - 와쿠이 요시유키, 와쿠이 사다미 지음 (정가: 19,800원) https://www.hanbit.co.kr/store/books/look.php?p_code=B9477508508 누워서 읽는 통계학 다양한 형태의 도식화, 수학적 접근의 최소화, 통계 이론에 활용 사례를 더해 가장 쉬운 통계학 책이라 할 수 있습니다. www.hanbit.co.kr 이 책을 틈틈이 읽어 일주일만에 다 읽었다. 제목이 뻥튀기 급이긴 하다. "(완독 3회를 해야만) 누워서 읽는 통계학"으로 보면 되겠다. 거두절미하고 목차를 보면 왜 추천을 하는지 바로 알 수 있다. 데이터 종류부터 시작하여, 확률과 추정, 검정, 상관분석, 회귀분석 그리고 베이지안 정리까지 한 권에 무겁지 않게 다 담았다. 그리고 또 핵..
-
[Project1] 가설검정을 통한 글로벌 비디오 게임 데이터셋 매출분석 (캐글 데이터셋 활용)Project 2021. 6. 2. 13:57
캐글 비디오 게임 세일즈 데이터를 약간 변형한 데이터 셋이 주어지고, 개인 기획안 프로젝트가 주어졌다 😇 첫 프로젝트라 가설검정에 애를 먹었다. 일단 개념사용을 해야하니까, 최대한 생각해서 넣었는데, 앞으로 통계학 지식이 갈 길이 멀다는 걸 알았다. (2021. 06. 02) 추후 수료가 끝난 후에 다시한번 들여다보고, 뭐가 잘못됐는지 파악해야겠다. 1. 캐글 비디오 게임 세일즈 로우 데이터셋: https://www.kaggle.com/gregorut/videogamesales/code Video Game Sales Analyze sales data from more than 16,500 games. www.kaggle.com 2. 기획안: https://www.notion.so/8692567fdb9d4..
-
[통계] T 검정 (스튜던트 T-test) One Sample / Two Sample T-testStatistics and Linear Algebra 2021. 5. 29. 19:56
깃허브에서 코드보기 Student T-test¶ T- 검정은 모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정 방법이다. 집단의 수는 최대 2개까지 비교 가능하며 3개 이상인 경우 분산분석(ANOVA)를 사용한다. '평균'을 비교하는 분석임을 잊지말자. T-검정의 가정 1)종속변수가 양적 변수일 때 2)모집단의 분산이나 표준편차를 알지 못할 때 3)모집단의 분포가 정규분포일 때 One Sample T-test¶ 1개의 샘플(표본) 평균이 특정값(or 모집단)의 평균과 같은지/다른지를 판단 귀무가설: $\mu = \bar{X} $ 평균이 같다 대립가설: $\mu \neq \bar{X}$ X 같지 않다 (1) 귀무가설 설정 ..
-
[선형대수] 벡터의 내적, 전치행렬, 공분산, 상관계수Statistics and Linear Algebra 2021. 5. 29. 19:26
깃허브에서 코드보기 DamiSoh/Posting_Materials Contribute to DamiSoh/Posting_Materials development by creating an account on GitHub. github.com 벡터의 기본 개념 및 고교 수학 기록¶ 벡터의 내적(Dot Product)¶ Terms Alert ! 곱, 내적, 정사영, Projection 벡터의 내적은 결과값이 스칼라로 표현됩니다. 우리가 익숙한 식은 다음과 같습니다. $\vec{a}$와 $\vec{b}$ 에서 수선의 발을 내려 $\vec{a}$와 내적하는 부분을 곱해주는 것입니다. 그 길이는 |b|의 코사인 세타입니다. 또, 평면벡터일 때는 하기와 같이 계산합니다. 출처: 수악중독 선형대수에서 마주친 벡터가 너..