공모전 내용을 언급하면 혹시나 누가 보고 문제 삼을까봐 대회 끝날 때까지 내용은 둘러서 남겨야겟다.
1. 변수 하나의 의미를 잘못 알고 있었는데, 문제가 없어서 그냥 신경 안 쓰고 있다가 의미를 알게 되고 전체적인 변수 수정이 필요하다는 걸 깨달았다.
영향이 클지는 모르겠는데 전처리 과정이 훨씬 더 복잡해졌다.
시행착오가 더 늘어나는 것 같은데 배우는 과정으로 생각하게 되었다.
특히 eda를 항상 제대로 하고 시작해야겟다는 것을 느꼈다. (그러니까 서둘러서 했어야지)
2. 어제 내가 낸 피처 아이디어 적용한 모델은 오버피팅이 너무너무 심해서 교란변수인 것으로 생각됨. 훈련데이터에만 잘 맞는 피처라니 좀 슬픔..
3. 드랍아웃이 높다고 오버피팅이 무조건 방지되는 건 아니다.
4. 1번 문제를 해결했다고 생각해서 변수 새로 만들어서 훈련시켜보니 성능이 오히려 떨어졌다. 아 변수가 오히려 안 좋은가보다 라고 생각하고 그대로 넘기려다가 뭔가 이상해서 pickle 파일을 뜯어봤다. 이상치가 크게 존재했는데 확인하지 않고 넘어갔던 것이었다. 이는 데이터프레임 병합 과정에서 불어난 중복으로 인한 변수 계산 문제였는데 어찌됐건 이를 발견하고 다시 변수를 재생성 할 수 있었다. 모형에는 아직 적용을 못 시켯는데 성능 향상이 이뤄질 것 같다.
'언어 > Python' 카테고리의 다른 글
pandas warning 해결 (Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0)) (0) | 2024.04.18 |
---|---|
02/03 배운 것: isin, str.contains로 쉽게 필터링할 수 있다 (0) | 2023.02.10 |
11/26 공모전 준비하며 배운점 + 느낀점 (잊지말자 reset_index) (0) | 2022.11.27 |
11/23 배운점 (0) | 2022.11.23 |
11/15 배운점 (얕은 복사와 깊은 복사, 오버리프 그림 불러오기 문제) (0) | 2022.11.15 |