언어 (76) 썸네일형 리스트형 11/14 문제는 문제고 실행은 실행이다 일단 어제 발생한 가상환경 경로 문제는 이전에 내가 아나콘다 프롬프트 실행 시 경로를 D드라이브로 바꿔놓은 것 같고, 그걸 다시 되돌리고 싶은데, 구글에서 검색해보면 나오는 일반적 방법인 아나콘다 프롬프트 속성에서 %HOMEPATH% 이걸 D드라이브로 바꿔놓은 게 아니라서 되돌리는 법을 못 찾겠다. 그래서 그냥 이대로 D드라이브에 가상환경을 생성하기로 했다. 굳이 되돌려 놓는다해도 어차피 C드라이브 용량 부족해서 문제될 것이 많기 때문이다. 그럼 이제 문제는.. 다른 C드라이브에 있는 가상환경은 requirements.txt 파일만 제자리에 있으면 pip install -r requirements.txt를 실행했을 때 실행이 자동적으로 진행이 되는데,, D드라이브에 새로 생성한 녀석은 저 텍스트 파일을 .. 11/13 배운점보다 의문점 (가상환경 경로 문제 어떡하지..) 1. requirements.txt라는 파이썬 라이브러리와 버전이 적혀있는 텍스트 파일을 준다면, 이것을 한번에 받는 법. -> pip install -r requirements.txt 여기서 중요한 점은 아나콘다 프롬프트에 내가 생성한 가상환경의 경로에 해당 텍스트 파일을 갖다놔야 설치가 진행된다. 2. 가상환경에 설치되어 있는 라이브러리 확인 방법 : pip freeze 하 근데 옛날에 가상환경 만드는 경로 바꿔놨던게 잘못됐는지 오류가 난다... requirements.txt 인스톨 다 하고 주피터노트북에서 커널 바꿔서 라이브러리 임포트 하려니까 바로 막히는데.. 일단 오늘은 여기까지만 하고 다른 일을 해야할 것 같다... 11/12 R 배운점 1. cpu 병렬처리를 위해서 doParallel이라는 라이브러리를 사용. 2. detectCores() 함수로 cpu의 개수를 저장하고 3. registerDoParallel() 함수에 cpu 개수를 집어 넣어서 해당 개수만큼의 cpu를 병렬처리 할 수 있음 4. 랜덤포레스트 돌릴 때 target 클래스를 말하는 level로 숫자를 쓰면 오류 생김. level을 숫자가 아닌 문자로 시작하도록 변경해줘야 문제가 생기지 않음. 5. 랜덤포레스트 mnist데이터로 돌리는거 생각보다 시간이 오래 걸림. 11/11 데이터마이닝 간단 정리(앙상블 중 배깅과 랜덤포레스트의 특징, 기억하면 좋을 것들) 앙상블 기법: 학습 알고리즘 여러개를 함께 사용해서 더 나은 예측 성능을 얻는 방법 종류: 배깅, 랜덤포레스트, 부스팅, 스태킹, 혼합모형(Mixture of experts and hierarchical mixture of experts), Bayesian methods 배깅: tree를 parallel하게 합함. 과적합이 잘 안 돼서 막 쓰기에 좋음. 가지치기(pruning)할 필요도 없음. 부스팅: tree를 sequential하게 모아줌 (성능이 안 좋은 것을 모아서 가중치를 높여 훈련). 좋을 땐 랜덤포레스트보다 성능이 훨씬 좋음. 반면 단점은 과적합 가능성이 높은 편 배깅은 tree기반 모형이긴 하지만 사용 모형이 꼭 tree가 아니어도 됨. 기본적으로 tree기반 모형의 특징이 모형의 분산이 .. 11/03 데이터 마이닝 간단히 정리 (Imbalanced data) 매번 헷갈리는 건데 이제는 좀 외우자 Sensitivity: 실제 (+) 중 (+)로 예측한 비율 Specificity: 실제 (-) 중 (-)로 예측한 비율 TPR (True Positive Rate): Sensitivity (실제 + 중에서 +로 예측된 것의 비율) FPR (False Positive Rate): 1 - Specificity (실제 - 중에서 +로 예측된 것의 비율) Precision: (+)로 예측한 것 중 실제 (+)인 비율 = PPV (Positively Predicted Value) Recall : 실제 (+) 중 (+)로 예측한 비율 = Sensitivity Balanced Accuracy = (Sensitivity + Specificity) / 2 F-beta score: .. 10/31 배운점과 의문점 배운점 1. R에선 for문 안에서 반복인자 i를 쓸 때, 예를들어 데이터프레임의 행과 열을 계산하는데 i인자를 쓰면 파이썬처럼 원하는대로 인덱싱, 슬라이싱이 되지 않음 2. positive defininte matrix 양정치행렬인지 묻는 것은 역행렬이 있냐 없냐 (non-singular vs singular matrix) 3. 자꾸 데이터 결측 확인 안 해서 안 돌아가는 걸 다른 것 때문에 그런줄 알고 시간 쓸데없이 오래 쓰는데 확인 잘 좀 하자. 의문점 1. vbmp 패키지에서 vbmp 함수 인자로 theta를 입력할 때, theta는 어떤 벡터인데 그 벡터 길이가 길어질수록 성능이 좋아지는 효과가 있었음. 이유는 아직 파악 못함 2. train 함수로 학습시킬때, naivebayes 방법에서 뭔가.. [Git] Git 명령어 정리 6 (git tag, git alias) https://git-scm.com/book/ko/v2/Git%EC%9D%98-%EA%B8%B0%EC%B4%88-%ED%83%9C%EA%B7%B8 Git - 태그 와일드카드를 사용하여 Tag 리스트를 확인하려면 -l, --list 옵션을 지정 단순히 모든 Tag 목록을 확인하기 위해 git tag 명령을 실행했을 때 -l 또는 --list 옵션이 적용된 것과 동일한 결과가 출력된다. git-scm.com [태그와 별칭(alias)] tag와 alias는 개발자에게 유용한 기능 같다. 나한테는 크게 필요하지 않은 명령어 같지만 한 번 살펴보자. git tag # 만들어진 태그가 있는지 확인 git tag -l "v1.8.5*" # v1.8.5라는 이름을 앞에 달고있는 태그 검색 git tag -a 태그명 .. [Git] Git 명령어 정리 5 (git remote, git push, git pull) https://git-scm.com/book/ko/v2/Git%EC%9D%98-%EA%B8%B0%EC%B4%88-%EB%A6%AC%EB%AA%A8%ED%8A%B8-%EC%A0%80%EC%9E%A5%EC%86%8C Git - 리모트 저장소 원격 저장소라 하더라도 로컬 시스템에 위치할 수도 있다. “remote” 저장소라고 이름이 붙어있어도 이 원격 저장소가 사실 같은 로컬 시스템에 존재할 수도 있다. 여기서 “remote” 라는 이름은 git-scm.com [Remote repository 관련 명령어] git remote # remote repository 확인 git remote -v # remote repository의 이름과 URL까지 확인 git push # commit 파일을 push하는 명령어.. [Git] Git 명령어 정리 4 (git log) https://git-scm.com/book/ko/v2/Git%EC%9D%98-%EA%B8%B0%EC%B4%88-%EC%BB%A4%EB%B0%8B-%ED%9E%88%EC%8A%A4%ED%86%A0%EB%A6%AC-%EC%A1%B0%ED%9A%8C%ED%95%98%EA%B8%B0 Git - 커밋 히스토리 조회하기 머지 커밋 표시하지 않기 저장소를 사용하는 워크플로우에 따라 머지 커밋이 차지하는 비중이 클 수도 있다. --no-merges 옵션을 사용하면 검색 결과에서 머지 커밋을 표시하지 않도록 할 수 있다. git-scm.com git log # git에서 commit한 History를 불러옴 # 여러 개발자와 일할 때, 동료들이 무엇을 commit했는지 빠르게 조회할 수 있다고 함 # 조회범위를 제한하.. [Git] Git 명령어 정리 3 (git status, git add, git commit, git diff, git rm) https://git-scm.com/book/ko/v2/Git%EC%9D%98-%EA%B8%B0%EC%B4%88-%EC%88%98%EC%A0%95%ED%95%98%EA%B3%A0-%EC%A0%80%EC%9E%A5%EC%86%8C%EC%97%90-%EC%A0%80%EC%9E%A5%ED%95%98%EA%B8%B0 Git - 수정하고 저장소에 저장하기 .gitignore`를 사용하는 간단한 방식은 하나의 `.gitignore 파일을 최상위 디렉토리에 하나 두고 모든 하위 디렉토리에까지 적용시키는 방식이다. 물론 .gitignore 파일을 하나만 두는 것이 아니라 하위 git-scm.com (위 사이트 참고) [파일 수정하고 저장하기] 2022.03.11 - [언어/Git] - [Git] Git 명령어 정리 2.. [Git] Git 명령어 정리 2 (Git 저장소 생성, git add, git commit, git push 개념) https://git-scm.com/book/ko/v2/Git%EC%9D%98-%EA%B8%B0%EC%B4%88-Git-%EC%A0%80%EC%9E%A5%EC%86%8C-%EB%A7%8C%EB%93%A4%EA%B8%B0 Git - Git 저장소 만들기 2.1 Git의 기초 - Git 저장소 만들기 Git을 사용하는 방법을 알고 싶은데 한 챕터밖에 읽을 시간이 없다면 이번 챕터를 읽어야 한다. Git에서 자주 사용하는 명령어는 모두 2장에 등장한다. 2장을 다 git-scm.com (위 사이트 참고) 저장소 (repository)와 push, pull의 개념을 공부해야 알아들을 수 있겠다. [Git 저장소 만들기] 방법 1. (아직 버전관리를 하지 않는) 로컬 디렉토리(= 내 컴퓨터 안의 폴더 경로) 하나.. [Git] git 명령어 정리 1 (최초 설정 및 도움말) https://git-scm.com/book/ko/v2/%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0-Git-%EC%B5%9C%EC%B4%88-%EC%84%A4%EC%A0%95 Git - Git 최초 설정 Vim과 Emacs, Notepad++은 꽤 인기 있는 편집기로 개발자들이 즐겨 사용한다. Mac이나 Linux 같은 Unix 시스템, Windows 시스템에서 사용 가능하다. 여기서 소개하는 편집기들이 불편해서 다른 편집기를 사 git-scm.com (위 사이트 참고) [git 설치 후에 바로 해야하는 git 사용환경 설정] git config라는 도구로 환경 설정내용 확인 및 변경 가능 ※ 나한테 필요할 거 같은 기초적인 명령어만 정리 git config --global user.. [R/에러] 네임스페이스 '패키지' ~.~.~는 로드되었으나 >= ~.~.~가 필요합니다 -> 이 오류는 백신 프로그램으로 인한 오류일 가능성이 높다. 위와 같은 문제로 너무 화가나서 검색을 해보니 백신프로그램이 파일을 이동시키지 못하게 막아서 생긴다고 했습니다. 제 노트북에 예전에 받아둔 안랩 세이프 트랜잭션이 있다는 걸 그때 깨닫게 되었어요. 다른 분들은 잠시 백신을 꺼두고 했던데 저는 화가난 나머지 바로 안랩을 제어판에서 삭제하고 다시 시도해보았습니다. 그 결과 업데이트가 안 되던 일부 패키지는 성공적으로 업데이트 되었습니다. 하지만 여전히 소수의 패키지가 업데이트 되지 않았는데요. 필요한 패키지는 성공적으로 작동해서 일단 넘어가기로 했습니다. 나머지 패키지들도 해결하게 되면 다시 포스팅하겠습니다. [반성] t.test의 인수로 mean을 쓰면 안된다. 나만 몰랐던 것 같아서 기록으로 남기는 멍청한 실수.. R에서 t.test 할 때 검정하고자 하는 대립가설의 평균 mu1의 인수는 mu이다. 나도 알고 있었는데 과제 중에 무의식이 mean이라고 입력을 했다. 에러가 안 뜨고 바로 되길래 그냥 그 결과를 썼다. 근데 알고보니 mean에 입력한 수를 mu로 인식하지 않았다. 그리고 검정은 Default 값인 mu = 0으로 검정이 되었다. 보통 잘못된 인수를 입력하면 에러가 뜨니까 넘어가버린 내 불찰이다. 심지어 결과 창에도 'alternative hypothesis: true mean is not equal to 0'라고 친절히 나오는데 그것도 제대로 안 보고 넘어갔다. 부끄럽기 그지없어서 기록으로 남겨본다... [kaggle] Credit Card Fraud Detection 코드 보고 연습 (2) ww.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets Credit Fraud || Dealing with Imbalanced Datasets Explore and run machine learning code with Kaggle Notebooks | Using data from Credit Card Fraud Detection www.kaggle.com I. 데이터 살펴보기 1) 데이터에 대한 이해 II. 전처리 1) 스케일링 2) 데이터 나누기 III. 랜덤 언더샘플링과 오버샘플링 1) 상관관계 2) 이상치 확인 및 제거 3) 차원축소와 군집화 (t-SNE) 4) 분류기 5) 로지스틱 회귀 깊이 알아보기 6) SMOTE를 .. [kaggle] Credit Card Fraud Detection 코드 보고 연습 (1) www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets Credit Fraud || Dealing with Imbalanced Datasets Explore and run machine learning code with Kaggle Notebooks | Using data from Credit Card Fraud Detection www.kaggle.com 위 캐글러의 코드를 사용해 신용카드 부정사용 여부를 탐지하는 알고리즘을 공부해보려 한다. 일반적으로 신용카드사에서는 FDS(Fraud Detection System)라고 불리는 이상거래 탐지 시스템을 두고 있다고 한다. 카드 사용을 실시간으로 검토해 평상시 고객의 거래/사용.. 이전 1 2 3 4 5 다음