본문 바로가기

연습장

(14)
유튜브 데이터 크롤링 1. Google API Console에 액세스 요청하기 유튜브 데이터를 크롤링하는 방법으로는 크게 두 가지 방법이 있다.1. Youtube Data API를 이용하는 방법2. 직접 웹 스크래핑 (BeautifulSoup 활용) 최근 API를 잘 활용하는 것도 중요하다고 생각해서, API를 이용하여 데이터를 수집해보고자 한다. 우선, Youtube Data API를 사용하기 위해선 다음 페이지를 참고한다 https://developers.google.com/youtube/v3/getting-started?hl=ko YouTube Data API 개요  |  Google for Developers이 페이지는 Cloud Translation API를 통해 번역되었습니다. YouTube Data API 개요 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 ..
DP로 생각하기 - LIS 문제와 그 응용 Longest Increasing Subsequence (LIS)최장 부분 증가수열 문제는 DP 문제의 대표적인 문제 중 하나다. 먼저, 문제부터 보자.※ 문제 출저 (인프런 강의 - 파이썬 알고리즘 문제풀이 입문) 문제N개의 자연수로 이루어진 수열이 주어졌을 때, 그 중에서 가장 길게 증가하는 원소들의 집합의 길이를 구하라. 입력)5 3 7 8 6 2 9 4 출력)4  DP의 조건에 해당하는가이 문제가 DP에 해당하는지 조건을 따져봐야 한다.1. Optimal Substructure인가하위 문제의 최적의 해를 사용하여 전체 최적의 해를 구할 수 있는지 보자. arr = [5, 3, 7, 8, 6, 2, 9, 4] 라고 하자. 시작은 arr의 가장 왼쪽 값부터 시작한다우선, 5라는 숫자 하나로 만들 수 ..
DP(동적 계획법)에 대한 이해 참고 출처) ChatGPT와 블로그https://hongjw1938.tistory.com/47 알고리즘 - Dynamic Programming(동적 계획법)1. 개요 DP, 즉 다이나믹 프로그래밍(또는 동적 계획법)은 기본적인 아이디어로 하나의 큰 문제를 여러 개의 작은 문제로 나누어서 그 결과를 저장하여 다시 큰 문제를 해결할 때 사용하는 것으로hongjw1938.tistory.comDP(Dynamic Progragmming; 동적 계획법, 동적 프로그래밍) 복잡한 문제를 더 작은 하위 문제로 나누어 해결하는 알고리즘 기법알고리즘이라기보다는 문제해결 방식이라고 할 수 있다 문제 푸는 순서는 아니지만 개념을 쉽게 생각하면 다음과 같다1. 전체 문제를 작은 문제로 쪼개기2. 작은 문제를 풀고 그 결과를 저..
[Kaggle] 캐글 상위권 코드 보고 공부하는 타이타닉 예제 심화 Predictive Modeling & Feature Importance (알고리즘 적용, 교차검증, 앙상블기법 적용, 중요 특성 선택 ) www.kaggle.com/ash316/eda-to-prediction-dietanic EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com (※ 오늘은 이 캐글러의 공유 코드를 활용해 공부하는 내용입니다.) 1장. EDA 1) feature 분석 2) 여러 feature들간의 관계, 경향 찾기 2장. Feature Engineering and Data Cleaning 1) 새로운 Feature 추가 2) 반복되는 feature 제거 3) 모델링에 적합한 형태로 featur..
[Kaggle] 캐글 상위권 코드 보고 공부하는 타이타닉 예제 심화 Feature Engineering (나이대, 요금대, 가족으로 변수 묶기/문자형 자료 변환/칼럼 삭제) www.kaggle.com/ash316/eda-to-prediction-dietanic EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com (※ 오늘은 이 캐글러의 공유 코드를 활용해 공부하는 내용입니다.) 1장. EDA 1) feature 분석 2) 여러 feature들간의 관계, 경향 찾기 2장. Feature Engineering and Data Cleaning 1) 새로운 Feature 추가 2) 반복되는 feature 제거 3) 모델링에 적합한 형태로 featur..
[Kaggle] 캐글 상위권 코드 보고 공부하는 타이타닉 예제 심화 EDA 2 (이름 특성에서 인사이트 얻기, 승선장, 가족구성원 수, 요금 특성 분석) www.kaggle.com/ash316/eda-to-prediction-dietanic EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com (※ 오늘은 이 캐글러의 공유 코드를 활용해 공부하는 내용입니다.) 1장. EDA 1) feature 분석 2) 여러 feature들간의 관계, 경향 찾기 2장. Feature Engineering and Data Cleaning 1) 새로운 Feature 추가 2) 반복되는 feature 제거 3) 모델링에 적합한 형태로 featur..
[Kaggle] 캐글 상위권 코드 보고 공부하는 타이타닉 예제 심화 EDA 1 (성별, 등급, 나이 특성 확인) www.kaggle.com/ash316/eda-to-prediction-dietanic EDA To Prediction(DieTanic) Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic: Machine Learning from Disaster www.kaggle.com (※ 오늘은 이 캐글러의 공유 코드를 활용해 공부하는 내용입니다.) 타이타닉이 캐글의 튜토리얼이라고는 하나, 나와 같은 초심자에게는 매우 다루기 어려운 데이터다. 여기저기 참고해서 분류를 실행했지만 캐글에서는 순위도 부여받지 못하는 등수에 랭크됐다. 그래서 이번에는 상위 4%에 해당하는 결과를 도출한 캐글러의 코드를 이용해 - 어떤 과..
[Kaggle] 타이타닉 예제 전처리 전처리는 데이터 분석에 알맞게 정돈하는 작업이다. 대표적인 전처리 과정은 1. 결측치 처리 2. 이상치 처리 3. 자료형 변환 4. 필요없는 변수 제거 5. 필요한 변수 추가 정도가 있다. 1. 결측치 확인 #결측치 확인 train.isnull().sum() test.isnull().sum() isnull() 함수는 null이면 True, null이 아니면 False를 반환하는 함수다. isnull().sum()으로 결측치의 총 개수를 확인할 수 있다. train에서는 Age(나이)에서 177, Cabin(객실)에서 687개, Embarked(승선장)에서 2개의 결측치를 확인할 수 있었다. test에서는 Age에서 86개, Cabin에서 327개, Fare에서 1개의 결측치가 발생했다. 이 결측치들을 어..
[Kaggle] 타이타닉 예제에서 막대그래프로 범주 살펴보기 2020/11/07 - [연습장] - [Kaggle] 파이썬에서 함수 정의해서 파이차트 만들기 (Titanic 예제 활용) 저번 포스팅에 이어서 오늘은 막대그래프를 그려보기로 한다. cyc1am3n.github.io/2018/10/09/my-first-kaggle-competition_titanic.html 캐글 타이타닉 생존자 예측 도전기 (1) 이번에는 캐글의 입문자를 위한 튜토리얼 문제라고 할 수 있는 Titanic: Machine Learning from Disaster 의 예측 모델을 python으로 풀어보는 과정에 대해서 포스트를 할 것이다. cyc1am3n.github.io (※이번 포스팅은 위의 깃허브 코드를 사용했습니다.) 오늘 공부할 코드 #SibSp, Parch 변수를 보기 위해 ba..
[Kaggle] 파이썬에서 함수 정의해서 파이차트 만들기 (Titanic 예제 활용) cyc1am3n.github.io/2018/10/09/my-first-kaggle-competition_titanic.html 캐글 타이타닉 생존자 예측 도전기 (1) 이번에는 캐글의 입문자를 위한 튜토리얼 문제라고 할 수 있는 Titanic: Machine Learning from Disaster 의 예측 모델을 python으로 풀어보는 과정에 대해서 포스트를 할 것이다. cyc1am3n.github.io (※ 타이타닉 예제를 공부하면서 위 깃허브에서 공유한 코드를 사용했습니다.) 이번 포스팅은 def() 를 활용해 파이차트를 보여주는 위 깃허브의 코드를 분석해보고자 한다. 이번에 사용할 데이터는 캐글의 튜토리얼 데이터인 titanic 예제 데이터이다. www.kaggle.com/c/titanic/da..
[예제] Python 조건문 심화 예제 4 (세 정수 중 가장 큰 정수 출력) [문제 출처] 창의적 프로그래밍을 위한 파이썬/생능출판사/한혁수/p.177 문제. 세 개의 양의 정수를 입력받아 가장 작은 수를 출력하는 프로그램을 작성하라. [1차 시도] #가장 큰 정수 출력 예제 #조건1. 정수 3번 입력 #조건2. 그 중 가장 큰 정수 출력 n1 = int(input("num1?")) n2 = int(input("num2?")) n3 = int(input("num3?")) if n1 = n3: print(n2) else: print(n3) else: if n1 > n3: print(n1) else: print(n3) 성공! 근데 사실 조건문을 굳이 안 쓰는게 편하다. n1 = int(input("num1? ")) n2 = int(input("num2? "))..
[예제] Python 조건문 심화 예제 3 (백화점 이벤트 예제) [문제 출처] 창의적 프로그래밍을 위한 파이썬/생능출판사/한혁수/p.172 문제. 백화점에서 이벤트를 진행한다. 고객들에게 성별, 나이별로 적립금을 다르게 지급하려 한다. 남자는 나이에 상관없이 기존 적립금의 2배, 20대 미만 여자는 1.5배, 20대 여자는 2배, 30대 이상 여자는 3배를 적립해주려 한다. 고객의 나이와 성별을 입력해서 적립금을 얼마나 더 받을 수 있는지 프로그램을 통해서 구해보자. [1차 시도] #백화점 적립금 예제 #조건1. 고객의 성별, 나이를 입력받을 것 #조건2. 남자는 나이에 상관없이 적립금 '2배'출력 #조건3. 여자는 20대 미만 '1.5배', 20대 '2배', 30대 이상 '3배' 출력 age = int(input("나이? ")) gender = input("남자 o..
[예제] Python 조건문 심화 예제 2 (if ~ elif ~ else 조건문) 그동안 소스코드 블로그 글에 첨부하는 기능을 몰라서 아쉬워하다가 드디어 알아냈다. 티스토리 플러그인 기능을 통해 아주 간단하게 코드를 첨부할 수 있게 됐다. 자 그럼 간단한 조건문 예제를 통해서 if ~ elif ~else 조건문을 배워보자. 먼저 if ~ elif ~ else 조건문을 설명하자면 if 조건1: 행동1 elif 조건2: 행동2 elif 조건3: 행동3 else: 행동4 위와 같은 형식으로 명령을 할 수 있다. 기존에 배운 조건문에서 더 세세하게 조건을 분류할 수 있는 것이다. 예를 들어, 컴퓨터의 가격이 100만원 초과면 하이엔드급, 100만원~50만원이면 메인스트림급, 50만원 미만이면 저가형 이라고 분류한다고 가정해보자. 이 경우 전에 배운 if~else문으로는 식을 다 표현할 수 없..
[예제] Python 조건문 심화 예제 1 (회원가입 예제) 조건문 심화 첫째로 If ~ elif ~ else ~ 구문을 배운다. (if-elif-else문) 두번째로 조건문 안에 조건문을 하나 더 넣는 방법을 배운다. (중첩조건문) 이 중에 적절한 조건문을 고르는 것은 조건문 알고리즘을 그려서 적절한 모형을 판단한 후에 진행하는 것이 좋다. - 회원가입 예제 조건1. id와 password 변수를 입력 받을 것 조건2. id의 길이가 10을 초과하면 '회원가입 실패: id 길이가 10을 초과' 출력 조건3. password의 길이가 10을 초과하면 '회원가입 실패: password 길이가 10을 초과' 출력 힌트. 문자길이는 len() 함수로 알 수 있음 중첩조건문을 이용해 성공적인 프로그램 코딩에 성공했다. [문제 출처] 창의적 프로그래밍을 위한 파이썬/생능출..