본문 바로가기

728x90

Study/AI

(9)
Spaceship Titanic https://www.kaggle.com/competitions/spaceship-titanic Spaceship Titanic | Kaggle www.kaggle.com 오늘은 캐글의 문제 중 하나인Spaceshipt Titanic에 대해 정리해 보겠습니다. 해당 문제는 Titanic문제와 매우 유사하며 각 피쳐들만 변화된 형태로 볼 수 있겠습니다. 각 피쳐를 이용하여 평가 데이터에서 해당 승객이 Transported했는지를 알아보는 문제입니다. 학습 데이터 승객에 대한 개인 정보(약 8,700명) PasengerId: 승객 ID HomePlanet: 출발 행성(거주지) CryoSleep: CryoSleep 여부 Cabin: 객실 번호(Deck/Num/Side) Destination: 승객의 목적지 A..
Digit Recognizer https://www.kaggle.com/competitions/digit-recognizer/overview Digit Recognizer | Kaggle www.kaggle.com 오늘은 캐글의 문제 중 하나인 숫자 데이터셋을 이용하여 숫자를 알아 맞추는 Digit Recognizer를 공부해 보겠습니다. import pandas as pd train_df = pd.read_csv('train.csv') test_df = pd.read_csv('test.csv') print(train_df.head(3)) print(test_df.head(3)) 먼저 훈련셋과 테스트셋 데이터를 임포트 해 줍니다. x_train = train_df.drop(['label'], axis=1).values y_train ..
House Prices - Advanced Regression Techniques https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/overview House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 오늘은 캐글에서 집값을 예측하는 House Prices를 공부해 보겠습니다. import pandas as pd # Load the data train_data = pd.read_csv('train.csv') test_data = pd.read_csv('test.csv') # Pre-processing features = ['OverallQual','GrLivArea','GarageCars','TotalBsmtSF', 'Ne..
Titanic Survival Prediction https://www.kaggle.com/competitions/titanic Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 오늘은 캐글에 있는 가장 기본 문제인 타이타닉 데이터셋을 이용하여서 머신러닝을 공부를 해 보겠습니다. 타이타닉에는 여러 데이터셋이 존재합니다. Survived 생존 여부 0 = No, 1 = Yes pclass 티켓 등급 1 = 1st, 2 = 2nd, 3 = 3rd Sex 성별 Age 나이 Sibsp 함께 탑승한 형제자매, 배우자의 수 Parch 함꼐 탑승한 부모, 자식의 수 Ticket 티켓 번호 Fare 운임 Cabin 객실 번호 Embarked 탑승 항구 C = Cherbourg, Q = Queenstow..
넘파이(Numpy) - 비교 연산과 데이터 추출 1. 비교 연산 연산 결과는 항상 불린형(boolean type)을 가진 배열로 추출 - 브로드캐스팅 비교 연산 하나의 스칼라 값과 벡터 간의 비교 연산은 벡터 내 전체 요소에 적용 In import numpy as np x = np.array([4, 3, 2, 6, 8, 5]) x > 3 Out array([ True, False, False, True, True, True]) - 요소별 비교 연산 두 개의 배열 간 배열 구조(shape)가 동일한 경우 같은 위치에 있는 요소들끼리 비교 연산 [1 > 2, 3 > 1, 0 > 7]과 같이 연산이 실시된 후 이를 반환 In x = np.array([1, 3, 0]) y = np.array([2, 1, 7]) x > y Out array([False, Tr..
넘파이(Numpy) - 배열 연산 1. 연산 함수 연산 함수: 배열 내부 연산을 지원하는 함수 축: 배열의 랭크가 증가할 떄 마다 새로운 축이 추가되어 차원 증가 - sum 함수: 각 요소의 합을 반환 In import numpy as np test_array = np.arange(1, 11) test_array.sum() Out 55 - sum함수를 랭크가 2이상인 배열에 적용할 떄 축으로 연산의 방향을 설정 In test_array = np.arange(1,13).reshape(3,4) test_array Out array([[ 1, 2, 3, 4], [ 5, 6, 7, 8], [ 9, 10, 11, 12]]) In test_array.sum(axis=0) Out array([15, 18, 21, 24]) In test_array.s..
넘파이(Numpy) - 배열 객체 다루기 넘파이란? 파이썬의 고성능 과학 계산용 라이브러리 벡터나 행렬 같은 선형대수의 표현법을 코드로 처리 사실상의 표준 라이브러리 다차원 리스트나 크기가 큰 데이터 처리에 유리 넘파이의 특징 속도가 빠르고 메모리 사용이 효율적 반복문을 사용하지 않음 다양한 선형대수 관련 함수 제공 C, C++, 포트란 등 다른 언어와 통합 사용 가능 넘파이 배열 객체 np.array함수를 사용하여 배열 생성 import numpy as np test_array = np.array([1, 4, 5, 8], float) 매개변수 1: 배열 정보 매개변수 2: 넘파이 배열로 표현하려는 데이터 타입 파이썬 리스트와 넘파이 배열의 차이점 텐서 구조에 따라 배열 생성 동적 타이핑 지원 안함 데이터를 메모리에 연속적으로 나열 배열의 생성..
데이터의 이해 피쳐란? 1. 피쳐의 개념 피쳐(feature): '특성'이나 '특징'이라는 의미 모델을 구성하는데 데이터가 가장 큰 영향을 줌. 모델은 함수 형태로 표현 대표적인 머신러닝의 데이터셋의 예제로 보스턴 집값 예측이라는 데이터셋이 있다. 서로 다른 독립변수 13개를 xn으로 하고 가중치를 B을 선형 결합 하여 나타냄 머신러닝에서 독립변수 x를 피쳐라고 부름 2. 피쳐의 표기법 데이터 테이블(data table): 데이터를 테이플(표)로 표현한 것 데이터 인스턴스(data instance): 하나의 데이터, 튜플(tuple)이라고도 부름 피쳐는 데이터 테이블 상에서 하나의 열 이름(column name)에 해당 하나의 행(row), 즉 튜플의 값은 열 벡터(column vector)로 표현하고, 가중치(wei..

728x90