본문 바로가기

머신러닝

파이썬 머신러닝 완벽가이드 - 1장

arr = np.array([1,2,3])
arr.astype('float64')

astype 메서드는 메모리를 더 절약해야 할 때 사용

 

arange는 range와 유사

np.ones((2,3), dtype='int32')

array([[1., 1., 1.],
       [1., 1., 1.]])

 

reshape으로 변환가능

np.reshape(-1,1)
어떤 2차원 배열이든 열을 한개로 만듦

인덱싱

arr[0,0]

np.sort()는 원래 행렬은 놔둠 / ndarray.sort()는 원래 행렬 바꿈

 

2원 행렬 정렬

np.argsort()  : ex) 시험성적순으로 이름 출력할 때 사용

or1 = np.array([3,1,9,5])
sort_i = np.argsort(or1)
print(or1)

[3 1 9 5]

행렬 내적 : np.dot(a, b)

전치 행렬 : np.transpose(a)

 

---------------------------------------------------------------------------------------------------

DataFrame

DataFrame은 value count 없음 -> series만 있고 반환 값도 series

 

dataframe 바로 뒤의 [] 에는 칼럼이나 [1:2]만 들갈 수 있음 ( 불린 표현도 가능)

df.loc[df['age'] > 20, ['name','age']]

정렬

sort_values(by=['칼럼 이름', '이름'], inplace= , ascending=)

 

aggregation 함수

min, max, sum, count -> 모든 칼럼에 결과 반환

특정 칼럼에 적용 가능

df[['age','name']].mean()

 

groupby 

df_train[['Sex', 'Survived']].groupby(['Sex'], as_index=True).mean().plot.bar(ax=ax[0])

 

agg_format = {'age':'max', 'sibsp':'sum', 'fare','mean'}
df.groupby(['pClass']).agg(agg_format)

 

nan data 처리

df['age'].fillna(df['age'].mean(), inplace=True)