1. Pandas의 자료구조, Series, DataFrame Series는 동일한 데이터형의 성분으로 구성된 자료구조DataFrame은 서로 같거나 다른 데이터형의 여러개의 열에 대하여 복수개의 성분으로 구성된 '표와 같은 형태'의 자료구조 Series는 C언어에서의 배열, DataFrame은 C언어에서의 구조체와 비슷한것 같다. 1.1 SeriesSeries를 생성할때 인자로 파이썬의 배열이나, Numpy의 배열이 들어간다. import numpy as np import pandas as pd obj = pd.Series([1,2,3,4]) print(obj) #출력 0 1 # 1 2 # 2 3 # 3 4 # dtype: int64 obj.values #출력 array([ 1, 2, 3, 4], dt..
1. 준비 - Movielens 자료 받기https://grouplens.org/datasets/movielens/recommended for education and development이 부분의 Readme.txt와 ml-latest-small.zip을 받았다. Readme를 읽어보면 알겠지만 들어있는 파일의 설명들이 나와있다.내가 다룰것은 ratings.csv 파일이기때문에 그 부분만 읽고 빠져나왔다. 2. 파일 불러오기 import numpy as np import pandas as pd #CSV는 Comma Separated Value의 약자로, 콤마로 구분된 값이라는 뜻이다. # Pandas의 csv를 읽어들이는 함수가 있는데, 첫 인자는 '파일의 위치', sep= '구분자' 이다. CSV파일..