7. DataFrame 기능

Python 2017. 8. 8. 14:08

1. data_range() 함수를 이용한 날짜 생성

import numpy as np
import pandas as pd

# 6행 4열의 랜덤한 값으로 이루어진 행렬 생성
df = pd.DataFrame(np.random.randn(6, 4))

df.columns = ['A','B','C','D']
# pd.date_range() 함수는 시계열 형태의 20160701 부터 5일 후 까지의 시간을 배열로 생성한다.
df.index = pd.date_range('20160701', periods=6)
#출력 DatetimeIndex(['2016-07-01', '2016-07-02', '2016-07-03', '2016-07-04',
#               '2016-07-05', '2016-07-06'],
#              dtype='datetime64[ns]', freq='D')

2. NaN 값 다루기

위에서 생성했던 데이터 프레임을 그대로 쓴다.

#NaN이 끼여있는 열을 다루기 위해 새 열을 생성한다. 이때 np.nan은 NaN을 넣어주는 용도이다.
df['F'] = [1.1, np.nan, 3.3, 4.4, np.nan, 5.5]

# NaN인 행을 제외하고 보여준다.
df.dropna(how=any')

# NaN인 행도 보여준다.
df.dropna(how='all')

# NaN인 값들을 특정 값으로 채워넣는다.
df.fillna(value=5.0)

# 성분이 NaN인지 확인한다. 만약 NaN이면 True, 아니면 False를 반환
df.isnull()

3. 행, 또는 열 삭제 방법

# 열삭제, dateTime으로 만들어진 인덱스들은 이름만 명시하면 삭제되지 않기때문에, datetime형으로 바꿔주고 삭제요청한다.
df.drop([pd.to_datetime('20160702'), pd.to_datetime('20160703')])


# 행삭제, axis의 값을 1으로 설정하거나, del 을 이용한다.
df.drop('F', axis=1) # del df['F'] 와 같다.

저작자표시 비영리 변경금지

'Python' 카테고리의 다른 글

6. DataFrame 인덱싱 (0)	2017.08.07
5. Pandas 자료구조 (0)	2017.08.03
4. Numpy를 이용한 데이터 분석 (0)	2017.08.03
3. Numpy 함수 (0)	2017.08.02
2. Numpy 배열 인덱싱 (0)	2017.08.01

'Python' 관련 글 more

Posted by Config

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

7. DataFrame 기능

'Python' 카테고리의 다른 글

티스토리툴바