7. DataFrame 기능

    1. data_range() 함수를 이용한 날짜 생성


    import numpy as np
    import pandas as pd
    
    # 6행 4열의 랜덤한 값으로 이루어진 행렬 생성
    df = pd.DataFrame(np.random.randn(6, 4))
    
    df.columns = ['A','B','C','D']
    # pd.date_range() 함수는 시계열 형태의 20160701 부터 5일 후 까지의 시간을 배열로 생성한다.
    df.index = pd.date_range('20160701', periods=6)
    #출력 DatetimeIndex(['2016-07-01', '2016-07-02', '2016-07-03', '2016-07-04',
    #               '2016-07-05', '2016-07-06'],
    #              dtype='datetime64[ns]', freq='D')
    
    







    2. NaN 값 다루기


    위에서 생성했던 데이터 프레임을 그대로 쓴다.


    #NaN이 끼여있는 열을 다루기 위해 새 열을 생성한다. 이때 np.nan은 NaN을 넣어주는 용도이다.
    df['F'] = [1.1, np.nan, 3.3, 4.4, np.nan, 5.5]
    
    # NaN인 행을 제외하고 보여준다.
    df.dropna(how=any')
    
    # NaN인 행도 보여준다.
    df.dropna(how='all')
    
    # NaN인 값들을 특정 값으로 채워넣는다.
    df.fillna(value=5.0)
    
    # 성분이 NaN인지 확인한다. 만약 NaN이면 True, 아니면 False를 반환
    df.isnull()
    
    





    3. 행, 또는 열 삭제 방법



    # 열삭제, dateTime으로 만들어진 인덱스들은 이름만 명시하면 삭제되지 않기때문에, datetime형으로 바꿔주고 삭제요청한다.
    df.drop([pd.to_datetime('20160702'), pd.to_datetime('20160703')])
    
    
    # 행삭제, axis의 값을 1으로 설정하거나, del 을 이용한다.
    df.drop('F', axis=1) # del df['F'] 와 같다.





    'Python' 카테고리의 다른 글

    6. DataFrame 인덱싱  (0) 2017.08.07
    5. Pandas 자료구조  (0) 2017.08.03
    4. Numpy를 이용한 데이터 분석  (0) 2017.08.03
    3. Numpy 함수  (0) 2017.08.02
    2. Numpy 배열 인덱싱  (0) 2017.08.01
    Posted by Config