Pandas의 날짜를 기준으로 DataFrame 행을 필터링하는 방법
- 부울 마스크를 사용하여 두 날짜 사이의 행을 선택하십시오
-
두 날짜 사이의
DataFrame
행을 선택하는pandas.DataFrame.query()
-
pandas.DataFrame.isin()
은 두 날짜 사이에서DataFrame
행을 선택합니다 -
pandas.Series.between()
은 두 날짜 사이에서DataFrame
행을 선택합니다
loc
메소드와 DataFrame 인덱싱을 사용하여 boolean mask를 사용하여 Pandas의 날짜를 기준으로 DataFrame 행을 필터링 할 수 있습니다. DataFrame 객체에 대해 query
, isin
, 및 between
사이 메소드를 사용하여 Pandas의 날짜를 기준으로 행을 선택할 수도 있습니다.
부울 마스크를 사용하여 두 날짜 사이의 행을 선택하십시오
부울 마스크를 사용하여 Pandas의 날짜를 기준으로 DataFrame 행을 필터링하려면 먼저 다음 구문을 사용하여 부울 마스크를 만듭니다.
mask = (df["col"] > start_date) & (df["col"] <= end_date)
여기서 start_date
와 end_date
는 모두 datetime
형식이며 데이터를 필터링해야하는 범위의 시작과 끝을 나타냅니다. 그런 다음df.loc()
메소드를 사용하여 범위 내에있는 DataFrame 부분을 선택합니다.
import pandas as pd
import numpy as np
import datetime
list_of_dates = [
"2019-11-20",
"2020-01-02",
"2020-02-05",
"2020-03-10",
"2020-04-16",
"2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
df = pd.DataFrame({"Joined date": pd.to_datetime(list_of_dates)}, index=employees)
mask = (df["Joined date"] > "2019-06-1") & (df["Joined date"] <= "2020-02-05")
filtered_df = df.loc[mask]
print(filtered_df)
출력:
Joined date
Hisila 2019-11-20
Shristi 2020-01-02
Zeppy 2020-02-05
날짜 열을 인덱스 열로 설정하여 통합df.loc[start_date:end_date]
방법을 사용하여 위의 프로세스를 단순화 할 수 있습니다.
import pandas as pd
import numpy as np
import datetime
list_of_dates = [
"2019-11-20",
"2020-01-02",
"2020-02-05",
"2020-03-10",
"2020-04-16",
"2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
salary = [200, 400, 300, 500, 600, 300]
df = pd.DataFrame(
{"Name": employees, "Joined date": pd.to_datetime(list_of_dates), "Salary": salary}
)
df = df.set_index(["Joined date"])
filtered_df = df.loc["2019-06-1":"2020-02-05"]
print(filtered_df)
출력:
Name Salary
Joined date
2019-11-20 Hisila 200
2020-01-02 Shristi 400
2020-02-05 Zeppy 300
두 날짜 사이의DataFrame
행을 선택하는pandas.DataFrame.query()
pandas.DataFrame.query()
메소드를 사용하여 Pandas의 날짜를 기준으로 DataFrame 행을 필터링 할 수도 있습니다.
import pandas as pd
import numpy as np
import datetime
list_of_dates = [
"2019-11-20",
"2020-01-02",
"2020-02-05",
"2020-03-10",
"2020-04-16",
"2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
salary = [200, 400, 300, 500, 600, 300]
df = pd.DataFrame(
{"Name": employees, "Joined_date": pd.to_datetime(list_of_dates), "Salary": salary}
)
filtered_df = df.query("Joined_date >= '2019-06-1' and Joined_date <='2020-02-05'")
print(filtered_df)
출력:
Name Joined_date Salary
0 Hisila 2019-11-20 200
1 Shristi 2020-01-02 400
2 Zeppy 2020-02-05 300
pandas.DataFrame.isin()
은 두 날짜 사이에서DataFrame
행을 선택합니다
pandas.DataFrame.isin()
은 요소의 여부를 나타내는 부울의 데이터 프레임을 반환합니다. 지정된 범위에 있는지 여부 이 방법을 사용하여 Pandas의 날짜를 기준으로 DataFrame 행을 필터링 할 수 있습니다.
import pandas as pd
import numpy as np
import datetime
list_of_dates = [
"2019-11-20",
"2020-01-02",
"2020-02-05",
"2020-03-10",
"2020-04-16",
"2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
salary = [200, 400, 300, 500, 600, 300]
df = pd.DataFrame(
{"Name": employees, "Joined_date": pd.to_datetime(list_of_dates), "Salary": salary}
)
filtered_df = df[df["Joined_date"].isin(pd.date_range("2019-06-1", "2020-02-05"))]
print(filtered_df)
출력:
Name Joined_date Salary
0 Hisila 2019-11-20 200
1 Shristi 2020-01-02 400
2 Zeppy 2020-02-05 300
pandas.date_range()
는 고정 된DateTimeIndex
를 반환합니다. 첫 번째 매개 변수는 시작 날짜이고 두 번째 매개 변수는 종료 날짜입니다.
pandas.Series.between()
은 두 날짜 사이에서 DataFrame
행을 선택합니다
pandas.Series.between()
을 사용하여 날짜를 기준으로 DataFrame을 필터링 할 수도 있습니다. 이 메서드는 계열 요소가 지정된 범위에 있는지 여부를 나타내는 부울 벡터를 반환합니다. 이렇게 boolean vector를loc()
메소드에 전달하여 DataFrame을 추출합니다.
import pandas as pd
import numpy as np
import datetime
list_of_dates = [
"2019-11-20",
"2020-01-02",
"2020-02-05",
"2020-03-10",
"2020-04-16",
"2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
salary = [200, 400, 300, 500, 600, 300]
df = pd.DataFrame(
{"Name": employees, "Joined_date": pd.to_datetime(list_of_dates), "Salary": salary}
)
filtered_df = df.loc[df["Joined_date"].between("2019-06-1", "2020-02-05")]
print(filtered_df)
출력:
Name Joined_date Salary
0 Hisila 2019-11-20 200
1 Shristi 2020-01-02 400
2 Zeppy 2020-02-05 300
Suraj Joshi is a backend software engineer at Matrice.ai.
LinkedIn