如何根據 Pandas 中的日期過濾 DataFrame 行

Suraj Joshi 2023年1月30日
  1. 使用布林掩碼選擇兩個日期之間的行
  2. pandas.DataFrame.query() 選擇兩個日期之間的 DataFrame 行
  3. pandas.DataFrame.isin() 選擇兩個日期之間的 DataFrame 行
  4. pandas.Series.between() 選擇兩個日期之間的 DataFrame 行
如何根據 Pandas 中的日期過濾 DataFrame 行

我們可以使用帶有 loc 方法和 DataFrame 索引的布林掩碼,根據 Pandas 中的日期過濾 DataFrame 行。我們也可以對 DataFrame 物件使用 query,isin 和 between 方法來基於 Pandas 中的日期選擇行。

使用布林掩碼選擇兩個日期之間的行

要使用布林掩碼基於 Pandas 中的日期過濾 DataFrame 行,我們首先使用以下語法建立布林掩碼:

mask = (df["col"] > start_date) & (df["col"] <= end_date)

其中 start_dateend_date 均為 datetime 格式,它們表示必須從中過濾資料的範圍的開始和結束。然後,我們使用 df.loc() 方法選擇位於範圍內的 DataFrame 部分。

import pandas as pd
import numpy as np
import datetime

list_of_dates = [
    "2019-11-20",
    "2020-01-02",
    "2020-02-05",
    "2020-03-10",
    "2020-04-16",
    "2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
df = pd.DataFrame({"Joined date": pd.to_datetime(list_of_dates)}, index=employees)

mask = (df["Joined date"] > "2019-06-1") & (df["Joined date"] <= "2020-02-05")
filtered_df = df.loc[mask]
print(filtered_df)

輸出:

        Joined date
Hisila   2019-11-20
Shristi  2020-01-02
Zeppy    2020-02-05

通過將 date 列設定為索引列,我們可以使用整合的 df.loc[start_date:end_date] 方法簡化上述過程。

import pandas as pd
import numpy as np
import datetime

list_of_dates = [
    "2019-11-20",
    "2020-01-02",
    "2020-02-05",
    "2020-03-10",
    "2020-04-16",
    "2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
salary = [200, 400, 300, 500, 600, 300]
df = pd.DataFrame(
    {"Name": employees, "Joined date": pd.to_datetime(list_of_dates), "Salary": salary}
)
df = df.set_index(["Joined date"])

filtered_df = df.loc["2019-06-1":"2020-02-05"]
print(filtered_df)

輸出:

                Name  Salary
Joined date                 
2019-11-20    Hisila     200
2020-01-02   Shristi     400
2020-02-05     Zeppy     300

pandas.DataFrame.query() 選擇兩個日期之間的 DataFrame 行

我們也可以使用 pandas.DataFrame.query() 方法在 Pandas 中基於日期過濾 DataFrame 行。該方法返回從提供的查詢表示式得到的 DataFrame。

import pandas as pd
import numpy as np
import datetime

list_of_dates = [
    "2019-11-20",
    "2020-01-02",
    "2020-02-05",
    "2020-03-10",
    "2020-04-16",
    "2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
salary = [200, 400, 300, 500, 600, 300]
df = pd.DataFrame(
    {"Name": employees, "Joined_date": pd.to_datetime(list_of_dates), "Salary": salary}
)

filtered_df = df.query("Joined_date >= '2019-06-1' and Joined_date <='2020-02-05'")
print(filtered_df)

輸出:

      Name Joined_date  Salary
0   Hisila  2019-11-20     200
1  Shristi  2020-01-02     400
2    Zeppy  2020-02-05     300

pandas.DataFrame.isin() 選擇兩個日期之間的 DataFrame 行

pandas.DataFrame.isin() 返回表示元素是否為布林值的 DataFrame 是否在指定範圍內。我們可以使用此方法根據 Pandas 中的日期過濾 DataFrame 行。

import pandas as pd
import numpy as np
import datetime

list_of_dates = [
    "2019-11-20",
    "2020-01-02",
    "2020-02-05",
    "2020-03-10",
    "2020-04-16",
    "2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
salary = [200, 400, 300, 500, 600, 300]
df = pd.DataFrame(
    {"Name": employees, "Joined_date": pd.to_datetime(list_of_dates), "Salary": salary}
)

filtered_df = df[df["Joined_date"].isin(pd.date_range("2019-06-1", "2020-02-05"))]
print(filtered_df)

輸出:

      Name Joined_date  Salary
0   Hisila  2019-11-20     200
1  Shristi  2020-01-02     400
2    Zeppy  2020-02-05     300

pandas.date_range() 返回固定的 DateTimeIndex。它的第一個引數是開始日期,第二個引數是結束日期。

pandas.Series.between() 選擇兩個日期之間的 DataFrame 行

我們還可以使用 pandas.Series.between() 根據日期過濾 DataFrame 該方法返回一個布林向量,表示系列元素是否在指定範圍內。因此,我們將布林向量傳遞給 loc() 方法以提取 DataFrame。

import pandas as pd
import numpy as np
import datetime

list_of_dates = [
    "2019-11-20",
    "2020-01-02",
    "2020-02-05",
    "2020-03-10",
    "2020-04-16",
    "2020-05-01",
]
employees = ["Hisila", "Shristi", "Zeppy", "Alina", "Jerry", "Kevin"]
salary = [200, 400, 300, 500, 600, 300]
df = pd.DataFrame(
    {"Name": employees, "Joined_date": pd.to_datetime(list_of_dates), "Salary": salary}
)

filtered_df = df.loc[df["Joined_date"].between("2019-06-1", "2020-02-05")]
print(filtered_df)

輸出:

      Name Joined_date  Salary
0   Hisila  2019-11-20     200
1  Shristi  2020-01-02     400
2    Zeppy  2020-02-05     300
作者: Suraj Joshi
Suraj Joshi avatar Suraj Joshi avatar

Suraj Joshi is a backend software engineer at Matrice.ai.

LinkedIn

相關文章 - Pandas DateTime