Matplotlib 生成 CDF 圖
Suraj Joshi
2021年2月28日
本教程解釋瞭如何使用 Python 中的 Matplotlib 生成一個 CDF
圖。CDF
是一個函式,它的 y 值代表一個隨機變數取值小於或等於相應 x 值的概率。
在 Python 中使用 Matplotlib 繪製 CDF
CDF 是對連續概率分佈和離散概率分佈的定義。在連續概率分佈中,隨機變數可以從指定的範圍內取任何值,但在離散概率分佈中,我們只能有一組指定的值。
使用 Python 中的 Matplotlib 繪製離散分佈的 CDF
import numpy as np
import matplotlib.pyplot as plt
x = np.arange(1, 7)
y = [0.2, 0.1, 0.1, 0.2, 0.1, 0.3]
cdf = np.cumsum(y)
plt.plot(x, y, marker="o", label="PMF")
plt.plot(x, cdf, marker="o", label="CDF")
plt.xlim(0, 7)
plt.ylim(0, 1.5)
plt.xlabel("X")
plt.ylabel("Probability Values")
plt.title("CDF for discrete distribution")
plt.legend()
plt.show()
輸出:
它繪製給定分佈的 PMF
和 CDF
。為了計算 CDF
的 y 值,我們使用 numpy.cumsum()
方法計算一個陣列的累計和。
如果給定的是頻率計數,我們必須對 y-值進行歸一化,使其代表 PDF
。
import numpy as np
import matplotlib.pyplot as plt
x = np.arange(1, 7)
frequency = np.array([3, 8, 4, 5, 3, 6])
pdf = frequency / np.sum(frequency)
cdf = np.cumsum(pdf)
plt.plot(x, pdf, marker="o", label="PMF")
plt.plot(x, cdf, marker="o", label="CDF")
plt.xlim(0, 7)
plt.ylim(0, 1.5)
plt.xlabel("X")
plt.ylabel("Probability Values")
plt.title("CDF for discrete distribution")
plt.legend()
plt.show()
輸出:
這裡,我們得到每個 X 值的頻率值。我們將頻率值轉換為 pdf
值,方法是將 pdf
陣列的每個元素除以頻率之和。然後,我們使用 pdf
計算 CDF
值,繪製給定資料的 CDF
。
我們也可以使用直方圖來檢視 CDF
和 PDF
圖,這對於離散資料來說會更加直觀。
import numpy as np
import matplotlib.pyplot as plt
data = [3, 4, 2, 3, 4, 5, 4, 7, 8, 5, 4, 6, 2, 1, 0, 9, 7, 6, 6, 5, 4]
plt.hist(data, bins=9, density=True)
plt.hist(data, bins=9, density=True, cumulative=True, label="CDF", histtype="step")
plt.xlabel("X")
plt.ylabel("Probability")
plt.xticks(np.arange(0, 10))
plt.title("CDF using Histogram Plot")
plt.show()
輸出:
它使用 hist()
方法繪製給定資料的 CDF
和 PDF
。為了繪製 CDF
,我們設定 cumulative=True
和設定 density=True
,以得到一個代表概率值相加為 1 的直方圖。
在 Python 中使用 Matplotlib 繪製連續分佈的 CDF
import numpy as np
import matplotlib.pyplot as plt
dx = 0.005
x = np.arange(-10, 10, dx)
y = 0.25 * np.exp((-(x ** 2)) / 8)
y = y / (np.sum(dx * y))
cdf = np.cumsum(y * dx)
plt.plot(x, y, label="pdf")
plt.plot(x, cdf, label="cdf")
plt.xlabel("X")
plt.ylabel("Probability Values")
plt.title("CDF for continuous distribution")
plt.legend()
plt.show()
輸出:
它繪製給定連續分佈的 PMF
和 CDF
。為了計算 CDF
的 y 值,我們使用 numpy.cumsum()
方法計算一個陣列的累積和。
我們將 y
除以陣列 y
的總和乘以 dx
,以使 CDF
值的範圍從 0 到 1。
作者: Suraj Joshi
Suraj Joshi is a backend software engineer at Matrice.ai.
LinkedIn