連續隨機變數 x 的機率密度函數（PDF）vs 累積分佈函數（CDF）

12月 18, 2023

機率：p(D|H)，D 資料，H 假設，θ 母數、參數，O 觀察到的資料

用 pnorm (x, mean, sd) 找出 CDF 中 θ ≤ x 的機率 p(θ ≤ x)，用 dnorm (x, mean, sd) 找出 PDF 中 x 的密度（最大似然率）。mean, sd default to 0, 1, p(θ ≤ x)= p(θ < x)。

How to use likelihood ratios to interpret evidence from randomized trials 21

https://www.jclinepi.com/article/S0895-4356(21)00132-3/fulltext

Table 1

dnorm(-5, -5.17, 1)/dnorm(0, -5.17, 1) # LR=6.28 x 10^5

dnorm(-5, -5.17, 1)/dnorm(-2.5, -5.17, 1) # LR=34.8

只看點估計（樣本平均值 X̄）是沒有意義的！

https://www.facebook.com/1484893288/posts/10228052189718433/?mibextid=8nno9T

邊際機率：p(D)

條件機率：p(D|H)

由邊際機率（摘要性統計量）無法知道條件機率。

逆機率（似然率）：

邊際：p(H)

條件：p(H|D)

• 頻率學派：模型 M 為真時看見某資料的機率是 p(D|M)。

• 貝氏學派：看見某資料時模型 M 為真的似然率（逆機率）是 p(M|D)，假設 M 是隨機的變數、D 是已知的固定數。

• 頻率學派：無法計算 p(M|D)，因為它假設 M 是未知的固定數（沒有機率可言）、D 是隨機的變數。

• 二個互斥模型之間的貝氏因子或似然比：p(D|M1)/p(D|M2)。當貝氏學派把 D 看成是已知的固定數、把 M 看成是隨機的變數時，p(D|M) 就變成是似然率了。

似然率原則：跟推論有關的資訊都在似然率函數（資料符合參數的程度）L(θ|O)=P(O|θ) 中，亦即推論跟抽樣方法、樣本數無關。

最大似然率：找出能讓機率 P(O|θ) 最大化-亦即讓 log(L(θ|O) 最小化-的 θ。

What is the difference between "likelihood" and "probability"?

https://stats.stackexchange.com/questions/2641/what-is-the-difference-between-likelihood-and-probability?ssp=1&setlang=zh-TW&safesearch=moderate

L(θ|O)=P(O|θ).

In statistical usage, the number that is the probability of some observed outcomes given a set of parameter values is regarded as the likelihood of the set of parameter values given the observed outcomes.

尋找參數值的最大似然（概似）法：

https://publish.get.com.tw/bookpre_pdf/51MG022703-2.pdf

貝氏定理：

1. p(M|D) = p(D|M) x p(M) / p(D)

2. 後驗勝算 p(M1|D)/p(M2|D)=先驗勝算 p(M1)/p(M2) x 貝氏因子或似然比

貝氏因子：p(D|M1)/p(D|M2)，二個互斥模型邊際似然率（所有母數分布值的積分 ∫p(D|θ, M)p(θ|M)dθ）的比率

似然比：p(D|M1)/p(D|M2)，二個互斥模型最大似然率 dnorm(x, mean, sd) 的比率

1. 離散隨機變數：

擲硬幣時，擲骰子時，假設骰子是公平的，那麼重複無限次以後，出現正、反面的機率都是 1/2；假設骰子是公平的，那麼那麼重複無限次以後，出現 1-6 數字的機率都是 1/6。

機率質量函數(PMF) 是離散隨機變數 x 在各特定取值上的機率。例如：擲出硬幣為正(反)面的 pmf = 0.5，單次投擲機率的總和是 1。

2. 連續隨機變數：實數

機率密度函數（總面積 ∫-∞→+∞f(x)dx 等於 1）是連續隨機變數 x 的密度函數，橫軸是 x，高度是密度。累積分佈函數（f(x)=0-1）是連續隨機變量小於或等於某個值的機率函數，橫軸是 x，高度是機率。CDF 是 PDF 的積分（面積），PDF 是 CDF 的導數。

機率密度函數可以用積分來理解：積分記號 ∫ₐᵇdx 表示無窮多個無窮小的面積（或長度），從 a 到 b 連續地求和。雖然每一個 dx（例如：任何特定實數被抽到的機率）的面積（或長度）等於零，但是從 a 到 b 的長度卻是 b - a。

在（0，1）區間選到（0，0.1）區間的機率（與 x 軸所夾的面積）是 0.1，選到（0，1）區間的機率則是 1（0.1 x 10）。雖然任一點（例如：0.5）與 x 軸所夾的面積都是零。

請注意密度是某一 x 的機率趨勢而非機率，因為任一點的機率都是 0。密度等於質量除以體積，質量等於密度乘以體積。當我們把一塊木頭切得很小到體積及質量都是 0 時其平均密度還在，但是只要讓木頭保留一點點體積, 那麼它就有質量了。同樣的，只要我們從區間來談, 那麼密度就會變回機率了。例如：常態分配從平均值加減兩個標準差, 那麼 95% 的 x 都會落在這個區間。

PDF 對於隨機變量的某些值可以大於 1，只要 PDF 曲線下的面積等於 1 即可。例如，如果 X 在區間 (0, 0.1) 上均勻分佈，則 PDF 為 f(x) = 10，當 0 < x < 0.1 時，否則為 0。對於一個包含三個觀察值的樣本，比如 x1 = 0.05，x2 = 0.03，和 x3 = 0.08，似然率為 L(x1, x2, x3) = f(x1) * f(x2) * f(x3) = 10 * 10 * 10 = 1000，這是大於 1 的。

似然率 p(H|D) 是樣本中每個觀察值的機率密度函數值。對於一些分佈，例如均勻分佈，似然率可以大於 1。似然率是分布參數的函數，給定觀察到的數據。它衡量在不同參數值下，觀察到的數據有多大可能性。似然比是兩個不同參數值的似然率的比值。它經常用於比較不同的模型或假設。

對數似然率是似然率的自然對數。它可以是負的或正的，取決於似然率是小於還是大於 1。對數似然率通常比似然率更容易處理，尤其是當處理很大或很小的數字時。對數似然率也是可加的，這意味著一個樣本的對數似然率是每個觀察值的對數似然率的和。

機率密度函數 PDF：用 dnorm (x, mean, sd) 找出 x 的密度

https://www.wikiwand.com/zh-tw/%E6%A9%9F%E7%8E%87%E5%AF%86%E5%BA%A6%E5%87%BD%E6%95%B8

分佈函數與機率密度函數

https://www.stat.nuk.edu.tw/cbme/math/statistic/sta2/s1_4/bud.html

無窮和機率的關係（https://medium.com/math-and-statistics/%E7%84%A1%E7%AA%AE%E5%92%8C%E6%A9%9F%E7%8E%87%E7%9A%84%E9%97%9C%E4%BF%82-b6ce890b7b5b）

Why “probability of 0” does not mean “impossible” | Probabilities of probabilities, part 2

https://youtu.be/ZA4JkHKZM50?si=NxO9eCC6FAijip5t

搜尋此網誌

統計學

連續隨機變數 x 的機率密度函數（PDF）vs 累積分佈函數（CDF）

留言

張貼留言

這個網誌中的熱門文章

可轉移性、普遍性、代表性和外部有效性

頻率學派 vs 貝氏學派

貝氏分析計算器