概率与统计

发表于 2024-01-04 更新于 2024-04-07 分类于热力学与统计物理

来自实际分子动力学模拟的数据可能非常庞大。数据集变得极其巨大，因此我们需要有效的工具来突出最重要的方面。在这里，我们将引入概率的概念，以及概率的基本性质，如加法规则和乘法规则。我们将介绍概率分布和密度。我们将引入期望值和方差及其估计量，平均值和标准差。我们将介绍二项分布、正态分布和指数分布。我们将证明独立变量之和的分布通常呈正态分布，而与每个事件分布的细节无关。

统计学为我们提供了描述真实数据的工具，而概率论则为统计学提供了理论基础。在这里，我们将从基于事件频率的实用概率论方法开始，利用这个方法来建立概率的基本法则。这种方法对物理学家来说很直观，从计算视角考虑也是最直接的方法。

Motivating example：气体中的涨落

分子动力学模拟中，气体的运动呈现出大致随机的波动，因此物理量的测量也会有所变化。比如，箱子里左侧的原子数量n(t)，会随时间变化。

# 2d Lennard-Jones gas
units lj
dimension 2
atom_style atomic
lattice hex 0.10
region box block 0 20 0 10 -0.1 0.1
create_box 1 box
create_atoms 1 box
mass 1 1.0
velocity all create 2.5 87287
pair_style lj/cut 2.5
pair_coeff 1 1 1.0 1.0 2.5
neighbor 0.3 bin
neigh_modify every 20 delay 0 check no
fix 1 all nve
dump 1 all custom 10 gasstat01.lammpstrj id type x y z vx vy vz thermo 100
run 50000

概率

统计实验

一项统计实验是具有多个可能结果或事件的尝试。实验的结果称为结果或事件，所有可能结果的集合称为样本空间。

许多物理系统，如气体，是相互关联的，因为在两次连续测量之间，系统的状态可能并未完全改变。

生成随机数字

我们可以通过使用Python中的伪随机数生成器进行一次数值统计实验。我们生成一个介于1和6之间的随机数：

import numpy as np
np.random.randint(0,6)

# 还可以进行4次这样的实验
np.random.randint(0,6,4)

测量发生的频率

首先，让我们来测量某个特定结果出现的频率，也就是绘制直方图。

频率与概率

频率是对过程内在性质的一种估计——即结果出现的概率。当我们进行无限多次实验时，我们可以将概率定义为频率。

概率的性质

归一化：所有结果出现的概率和为1。

当任何两个结果x无法同时发生，且求和覆盖了所有可能的结果x时，这被称为概率的归一化条件。在概率论和统计学中，这个概念是用来确保概率模型正确表示了所有可能事件的完整性和互斥性。

补集规则：我们总可以把一个实验的所有可能结果分成两部分，即结果A发生和结果A不发生。这两者必有一个会发生，但不能同时发生。

此处，原文是讲了一些概率的基础，略。

期望值与方差

此处，原文是讲了一些概率的基础，略。