直方图(Histogram)是用一系列宽度相等或不等、高度各异的矩形表示连续型变量的数据分布的图形。矩形的宽度表示数据范围的区组,矩形的高度表示在给定区组内的数据频数或者频率。
为什么要绘制直方图呢?
①直观地显示连续型变量的分布特征;
②直观判断该数据分布更接近与哪种常用的分布函数;
③尤其是了解数据分布是否可以近似为正态分布。
为什么要特别分析连续型变量是否服从正态分布呢?
因为很多统计检验和统计模型对数据要求是服从正态分布的或者至少是非偏态的。例如,Pearson积差相关系数要求相应的变量呈双变量正态分布;线性回归就要求残差服从正态分布。
因此,我们需要学会画带正态曲线的直方图,来观察样本数据的分布是否接近于正态分布。
Excel绘制直方图的总体思路
Excel的直方图目前来说实质上还是用柱状图实现的,也就是说其x轴是被作为类别坐标轴,而不是数值坐标轴!只不过是将类别间距设置为0,并且用了数值序列来表示类别而已。具体的绘制方法有3类:①用图表功能绘制直方图;②用数据分析加载项绘图;③用数据透视图/表制作直方图;由于篇幅所限,这里只介绍前两种。
实操步骤
下面将为大家展示如何绘制频数分布直方图、频率分布直方图和带正态曲线的直方图,请自取。
直接用图表功能绘制频数分布直方图
我们以50个男生的身高数据为例。
首先,选中“身高”的数据
点击“插入—图表—右下角箭头-直方图”
调整直方图的箱体宽度和箱体的组数。点击x轴的标签,设置坐标轴格式。可以设置箱体宽度,软件会自动计算对应的组数;或者自己设定箱数(组数),软件自动计算箱体宽度。总之,把区间调整为合理的样子。
点击绘图区右上角的加号按钮,修改标题、增加数据标签、增加纵坐标轴标题为“频数”、修改填充颜色等参数。
频数分布直方图绘制完成。
用加载项“数据分析”中的直方图绘制频率分布直方图
数据分析中的直方图与图表中的直方图的差异主要是它可以定义每个区组的右侧分隔点的值(当然也可以系统自己计算)。
根据上面频数分布直方图分出的8组区间,列出“区间的后值”( 右侧分隔点的值)
加载数据分析插件。文件—选项—Excel加载项,点转到—勾选分析工具库
点击“数据—分析—数据分析”,选择“直方图”
在“输入区域”栏中选中“身高”这列数据;在“接收区域”栏中选中“区间的后值”这列数据 。输出选项点输出区域,选择工作表格中的空白的一个单元格。
点击“确定”后,会在选择的位置生成一个有“接收、频数”这两列的数据区域。将频率改成频数(软件翻译的问题),根据频数和总人数50,计算出频率。
套用字符连接函数公式="("&A3&","&A4&"]" 并下拉得到除首区间的剩余区间
选中“频率、区间”列所在区域,插入“簇状柱形图”
修改标题、增加数据标签、增加纵坐标标题为“频率"、修改填充颜色等参数、系列重叠设为100%,间隙宽度设为0%
修改x轴坐标标签。点绘图区,右键—选择数据。弹出窗口中左边为y轴变量,右边窗口为x轴变量。点编辑—选择区间列的数据。确定。
频率分布直方图绘制完成。
绘制正态曲线
绘制正态曲线,就是画以数据序列的均值和标准差来确定的正态函数曲线。这里的难点是正态曲线的x变量是数值变量,直方图的x变量是类别变量,如何对齐?一个简单的解决方法就是取每个区组的代表值为x的值,例如组中点值或右分隔点值。为了减少计算,我们就直接将区组的右分隔点作为x值,利用NORMDIST函数求出对应的y值。
以下为各值的计算方法:
区间的后值:右分隔点值
均值:自动求和—平均值—选中身高数据,enter得出
标准差:自动求和—其他函数—STDEV.S—选中身高数据—enter得出
最大(小)值:自动求和—最大(小)值—选中数据—enter得出
全距:最大值-最小值
组数:自己设定
组距:全距/组数(组距*组数≥全距)
序号:根据组数列出来
频数:数据—数据分析—直方图—输入区域选择身高数据,接收区域选择区间的后值,求得频数
正态值:自动求和—其他函数—NORMDIST—其中X(选择区间的后值)、Mean(选择均值)、Standard_dev(选择标准差)、Cumulative(填入数值 0)
注:求正态值时,可将均值和标准差插入“绝对引用符号$”,可实现快速填充。如 =NORMDIST(D4,F$4,G$4,0)。
选中序号、频数和正态值三列数据,插入簇状柱形图
选中数据系列,右键,将系列“频数”改为系列“正态值”,并将系列绘制在次坐标轴
选中系列“正态值”,右键,更改系列图表类型,将“正态值”改为折线图
选中右坐标轴标签,将标签位置改为“无”
重复上述步骤,修改x轴的标签、修改标题、去掉图例、增加数据标签、坐标轴标题、设置数据系列格式等参数
正态曲线绘制完成。