R 语言 stats 包中的函数

R 语言 stats 包中的函数,我们已经学习了 R 语言的基础知识,包括其语法以及语法所对应的语义,现在准备使用 R 向统计学领域进发。本文是 R 系列的第十一篇文章,我们将学习如何使用 R 语言 stats 包中提供的统计函数。,与此系列之前的文章一样,我们将使用安装在 Parabola GNU/Linux-libre(x86-64)上的 R 4.1.2 版本来运行文中的代码。,在 R 中 mean 函数用来计算算术平均值。该函数接受一个 R 对象 x 作为参数,以及一个 trim 选项来在计算均值之前剔除任意比例的数据(LCTT 译注:比如对于一个含有 7 个元素的向量 x,设置 trim 为 0.2 表示分别去掉 x 中最大和最小的前 20% —— 即 1.4 个 —— 的元素,所去掉的元素的个数会向下取整,所以最终会去掉 1 个最大值和 1 个最小值;trim 取值范围为 [0, 0.5],默认为 0)。逻辑参数logical argument(TRUE 或 FALSEna.rm 可以设置是否忽略空值(NA)。该函数的语法如下:,该函数支持数值、逻辑值、日期和 时间区间time intervals。下面是使用 mean 函数的一些例子:,我们使用 UCI 机器学习库提供的一个采集自葡萄牙银行机构的“银行营销数据集”作为样本数据。该数据可用于公共研究,包含 4 个 csv 文件,我们使用 read.csv() 函数导入其中的 bank.csv 文件。,下面是计算 age 列均值的示例:,R 语言 stats 包中的 median 函数用来计算样本的中位数。该函数接受一个数值向量 x,以及一个逻辑值 na.rm 用来设置在计算中位数之前是否去除 NA 值。该函数的语法如下:,下面是使用该函数的两个例子:,现在我们可以计算银行数据中 age 列的中位数:,pair 函数用来合并两个向量,接受向量 x 和向量 y 两个参数。x 和 y 的长度必须相等。,该函数返回一个 Pair 类的列数为 2 的矩阵,示例如下:,该函数常用于像 T 检验和 Wilcox 检验等的 配对检验paired test。,dist 函数用来计算数据矩阵中各行之间的距离矩阵,接受以下参数:,该函数提供的距离测量方法包括:欧式距离euclidean、最大距离maximum、曼哈顿距离manhattan、堪培拉距离canberra、二进制距离binary 和 闵可夫斯基距离minkowski,默认为欧式距离。,下面是使用欧式距离计算 age 列距离矩阵的示例:,改用二进制距离的计算结果如下:,quantile 函数用于计算数值向量 x 的分位数及其对应的概率。当设置 na.rm 为 TRUE 时,该函数将忽略向量中的 NA 和 NaN 值。概率 0 对应最小观测值,概率 1 对应最大观测值。该函数的语法如下:,quantile 函数接受以下参数:,rnorm 函数可用于生成正态分布的随机数。它可以接受要生成的观测值的数量 n,一个均值向量以及一个标准差向量。下面是一个计算 rnorm 函数生成的随机数的四分位数的示例:,下面是生成银行年龄数据对应概率下的分位数的示例:,IQR 函数用于计算向量中数值的 四分位距interquartile range。其语法如下:,参数 type 指定了一个整数以选择分位数算法,该算法在 Hyndman and Fan (1996) 中进行了讨论。下面是计算银行年龄四分位距的示例:,sd 函数用来计算一组数值中的标准差。该函数接受一个 数值向量numeric vector x 和一个逻辑值 na.rmna.rm 用来设置在计算时是否忽略缺失值。该函数的语法如下:,对于长度为 0 或 1 的向量,该函数返回 NA。下面是两个例子:,下面是计算 age 列标准差的示例:,R 语言 stats 包中还有很多其他函数,鼓励你自行探索。

文章版权声明

 1 原创文章作者:cmcc,如若转载,请注明出处: https://www.52hwl.com/27072.html

 2 温馨提示:软件侵权请联系469472785#qq.com(三天内删除相关链接)资源失效请留言反馈

 3 下载提示:如遇蓝奏云无法访问,请修改lanzous(把s修改成x)

 免责声明:本站为个人博客,所有软件信息均来自网络 修改版软件,加群广告提示为修改者自留,非本站信息,注意鉴别

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年6月23日
下一篇 2023年7月15日