[数据可视化]复习笔记

技术2022-08-16 99

第一章 R语言入门

1.1 R的初步使用

R在断行的地方加“+”表示连接标准赋值符号： $\color{#A0F}<-$ 安装包，加载包： $\color{#A0F}install.packages(c("包名","包名"))\quad library(包名)$

1.2 创建R数据

向量 R中录入一个向量： $\color{#A0F}a<-c(2,3,4,5)$ 同一个向量中的元素只能是同一类型的数据，不能混杂访问a中第二、五个元素： $\color{#A0F}a[c(2,3)]$ 矩阵创建矩阵： $\color{#A0F}mat<-matrix(data=NA,nrow=1,cnol=1,byrow=FLASE,dimnames=NULL)$ ，（数据向量，矩阵行数，矩阵列数，默认按列填充，list矩阵的行名列名）转置矩阵： $\color{#A0F}t()$ 生成24个在25到100之间均匀分布的随机数，并取整： $\color{#A0F}round(runif(24,25,100))$ 数组创建数组： $\color{#A0F}array(data=NA,dim=length(data),dimnames=NULL)$ ，（数据向量，每个维度的最长度，维度标签） **数据框 ** 格式： $\color{#A0F}data.frame(col1,col2,col3)$ 查看数据的前3行： $\color{#A0F}head(df,3)$ 查看数据的后3行： $\color{#A0F}tail(df,3)$ 查看数据的结构： $\color{#A0F}str(df)$ 查看数据值的范围： $\color{#A0F}summary(df)$ 查看数据的列名： $\color{#A0F}colnames(df)$ 查看数据的类型： $\color{#A0F}class(df)$ 查看数据的行数，列数： $\color{#A0F}nrow(df),ncol(df)$ 同时查看数据的行数和列数： $\color{#A0F}dim(df)$ 按行合并数据框： $\color{#A0F}rbind(df1,df2)$ ，列数不变将df2的第2，3列合并到df1： $\color{#A0F}cbind(df1,df2[,2:3])$ ，行数不变对姓名做降序排列： $\color{#A0F}sort(df￥姓名,decreasing=TURE)$ ，默认升序对表按姓名做升序： $\color{#A0F}df[order(df1￥姓名),]$ 重命名： $\color{#A0F}rename()$ 指定数据框： $\color{#A0F}attach(data),detach(data)$ 四舍五入保留两位： $\color{#A0F}round(x,digtis=2)$ 因子和列表 $统计学变量\begin{cases} 类别变量（定性变量）\begin{cases} 无序类别变量\\有序类别变量 \end{cases}\\ 数字变量（定量变量）\begin{cases} 离散变量\\连续变量 \end{cases}\\ \end{cases}$ 在R中类别变量称为因子，因子的取值称为水平将无序因子转换为数值：（按拼音取levels） $\color{#A0F}a<-c("金融","地产","医药","医药","金融","医药")$ $\color{#A0F}f<-factor(a)$ $\color{#A0F}as.numeric(f)$ 将有序因子转换为数值： $\color{#A0F}b<-c("很好","好","一般","差","很差")$ $\color{#A0F}f<-factor(b,order=TRUE,levels=c("很好","好","一般","差","很差"))$ $\color{#A0F}as.numeric(f)$ 列表list

1.3 数据的其他操作

读取数据： $\color{#A0F}table1\_1<-read.csv("C:/aa/aa.csv",header=FLASE)$ ，默认含有保存数据： $\color{#A0F}write.csv(table1\_1,file="C:/aa/aa.csv")$ 保存R格式： $\color{#A0F}save(table1\_1,file="C:/aa/aa.RData")$ 数据类型转换

变量->向量

\color{#A0F}as.vector()

数据框转换成矩阵，才能转换成向量数据框->矩阵

\color{#A0F}as.matrix()

矩阵行名：

\color{#A0F}rownames(matrix1\_1)=table1\_1[,1]

短格式数据->长格式数据数据中有标识变量

\color{#A0F}libaray(reshape2)

\color{#A0F}table1\_1\_1<-melt(table1\_1,id.vars="姓名",variable="课程",value.name="分数")

id.vars称为为标识变量，用于指定按哪些因子（一个或多个）汇集成其他变量（通常是数值变量）的值。例如上例，表示要将课程的分数按照姓名汇集成一个变量，而且汇集到一列的数值与原来的课程和姓名相对应。数据中无标识变量增加一个付给Id：

\color{#A0F}Id<-cbind(table1_4,id=factor(1:5))

生成随机数生成均值为mean、标志差为sd的正态分布n个随机数，函数为： $\color{#A0F}rnorm(n,mean=0,sd=1)$ 设定随机数种子： $\color{#A0F}set.seed(15)$ 在0到100之间产生10个均匀分布随机数： $\color{#A0F}runif(10,0,100)$ 10个自由度为15的 $\chi ^2$ 分布随机数： $\color{#A0F}rchisp(10,15)$ 数据抽样 $\color{#A0F}sample(x,size,replace=FALSE,prob=NULL)$ ，（向量，样本量，默认无放回抽样，要抽取元素的概率权重问题）

1.4 生成频数分布表

频数分布表是对类别数据（因子的水平）计数或数值数据类别化（分组）后计数生成的表格 4. 类别数据频数分布表 base包中的table stats包中的ftable vcd包中的structable 一维列联表只涉及一个类别变量，这个变量的各类别（取值）可以放在频数分布表中“行“的位置，将该变量的各类别及其相应的频数列出来就是一维列联表 $\color{#A0F}mytbale<-table(data1\_1￥满意度)$ 将表转换为百分比表： $\color{#A0F}prop.table(mytable1)*100$ 二维连列表涉及两个类别变量时，通常将一个变量的各类别放在“行”的位置，另一个变量各类别放在“列”的位置。有两个类别变量交叉分类形成的频数分布表称为二维列联表（二维表，叫交叉表） $\color{#A0F}mytbale2<-table(data1\_1￥性别,data1\_1￥满意度)$ ,行列添加边际和： $\color{#A0F}addmargins(mytable2)$ 多维列联表涉及两个以上类别变量时，通常将一个或多个变量按“列”摆放，其余变量则按“行”摆放，这种由多个类别变量生成的频数分布表称为多维列联表 stats包ftable、vcd包structable $\color{#A0F}ftable(x,exclude-c(NA,NaN),row.vars=NULL,col.vars=NULL)$ 5. 数值数据频数分布表先将其类别化：确定组数；确定组距；cut函数分组。确定组数K $\color{#A0F}K=1+log10(n)/log10(2)$ 确定组距 $\color{#A0F}组距=（最大数-最小数)/组数$ cut函数分组 $\color{#A0F}cut(x,breaks,labels=NULL,include.lowest=FALSE,right=TRUE,dig.lab=3)$ ，(数据，要分的组数，生成组的标签默认用（a,b]，确定区间是否包括下限值或上限值，确定区间是否包含上限值默认包含，设置区间组所使用的数字位数)

1.5 编写R函数

第二章 R绘图基础

2.1 R的基本绘图函数

高级绘图函数 $\begin{cases} 高级绘图函数，可以产生独立的图形\\ 低级绘图函数，添加图形函数 \end{cases}$

Plot函数

\color{#A0F}plot(x,y=NULL,type="p"...)\\ type：p画点，l画线，o线点，b用线将点连接，n什么也不画，h是画类似直方图的垂线\\ xlim：x的数值范围c(x1,x2)\\ main：图形的主题\\ sub：图形的副标题\\ xlab：x轴的标签\\ ann：ann=TRUE表示绘制出坐标轴的标签和图形的标题\\ axes：axes=FALSE表示不画坐标轴\\ yaxt=n：不画y轴\\ frame.plot：表示是否要画出图形外框

\color{red}lwd：线宽\\col：颜色\\pch：点样子\\lty：线样子

其他高级绘图函数

低级绘图函数 $\color{#A0F}abline()：h=0水平,v=0垂直，a=1,b=2斜线，线性拟合模型\\ lines(x,y):可以画曲线，x从小到大\\ text：对图中点加文字\\ mtext：对图外面的边框加文字 title：添加标题$

其他 $\color{#A0F}lm(fumlua)：求线性回归模型\\ rep(1：8)：1到8\\ seq(100,750,20)：初始值为100，终止值为750，每次递增20$

图例函数 $\color{red}legend()\\ ”topleft”：位置bottomright\\ title：标题\\ legend：字符向量表示图例内容\\ horiz：FALSE图例竖着摆放\\ cex：字的大小$

坐标轴函数 $\color{#A0F}axis(side,at...)\\ side：1下，2左，3上，4右，顺时针\\ at：数值，\\ labels：标签，逻辑值或向量\\ col.axis：坐标轴颜色\\ las：0水平写，2垂直写\\ line：距离边距的行数$

2.2 图形参数与图形控制

绘图参数 $\color{#A0F} opar<-par(no.readonly=TRUE)\\ par()\\ par(opar)$ par(new=T)就可以在原图上画新图 $\color{#A0F}col.：颜色参数\\cex.：文字参数\\ fg：图形的前景色\\ bg：图形的背景色\\ pin=c(3,4)：宽高\\ mai=c(1,0.5,1,0.2)：下左上右边界大小 mfrow=c(2,2)：按行填充 mfcol：按列填充$

2.3 页面布局与图形组合

$\color{#A0F}layout(mat) mat：矩阵\\ nrow=2\\ ncol=2\\ byrow=TRUE：按行填充，默认按列 widths=c(2,1)：宽度比 heighs=c(2,1)：长度比 layout.show(2)$

第三章类别数据可视化

3.1 一维表的可视化

条形图是用一定宽度和高度的矩形来表示各类频数多少的图形。简单条形图根据一类别变量或一维表绘制的条形图就是简单条形图条形图： $\color{#A0F}barplot()\\ horiz：FALSE默认垂直，TRUE水平\\ density：设置阴影的线条的密度\\ angle：设置阴影线的角度\\ inside：默认inside=TRUE是否画出各条形的边框线\\ border：设置各条边框$ 添加频数标签： $\color{#A0F}text(bar,table3,lable=table3,pos=3)$ ，（barplot，y，内容，位置pos=3上方）添加频数折线： $\color{#A0F}lines(bar,table3,type="o")$ 添加垂线： $\color{#A0F}points(bar,table3,type="h")$ Pareto Pareto图是将各种类别的频数多少排序（降序）后绘制的条形图算累计频数y<-cumsum(x)/sum(x)

3.2 二维表的可视化

并列条形图与堆叠条形图并列条形图中，一个类别变量作为坐标轴，另一个类别变量各类别频数的条形并列摆放堆叠条形图中，一个类别变量作为坐标轴，另一个类别变量各类别频数按比例堆叠在同一个条中。

并列条形图 barplot(legend=rownames(mytable1),arg.legend=list(x=9.5,y=330,ncol=3),beside=TRUE) 堆叠条形图

脊形图与百分比条形图脊形图是根据各类别比例绘制的一种条形图，看作是堆叠条形图的一种变种。高度设定都为1，条的宽度与观测频数成比例graphics包种的sineplot,其他和上例一样 sineplot(x,y=NULL) sineplot(formula)y~x 百分比条形图高宽都一样，用barplot 二维关联图不管关联图是展示行变量和列变量差异的图形独立性检验的P值图

3.3 高维列联表的可视化（马赛克图）

马赛克图马赛克图其图中嵌套举行的面积与列联表相应单元格的频数成比例。graphics包mosaicplot，vcd的mosaic $\color{#A0F}mosaicplot(x,shade,las)\\ ~x+y+z，三个行列行dir=c(vhv)\\ shade：shade=FALSE表示只绘制标准图形默认；绘制扩展图形\\ las：数值坐标轴标签的风格\\ off：以百分比形式设置马赛克图中各级之间的间隔\\ dir：设置x中每个向量的方向，"v"表示纵向，"h"$ 马赛克图的变种不管高维关联图不管

3.4 其他图（饼图、环形图、扇形图）

饼图不管

第四章分布特征可视化

4.1 直方图与核密度图

直方图与核密度图是观察数据分布特征的常用图形，直观地展示数据分布的形状是否对称普通直方图 $\color{#A0F}hist(x,breaks...)\\ breaks：分组个数，系统会调整\\ labels：是否打出频数\\ freq：TRUE，y轴表示频数；密度\\ probability：与freq相反\\ right：默认TRUE右侧闭区间，左侧开区间$ 地毯图使用rug函数在直方图x轴上画出原始数据的位置，用线段表示，称为地毯图 $\color{#A0F} 地毯图：rug(data4_1￥AQI)\\ 添加核密度曲线：lines(density(data4_1)￥AQI\\ 加上随机数：jitter(AQI)\\ 均值：mean(x)\\ 标准差：sd(x,c(0,0))\\ 添加理论正态曲线：curve(dnorm(x,mean(data4_1￥PM2.5),sd(data4_1￥PM2.5)),add=TRUE)\\ 添加最大值最小值中位数和四分位点：points(quantile(data4_1￥PM2.5),c(0,0,0,0))$ 叠加直方图和堆叠直方图

叠加直方图将一个变量的直方图叠加到另一个变量的直方图上，绘制出叠加直方图将直方图加在另一个上hist(add=TRUE)堆叠直方图（条件直方图）按因子水平来堆叠因子分类的直方图

\color{#A0F} library(plotrix)\\ histStack(x~z,legend.pos="topright")\\ library(e1071) 对x求偏度系数skewness(X)

核密度图

核密度曲线核密度图是对数据分布密度较为精确的估计

\color{#A0F} d<-density(data4_1￥AQI)\\ plot(d)\\ 填充：polygon(d,col="grey90",border="grey20")\\ 设置带宽值越大越平滑：d<-density(data4_1￥AQ,dw=3I)

多个数值变量

sm包sm.density…compare() 2. 分类核密度图使用epade包histogarm.ade histogarm.ade(PM2.5,group=质量等级,wall=1,bar=FALSE,bgcol=“grey90”) 条件核密度图条件密度图用于描述变量x在类别变量y不同水平下的分布 cdplot(formula) cdplot(y~x,data,col)

4.3 箱线图与小提琴图

箱线图 bocplot() 小提琴图 voiplot()

第五章变量间关系可视化

5.1 散点图与散点图矩阵

散点图散点图是两个数值型变量之间是否存在相关关系，关系的形态，正相关负相关相关的强度斜率-1<=r<=1 $\color{#AOF} y<–4+0.5*x+rnorm(100,0.2) plot(d) polygon(d[cuhll(d)],col=,lty=,lwd=) points(d)#打点 abline(lm(y~x))#画拟合线回归直线 lines(lowess(y~x,f=2/3))#画曲线拟合 $ $\color{#AOF}

散点图矩阵分析多个变两两之间的关系 pairs

5.2 条件散点图

如果数值变量的各个取值是 $\color{#A0F}coplot(formula，)$

5.4 3D散点图和气泡图

3个变量 scatterplot3d

气泡图 z气泡大小 plot(cex=z)

symbol

第九章概率分布可视化

常见函数以及参数

矩阵 $\color{#A0F}matrix$ 数组 $\color{#A0F}array$

Processed: 0.015, SQL: 9