初始R语言

、R 语言是什么？

R 语言是一个专门为统计而开发出来的一个计算机编程语言，它是一种解释性型的面向数学理论研究工作者的语言。类似于MATLAB，他在语言层面提供了更加丰富的数据结构，且能够十分方便地输出文字和图形信息，所以广泛应用于数据分析，尤其是统计学领域。

我们使用R 语言一般都会搭配 Rstudio 使用（它是一款 R 语言的操作界面，具有代码调试、可视化等功能）

Rstudio操作界面介绍

2、R 语言能做什么？

现在的 R 语言可以做 统计分析、数据可视化、机器学习（包括深度学习）。

—— R 语言的系统学习可以参考[R 语言教程](https://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/intro.html#intro-hist-char)

统计分析：R 的统计分析能力尤为突出，它内嵌了许多实用的统计分析函数（比如，线性回归等）。分析的结果也可以直接显示在界面上。

数据可视化：内置了多个作图函数，同时还有大量的作图函数包（package），比如，ggplot2（Nature、Science 和 Cell上有大量的图表都是使用 R 语言绘制的）。这些工具的存在使得 R 可以做出各种美观漂亮的图表（比如，热图、动态统计图等），而且可以保存为 jpg、png、bmp、ps、pdf、emf 等多种格式文件。

R语言出的图

——（关于 R 语言学术表格的绘制方法可以参考[《R 语言数据可视化之美》](https://read.douban.com/reader/ebook/130453795/)）

同时R 语言还能实现地理可视化（GIS），通过“arcgisbinding”包可以实现在 R 语言中导入、转化和导出 ArcGis 数据集。还有专门为 R 和 ArcGis 开发的软件[R-ArcGis](https://r.esri.com/)

机器学习：得益于 R 的开源社区（CRAN），许多的机器学习“package”被开发出来供人们免费使用（比如 nnet、randomForst等），可以实现神经网络，随机森林等**各种机器学习**模型等建模。通过与 keras（深度学习框架）的结合，使得 R 还可以实现深度学习建模，让 R 的应用范围又更进一步拓宽。

```

如果你想做 Bayesian，只要在 R 里面调用 OpenBUGS，WinBUGS，JAGS 等这些已经成熟的 package 来进行贝叶斯分析。

```

怎么样R 语言是不是非常有用，那我们赶快学起来吧！

下篇文章来教大家怎么利用R语言进行简单 BP神经网络 建模

R 语言几乎不需要编程，大部分的操作只需要调用 package 来执行就可以了.我们只需要了解R的基础语法

家好，这是从知乎《一个大学生的日常笔记》中迁移过来的R语言教程的第一篇。

这一份笔记follow了两本非常优秀的R语言教材，分别是Robert I.Kabacoff的《R语言实战》和Peter Dalgaard的《R语言统计入门》，两本教材的思路有所不同，我会根据我自己的思路尽量降低学习门槛，综合来写教程。（毕竟提高了门槛，我就不知道自己在写什么了……那就真的没卵用了……）

阅读教程的时候我有自己的思路，看过我的LaTeX入门笔记的同学们会明白，如果我想到了一些可能会让入门新手迷糊的地方，我会以注意：这样的形式去标记出来，而且有的时候，可能这些小插曲更加重要，请不要忽略它们。

例子大部分都是摘抄的，但是我会做一些解释和细节上的调整，同时考虑到代码规范的问题，我很多例子不会提供符号可选的余地，比如"和'，用于标记字符都可以，但是代码规范推荐使用"

目前我已经是准大二学生，统计的先修课只有一门学校上的《概率论与数理统计》，事实上，这门课学完之后，R的大部分内容就已经可以上手操作了。因此我们不会在这门课程已有的理论部分下功夫去解释。但是，碍于我自己本科生的视野，我们不会把太复杂，或者根本不可能涉及到的的内容搬到这里，因此这对于真正的statistician，或者是统计学专业的大牛来说，可能最多只是一份入门笔记而已。

不过也还是有些亮点的，我可能会在教程里夹杂点别的语言的新奇玩意做些互相的对比2333

引言到此为止，下面我们开始正题。

R语言环境初探

细心的同学可能已经看到了封面的那个图，那个就是我们推荐下载的R语言编辑器——Rstudio，但是这仅仅是个编辑器，必须下载安装真正的R语言编译器才能够运行。至于如何下载——百度搜索R和Rstudio关键字就好。那两个玩意的图标大概长这样

我们主要使用的编辑器是Rstudio，但是为了教程的完整性(integrity)，这里展示一张R语言的打开界面

输入一行命令试试？

plot(rnorm(1000))

（居然没提供R语言的选项……）

系统会为你画一张图

这是一张含有1000个按正态分布排列的随机数的图。

R的环境到此结束，下面我们回到Rstudio来看看

我们可以看到Rstduio有四个区域。分别的功能是

左上角，是Rstudio的脚本区域（但是远不止写脚本那么简单，其实还可以用来写Rmarkdown，RNotebook等，这些是很实用的插件，但这里我们不详谈）
左下角，是命令行（command）窗口，刚才我们在R中展示的窗口就是这个。
右上角是R的目前的变量环境
右下角是R的画图，装包，浏览文件的区域。

可以看出，综合的功能是比R要强大很多的，而且根据我们网站组的大佬的反应，这玩意其实是一个html……也就是说你会JS你就可以恶搞它的界面啦

对了，在你关掉R/Rstudio的时候，系统会问你是否要保存空间映像，那个其实就是保存历史记录，方便以后继续使用而设置的。

一些基本的素养和操作

R语言是一个统计语言。统计数据离不开一个良好的用于储存的结构和标识。我们会先从它的基本操作讲起，在其中夹杂着数据类型，数据框等大量的结构和细节。

首先说说帮助文档

R语言和C++/python不一样，R语言非常琐碎，因此seek for help是必要的，但是R的official document很难懂，因此不推荐拿那个去当作你学习的教程。我们推荐的是以下三种寻求帮助的命令

help("function") or ?function
help.search("function") or ??function
example("function")

第一个是查函数的帮助文档，第二个是以某一个function为关键字搜索帮助文档。第三个会给出某一个函数的使用示例。在对函数不熟悉的时候一定要学会使用它。

不管是什么样的计算机语言，赋值都是最基础的工作。但是赋值符号不是C++里的=，而是<-，比如

r <- 2

注意：用=赋值是不会被编译器报错的，但是由于这个语法不标准，所以有的时候会出问题。

随着赋值而来的就是数值运算，但是我们不强调那种单变元的数值运算，R有个很强大的功能是向量化操作（当然matlab也有）。（向量理解为一系列变量的按序组合（比如数值向量可以理解为数列）就好）比如说给予五个人身高体重的例子，我们计算一个BMI。

A <- c(1.84,1.74,1.65,1.58,1.81)
B <- c(86.2,65,51.5,45,56)
BMI <- (B/(A^2))
BMI

最后显示的结果是

确实是一个向量。

注意：R语言构造向量的方法是c(...)

注意：如果不输入某一个变量的名称，R默认是不显示结果的，因此我最后一行又加了一个BMI变量名显示它。

注意：我们推荐写多行R代码的时候使用脚本，之后在Rstudio中，脚本区域的右上角有三个按钮，第一个run是逐行运行代码，第三个source是运行全部代码（但是要在下拉框选择source with echo，否则依然显示不了结果），大家注意回去找找看。

注意：如果你真的点击了source去运行代码的话，可以在command区域看到这样的命令

source('C:/Users/Asus/Desktop/A.R')

拿出来说的原因是想强调：如果你要输入一个文件路径，一定要输入正斜杠/，因为反斜杠是转义字符（escaped character），在""中间输入字符，如果想让它打印出"，就可以输入\"。

我们回到向量这个问题上来

常用的R的数据类型有三种：数字，字符，逻辑真假（当然还有个缺失值类型，我们在之后会说）。因此我们也可以创建字符和逻辑向量。

关于字符向量，我们列举下面三个例子

c("A","B","C")
cat(c("A","B","C"))
cat(c("A","B","C"),'\n')

显示的结果如下

哎？二和三有什么区别吗？

如果你在R中运行的话，第二行的命令是默认不换行的，所以就会出现

的情况，不过在Rstudio里，这种情况得到了改善。

注意：cat是连接+输出的函数，而c只负责连接，在例子中，cat可以消除字符串的""符号。你可以连接任何东西，包括向量。

注意：R的向量要求内部的所有元素数据类型相同。如果通过cat/c连接两个不同数据类型的向量，系统会进行强制转换。比如

A <- c("A","B","C")
B <- c(1,2,3)
c(A,B)

结果留给大家自己观察。（这里原来出了一处错误，已经修正，谢谢

@快走姑娘

提醒）

和数值运算类比的就是逻辑运算，但是我不打算在这里先说这些。

伴随着向量的就是索引，目的自然是为了取用这些元素。索引的方法是[]，举2个例子

A <- c("A","B","C")
A[2]
B <- c("A"=1,"B"=2,"C"=3)
B["B"]

显示的结果如下

注意：向量内的元素是有序的，这里A[2]索引的就是第二个，不是程序员认为的第三个！

注意：第二个例子中，我们相当于人工设置了索引（在python里，有个专门的数据结构叫字典（dict））为"A","B","C"，它们叫这些变量的名称（name），一一对应1，2，3。和自然索引1，2，3不同的是，这里的人工索引在查看变量的时候会显示。

注意：索引也可以索引一个向量，也就是索引多个元素（和matlab一样），比如说，试着运行一下下面这个命令。

A <- c("A","B","C")
A[c(2,3)]

结果留给你们自己去发现。

注意：索引也可以是负索引！它不是python里“倒数第几个”的含义，它的意思是“索引除标记以外的所有元素”。在数据清洗中非常常见，可以用一个例子去帮助理解

A <- c("A","B","C")
A[-c(2,3)]

自己去敲敲代码看看结果吧

注意：你甚至可以使用索引进行赋值，即使它已经超出了这个向量的长度，比如说

A[7]="D"

那么，A这个时候第7个确实是字符D，但是原来的第4-6个呢？实际上它们是缺失值。也就是NA。至于缺失值是什么样的数据类型，这会在之后提到。

注意：对于名称，字符串中的""要求会放宽，也就是说，你还可以这么写。

B <- c(A=1,B=2,C=3)

结果是一样的

对于我这种懒人来说，这可真是个福音。

下面我们说说矩阵和数组。

矩阵可以理解为二维的向量。但是创建矩阵的参数就一下子多了很多，因此可能会稍有点难理解，我们用两组例子结束这一切。

第一组：

S <- c(1,2,3,4,5,6,7,8,9)
rnames <- c(1,2,3)
cnames <- c("A","B","C")
C=matrix(S,nrow=3,ncol=3,byrow=TRUE,dimnames=list(rnames,cnames))
C=matrix(S,nrow=3,ncol=3,byrow=FALSE,dimnames=list(rnames,cnames))
C=matrix(S,nrow=2,ncol=4,byrow=TRUE,dimnames=list(rnames,cnames))

显示的结果如下

我改变的参数在byrow这里，它提示我们应该按行填充还是按列填充。TRUE自然就是按行存储的意思。

Oh，第三个报错了，看一下报错信息。

data length [9] is not a sub-multiple or multiple of the number of rows [2]数据长度9不是行数2的因数或倍数

哇哦，我有一些额外的发现

报错信息的数字会用[]标识出来，是有意义的。同时本身也不是特别难懂。

兴奋完之后，回到命令本身，参数解释如下：

第一个是源向量。
第二个是nrow和ncol参数，row是行，col是列（column），代表需要组合的行数和列数。
第三个是byrow参数，上面已经解释过了。
第四个是dimnames，用于标记行名称和列名称。

我们可以看到，在矩阵里，名称就非常重要了，它更接近于我们平常做数据分析时所需要使用的表。

注意：看到那个TRUE了没，对比一下C里的true和python里的True就知道，R语言也是一个大小写敏感的语言。因此要注意代码的严格的大小写。

注意：第三，四个参数不是必需的，第三个不写的话，默认是FALSE，也就是按列填充。（和TeX的语法差别在于，可选不可选并不能通过直观的方式看出来，需要靠人的主观能动性去理解）

注意：在dimnames里有一个list函数，这是为了创建列表，它的目的是把多个变量的集合聚合成为单个变量，这是为了方便给函数的参数提供值，传参时会经常用。形式上倒没有太大的差别。

下面是第二个例子。

cbind(A=1:4,B=5:8,C=9:12)
rbind(A=1:4,B=5:8,C=9:12)

显示的结果如下

bind是捆绑的意思，cbind理解为“把列捆绑在一起”，所以提供的向量自然是列向量，那么对应的名称索引就是行索引。同样的，rbind就是“把行捆绑在一起”。

注意：有的人会问[1,]和[,1]是什么？我们要强调，这种位置上的东西不管是名称还是数字，都是索引！但是这是矩阵的索引，对于矩阵的索引，我们可以举几个例子。

A=matrix(1:24,nrow=4,ncol=6)
A[,6]
A[3,]
A[3,4]
B=A[c(2,3),c(3,4)]
B
dimnames(B)=list(c(1,2),c(1,2))
B

显示的结果如下

索引项中，第一个是行索引，第二个是列索引。同样，你也可以给索引设置为向量。

在敲这个代码的时候，摸索了一个很有趣的用法。我们注意到，B依然是一个矩阵，但是使用matrix是创建一个矩阵，如果我要修改B这个矩阵的参数怎么办呢？就可以使用paramater(B)=，其中paramater是在函数中的参数，可以通过这种方法赋值。

注意：1:4，5:8等等，这个是什么？根据例子可以看出，这会生成1:4的公差为1的等差数列。你不用去担心看不懂，我会点出来，然后告诉你，这些有趣的用法在之后的笔记中会讲解到。

接着说数组，R中给的定义是多于2维的向量。我们拿矩阵去做对比，对数组就很好理解了。

同样举个例子

A <- c('A','B')
B <- c(1,2,3)
C <- c('!','@','#','
)
z <- array(1:24,c(2,3,4),dimnames=list(A,B,C))
z

显示的结果如下

我们可以看出，第三维是单独被拉出来的，第一二维就是行和列。第三维我们一般称为页。

有了矩阵铺垫，这个每个参数的含义就好理解多了，但我们还是做一个简单的解释。

第一个paramater是源向量。
第二个是三维中每一维的长度
第三个是每一维的名称

注意：我还没有找到让数组元素按行填充的办法。可能本身就没有设置吧。

注意：在介绍matrix函数的时候，每一个参数都是paramater=...的形式，但是这里似乎不是。在R里，如果不加这样的形式，R会按默认的参数顺序设置，如果记不住就很容易乱。使用这样的形式可以防止这个问题（同样在python，C++里也可以这么做，其中python里叫已知参数）当然不是因为它没有paramater，这只是写的人的习惯，因为这三个参数不容易混（性质完全不同），所以用熟的人自然不会再想着加paramater本身。

好的，问题来了，如果我是小白呢？我想加paramater怎么办？

乖，让你的心到最开始的地方看看？

小结

再次强调，不要忽略所有注意的地方！我已经写了很长时间了，但是实际上回到书本，其实只是书本一二两章的内容的部分。还有很多有趣的东西还没有涉及到，因此这只是基本操作总览的第一部分。我们会在之后的笔记涉及到剩下的部分。

下一节我们会说函数，常用函数集合，向量中的因子，排序，数据框，存储与导入外部数据等其余的基本操作。

感谢支持我的各位！笔芯~~

TML 代码约定

很多 Web 开发人员对 HTML 的代码规范知之甚少。

在2000年至2010年，许多Web开发人员从 HTML 转换到 XHTML。

使用 XHTML 开发人员逐渐养成了比较好的 HTML 编写规范。

而针对于 HTML5 ，我们应该形成比较好的代码规范，以下提供了几种规范的建议。

使用正确的文档类型

文档类型声明位于HTML文档的第一行：

<!DOCTYPE html>

如果你想跟其他标签一样使用小写，可以使用以下代码：

<!doctype html>

使用小写元素名

HTML5 元素名可以使用大写和小写字母。

推荐使用小写字母：

混合了大小写的风格是非常糟糕的。
开发人员通常使用小写 (类似 XHTML)。
小写风格看起来更加清爽。
小写字母容易编写。

不推荐:

<p>这是一个段落。</p>

</SECTION>

非常糟糕:

<p>这是一个段落。</p>

</SECTION>

	现在省略 head 标签还不推荐使用。

	在逗号和分号后添加空格是常用的一个规则。

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

初始R语言

目录

R语言环境初探

一些基本的素养和操作

小结

您的项目需求