、R 语言是什么?
R 语言是一个专门为统计而开发出来的一个计算机编程语言,它是一种解释性型的面向数学理论研究工作者的语言。类似于MATLAB,他在语言层面提供了更加丰富的数据结构,且能够十分方便地输出文字和图形信息,所以广泛应用于数据分析,尤其是统计学领域。
我们使用R 语言一般都会搭配 Rstudio 使用(它是一款 R 语言的操作界面,具有代码调试、可视化等功能)
Rstudio操作界面介绍
2、R 语言能做什么?
现在的 R 语言可以做 统计分析、数据可视化、机器学习(包括深度学习)。
—— R 语言的系统学习可以参考[R 语言教程](https://www.math.pku.edu.cn/teachers/lidf/docs/Rbook/html/_Rbook/intro.html#intro-hist-char)
R语言出的图
——(关于 R 语言学术表格的绘制方法可以参考[《R 语言数据可视化之美》](https://read.douban.com/reader/ebook/130453795/))
同时R 语言还能实现地理可视化(GIS),通过“arcgisbinding”包可以实现在 R 语言中导入、转化和导出 ArcGis 数据集。还有专门为 R 和 ArcGis 开发的软件[R-ArcGis](https://r.esri.com/)
```
如果你想做 Bayesian,只要在 R 里面调用 OpenBUGS,WinBUGS,JAGS 等这些已经成熟的 package 来进行贝叶斯分析。
```
怎么样R 语言是不是非常有用,那我们赶快学起来吧!
下篇文章来教大家怎么利用R语言进行简单 BP神经网络 建模
R 语言几乎不需要编程,大部分的操作只需要调用 package 来执行就可以了.我们只需要了解R的基础语法
家好,这是从知乎《一个大学生的日常笔记》中迁移过来的R语言教程的第一篇。
这一份笔记follow了两本非常优秀的R语言教材,分别是Robert I.Kabacoff的《R语言实战》和Peter Dalgaard的《R语言统计入门》,两本教材的思路有所不同,我会根据我自己的思路尽量降低学习门槛,综合来写教程。(毕竟提高了门槛,我就不知道自己在写什么了……那就真的没卵用了……)
阅读教程的时候我有自己的思路,看过我的LaTeX入门笔记的同学们会明白,如果我想到了一些可能会让入门新手迷糊的地方,我会以注意:这样的形式去标记出来,而且有的时候,可能这些小插曲更加重要,请不要忽略它们。
例子大部分都是摘抄的,但是我会做一些解释和细节上的调整,同时考虑到代码规范的问题,我很多例子不会提供符号可选的余地,比如"和',用于标记字符都可以,但是代码规范推荐使用"
目前我已经是准大二学生,统计的先修课只有一门学校上的《概率论与数理统计》,事实上,这门课学完之后,R的大部分内容就已经可以上手操作了。因此我们不会在这门课程已有的理论部分下功夫去解释。但是,碍于我自己本科生的视野,我们不会把太复杂,或者根本不可能涉及到的的内容搬到这里,因此这对于真正的statistician,或者是统计学专业的大牛来说,可能最多只是一份入门笔记而已。
不过也还是有些亮点的,我可能会在教程里夹杂点别的语言的新奇玩意做些互相的对比2333
引言到此为止,下面我们开始正题。
细心的同学可能已经看到了封面的那个图,那个就是我们推荐下载的R语言编辑器——Rstudio,但是这仅仅是个编辑器,必须下载安装真正的R语言编译器才能够运行。至于如何下载——百度搜索R和Rstudio关键字就好。那两个玩意的图标大概长这样
我们主要使用的编辑器是Rstudio,但是为了教程的完整性(integrity),这里展示一张R语言的打开界面
输入一行命令试试?
plot(rnorm(1000))
(居然没提供R语言的选项……)
系统会为你画一张图
这是一张含有1000个按正态分布排列的随机数的图。
R的环境到此结束,下面我们回到Rstudio来看看
我们可以看到Rstduio有四个区域。分别的功能是
可以看出,综合的功能是比R要强大很多的,而且根据我们网站组的大佬的反应,这玩意其实是一个html……也就是说你会JS你就可以恶搞它的界面啦
对了,在你关掉R/Rstudio的时候,系统会问你是否要保存空间映像,那个其实就是保存历史记录,方便以后继续使用而设置的。
R语言是一个统计语言。统计数据离不开一个良好的用于储存的结构和标识。我们会先从它的基本操作讲起,在其中夹杂着数据类型,数据框等大量的结构和细节。
首先说说帮助文档
R语言和C++/python不一样,R语言非常琐碎,因此seek for help是必要的,但是R的official document很难懂,因此不推荐拿那个去当作你学习的教程。我们推荐的是以下三种寻求帮助的命令
help("function") or ?function
help.search("function") or ??function
example("function")
第一个是查函数的帮助文档,第二个是以某一个function为关键字搜索帮助文档。第三个会给出某一个函数的使用示例。在对函数不熟悉的时候一定要学会使用它。
不管是什么样的计算机语言,赋值都是最基础的工作。但是赋值符号不是C++里的=,而是<-,比如
r <- 2
注意:用=赋值是不会被编译器报错的,但是由于这个语法不标准,所以有的时候会出问题。
随着赋值而来的就是数值运算,但是我们不强调那种单变元的数值运算,R有个很强大的功能是向量化操作(当然matlab也有)。(向量理解为一系列变量的按序组合(比如数值向量可以理解为数列)就好)比如说给予五个人身高体重的例子,我们计算一个BMI。
A <- c(1.84,1.74,1.65,1.58,1.81)
B <- c(86.2,65,51.5,45,56)
BMI <- (B/(A^2))
BMI
最后显示的结果是
确实是一个向量。
注意:R语言构造向量的方法是c(...)
注意:如果不输入某一个变量的名称,R默认是不显示结果的,因此我最后一行又加了一个BMI变量名显示它。
注意:我们推荐写多行R代码的时候使用脚本,之后在Rstudio中,脚本区域的右上角有三个按钮,第一个run是逐行运行代码,第三个source是运行全部代码(但是要在下拉框选择source with echo,否则依然显示不了结果),大家注意回去找找看。
注意:如果你真的点击了source去运行代码的话,可以在command区域看到这样的命令
source('C:/Users/Asus/Desktop/A.R')
拿出来说的原因是想强调:如果你要输入一个文件路径,一定要输入正斜杠/,因为反斜杠是转义字符(escaped character),在""中间输入字符,如果想让它打印出",就可以输入\"。
我们回到向量这个问题上来
常用的R的数据类型有三种:数字,字符,逻辑真假(当然还有个缺失值类型,我们在之后会说)。因此我们也可以创建字符和逻辑向量。
关于字符向量,我们列举下面三个例子
c("A","B","C")
cat(c("A","B","C"))
cat(c("A","B","C"),'\n')
显示的结果如下
哎?二和三有什么区别吗?
如果你在R中运行的话,第二行的命令是默认不换行的,所以就会出现
的情况,不过在Rstudio里,这种情况得到了改善。
注意:cat是连接+输出的函数,而c只负责连接,在例子中,cat可以消除字符串的""符号。你可以连接任何东西,包括向量。
注意:R的向量要求内部的所有元素数据类型相同。如果通过cat/c连接两个不同数据类型的向量,系统会进行强制转换。比如
A <- c("A","B","C")
B <- c(1,2,3)
c(A,B)
结果留给大家自己观察。(这里原来出了一处错误,已经修正,谢谢
@快走姑娘
提醒)
和数值运算类比的就是逻辑运算,但是我不打算在这里先说这些。
伴随着向量的就是索引,目的自然是为了取用这些元素。索引的方法是[],举2个例子
A <- c("A","B","C")
A[2]
B <- c("A"=1,"B"=2,"C"=3)
B["B"]
显示的结果如下
注意:向量内的元素是有序的,这里A[2]索引的就是第二个,不是程序员认为的第三个!
注意:第二个例子中,我们相当于人工设置了索引(在python里,有个专门的数据结构叫字典(dict))为"A","B","C",它们叫这些变量的名称(name),一一对应1,2,3。和自然索引1,2,3不同的是,这里的人工索引在查看变量的时候会显示。
注意:索引也可以索引一个向量,也就是索引多个元素(和matlab一样),比如说,试着运行一下下面这个命令。
A <- c("A","B","C")
A[c(2,3)]
结果留给你们自己去发现。
注意:索引也可以是负索引!它不是python里“倒数第几个”的含义,它的意思是“索引除标记以外的所有元素”。在数据清洗中非常常见,可以用一个例子去帮助理解
A <- c("A","B","C")
A[-c(2,3)]
自己去敲敲代码看看结果吧
注意:你甚至可以使用索引进行赋值,即使它已经超出了这个向量的长度,比如说
A[7]="D"
那么,A这个时候第7个确实是字符D,但是原来的第4-6个呢?实际上它们是缺失值。也就是NA。至于缺失值是什么样的数据类型,这会在之后提到。
注意:对于名称,字符串中的""要求会放宽,也就是说,你还可以这么写。
B <- c(A=1,B=2,C=3)
结果是一样的
对于我这种懒人来说,这可真是个福音。
下面我们说说矩阵和数组。
矩阵可以理解为二维的向量。但是创建矩阵的参数就一下子多了很多,因此可能会稍有点难理解,我们用两组例子结束这一切。
第一组:
S <- c(1,2,3,4,5,6,7,8,9)
rnames <- c(1,2,3)
cnames <- c("A","B","C")
C=matrix(S,nrow=3,ncol=3,byrow=TRUE,dimnames=list(rnames,cnames))
C=matrix(S,nrow=3,ncol=3,byrow=FALSE,dimnames=list(rnames,cnames))
C=matrix(S,nrow=2,ncol=4,byrow=TRUE,dimnames=list(rnames,cnames))
显示的结果如下
我改变的参数在byrow这里,它提示我们应该按行填充还是按列填充。TRUE自然就是按行存储的意思。
Oh,第三个报错了,看一下报错信息。
data length [9] is not a sub-multiple or multiple of the number of rows [2]数据长度9不是行数2的因数或倍数
哇哦,我有一些额外的发现
报错信息的数字会用[]标识出来,是有意义的。同时本身也不是特别难懂。
兴奋完之后,回到命令本身,参数解释如下:
我们可以看到,在矩阵里,名称就非常重要了,它更接近于我们平常做数据分析时所需要使用的表。
注意:看到那个TRUE了没,对比一下C里的true和python里的True就知道,R语言也是一个大小写敏感的语言。因此要注意代码的严格的大小写。
注意:第三,四个参数不是必需的,第三个不写的话,默认是FALSE,也就是按列填充。(和TeX的语法差别在于,可选不可选并不能通过直观的方式看出来,需要靠人的主观能动性去理解)
注意:在dimnames里有一个list函数,这是为了创建列表,它的目的是把多个变量的集合聚合成为单个变量,这是为了方便给函数的参数提供值,传参时会经常用。形式上倒没有太大的差别。
下面是第二个例子。
cbind(A=1:4,B=5:8,C=9:12)
rbind(A=1:4,B=5:8,C=9:12)
显示的结果如下
bind是捆绑的意思,cbind理解为“把列捆绑在一起”,所以提供的向量自然是列向量,那么对应的名称索引就是行索引。同样的,rbind就是“把行捆绑在一起”。
注意:有的人会问[1,]和[,1]是什么?我们要强调,这种位置上的东西不管是名称还是数字,都是索引!但是这是矩阵的索引,对于矩阵的索引,我们可以举几个例子。
A=matrix(1:24,nrow=4,ncol=6)
A[,6]
A[3,]
A[3,4]
B=A[c(2,3),c(3,4)]
B
dimnames(B)=list(c(1,2),c(1,2))
B
显示的结果如下
索引项中,第一个是行索引,第二个是列索引。同样,你也可以给索引设置为向量。
在敲这个代码的时候,摸索了一个很有趣的用法。我们注意到,B依然是一个矩阵,但是使用matrix是创建一个矩阵,如果我要修改B这个矩阵的参数怎么办呢?就可以使用paramater(B)=,其中paramater是在函数中的参数,可以通过这种方法赋值。
注意:1:4,5:8等等,这个是什么?根据例子可以看出,这会生成1:4的公差为1的等差数列。你不用去担心看不懂,我会点出来,然后告诉你,这些有趣的用法在之后的笔记中会讲解到。
接着说数组,R中给的定义是多于2维的向量。我们拿矩阵去做对比,对数组就很好理解了。
同样举个例子
A <- c('A','B')
B <- c(1,2,3)
C <- c('!','@','#','
)
z <- array(1:24,c(2,3,4),dimnames=list(A,B,C))
z
显示的结果如下
我们可以看出,第三维是单独被拉出来的,第一二维就是行和列。第三维我们一般称为页。
有了矩阵铺垫,这个每个参数的含义就好理解多了,但我们还是做一个简单的解释。
注意:我还没有找到让数组元素按行填充的办法。可能本身就没有设置吧。
注意:在介绍matrix函数的时候,每一个参数都是paramater=...的形式,但是这里似乎不是。在R里,如果不加这样的形式,R会按默认的参数顺序设置,如果记不住就很容易乱。使用这样的形式可以防止这个问题(同样在python,C++里也可以这么做,其中python里叫已知参数)当然不是因为它没有paramater,这只是写的人的习惯,因为这三个参数不容易混(性质完全不同),所以用熟的人自然不会再想着加paramater本身。
好的,问题来了,如果我是小白呢?我想加paramater怎么办?
乖,让你的心到最开始的地方看看?
再次强调,不要忽略所有注意的地方!我已经写了很长时间了,但是实际上回到书本,其实只是书本一二两章的内容的部分。还有很多有趣的东西还没有涉及到,因此这只是基本操作总览的第一部分。我们会在之后的笔记涉及到剩下的部分。
下一节我们会说函数,常用函数集合,向量中的因子,排序,数据框,存储与导入外部数据等其余的基本操作。
感谢支持我的各位!笔芯~~
TML 代码约定
很多 Web 开发人员对 HTML 的代码规范知之甚少。
在2000年至2010年,许多Web开发人员从 HTML 转换到 XHTML。
使用 XHTML 开发人员逐渐养成了比较好的 HTML 编写规范。
而针对于 HTML5 ,我们应该形成比较好的代码规范,以下提供了几种规范的建议。
使用正确的文档类型
文档类型声明位于HTML文档的第一行:
<!DOCTYPE html>
如果你想跟其他标签一样使用小写,可以使用以下代码:
<!doctype html>
使用小写元素名
HTML5 元素名可以使用大写和小写字母。
推荐使用小写字母:
混合了大小写的风格是非常糟糕的。
开发人员通常使用小写 (类似 XHTML)。
小写风格看起来更加清爽。
小写字母容易编写。
不推荐:
<SECTION>
<p>这是一个段落。</p>
</SECTION>
非常糟糕:
<Section>
<p>这是一个段落。</p>
</SECTION>
推荐:
<section>
<p>这是一个段落。</p>
</section>
关闭所有 HTML 元素
在 HTML5 中, 你不一定要关闭所有元素 (例如 <p> 元素),但我们建议每个元素都要添加关闭标签。
不推荐:
<section>
<p>这是一个段落。
<p>这是一个段落。
</section>
推荐:
<section>
<p>这是一个段落。</p>
<p>这是一个段落。</p>
</section>
关闭空的 HTML 元素
在 HTML5 中, 空的 HTML 元素也不一定要关闭:
我们可以这么写:
<meta charset="utf-8">
也可以这么写:
<meta charset="utf-8" />
在 XHTML 和 XML 中斜线 (/) 是必须的。
如果你期望 XML 软件使用你的页面,使用这种风格是非常好的。
使用小写属性名
HTML5 属性名允许使用大写和小写字母。
我们推荐使用小写字母属性名:
同时使用大小写是非常不好的习惯。
开发人员通常使用小写 (类似 XHTML)。
小写风格看起来更加清爽。
小写字母容易编写。
不推荐:
<div CLASS="menu">
推荐:
<div class="menu">
属性值
HTML5 属性值可以不用引号。
属性值我们推荐使用引号:
如果属性值含有空格需要使用引号。
混合风格不推荐的,建议统一风格。
属性值使用引号易于阅读。
以下实例属性值包含空格,没有使用引号,所以不能起作用:
<table class=table striped>
以下使用了双引号,是正确的:
<table class="table striped">
图片属性
图片通常使用 alt 属性。 在图片不能显示时,它能替代图片显示。
<img src="html5.gif" alt="HTML5" style="width:128px;height:128px">
定义好图片的尺寸,在加载时可以预留指定空间,减少闪烁。
<img src="html5.gif" alt="HTML5" style="width:128px;height:128px">
空格和等号
等号前后可以使用空格。
<link rel="stylesheet" href="styles.css">
但我们推荐少用空格:
<link rel="stylesheet" href="styles.css">
避免一行代码过长
使用 HTML 编辑器,左右滚动代码是不方便的。
每行代码尽量少于 80 个字符。
空行和缩进
不要无缘无故添加空行。
为每个逻辑功能块添加空行,这样更易于阅读。
缩进使用两个空格,不建议使用 TAB。
比较短的代码间不要使用不必要的空行和缩进。
不必要的空行和缩进:
<body>
<h1>菜鸟教程</h1>
<h2>HTML</h2>
<p>
菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想,
菜鸟教程,学的不仅是技术,更是梦想。
</p>
</body>
推荐:
<body>
<h1>菜鸟教程</h1>
<h2></h2>
<p>菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想。</p>
</body>
表格实例:
<table>
<tr>
<th>Name</th>
<th>Description</th>
</tr>
<tr>
<td>A</td>
<td>Description of A</td>
</tr>
<tr>
<td>B</td>
<td>Description of B</td>
</tr>
</table>
列表实例:
<ol>
<li>London</li>
<li>Paris</li>
<li>Tokyo</li>
</ol>
省略 <html> 和 <body>?
在标准 HTML5 中, <html> 和 <body> 标签是可以省略的。
以下 HTML5 文档是正确的:
实例:
<!DOCTYPE html>
<head>
<title>页面标题</title>
</head>
<h1>这是一个标题</h1>
<p>这是一个段落。</p>
尝试一下 ?
不推荐省略 <html> 和 <body> 标签。
<html> 元素是文档的根元素,用于描述页面的语言:
<!DOCTYPE html>
<html lang="zh">
声明语言是为了方便屏幕阅读器及搜索引擎。
省略 <html> 或 <body> 在 DOM 和 XML 软件中会崩溃。
省略 <body> 在旧版浏览器 (IE9)会发生错误。
省略 <head>?
在标准 HTML5 中, <head>标签是可以省略的。
默认情况下,浏览器会将 <body> 之前的内容添加到一个默认的 <head> 元素上。
实例
<!DOCTYPE html>
<html>
<title>页面标题</title>
<body>
<h1>这是一个标题</h1>
<p>这是一个段落。</p>
</body>
</html>
尝试一下 ?
现在省略 head 标签还不推荐使用。 |
元数据
HTML5 中 <title> 元素是必须的,标题名描述了页面的主题:
<title>菜鸟教程</title>
标题和语言可以让搜索引擎很快了解你页面的主题:
<!DOCTYPE html>
<html lang="zh">
<head>
<meta charset="UTF-8">
<title>菜鸟教程</title>
</head>
HTML 注释
注释可以写在 <!-- 和 --> 中:
<!-- 这是注释 -->
比较长的评论可以在 <!-- 和 --> 中分行写:
<!--
这是一个较长评论。 这是 一个较长评论。这是一个较长评论。
这是 一个较长评论 这是一个较长评论。 这是 一个较长评论。
-->
长评论第一个字符缩进两个空格,更易于阅读。
样式表
样式表使用简洁的语法格式 ( type 属性不是必须的):
<link rel="stylesheet" href="styles.css">
短的规则可以写成一行:
p.into {font-family: Verdana; font-size: 16em;}
长的规则可以写成多行:
body {
background-color: lightgrey;
font-family: "Arial Black", Helvetica, sans-serif;
font-size: 16em;
color: black;
}
将左花括号与选择器放在同一行。
左花括号与选择器间添加以空格。
使用两个空格来缩进。
冒号与属性值之间添加已空格。
逗号和符号之后使用一个空格。
每个属性与值结尾都要使用符号。
只有属性值包含空格时才使用引号。
右花括号放在新的一行。
每行最多 80 个字符。
在逗号和分号后添加空格是常用的一个规则。 |
在 HTML 中载入 JavaScript
使用简洁的语法来载入外部的脚本文件 ( type 属性不是必须的 ):
<script src="myscript.js">
使用 JavaScript 访问 HTML 元素
一个糟糕的 HTML 格式可能会导致 JavaScript 执行错误。
以下两个 JavaScript 语句会输出不同结果:
实例
var obj=getElementById("Demo")
var obj=getElementById("demo")
HTML 中 JavaScript 尽量使用相同的命名规则。
访问 JavaScript 代码规范。
使用小写文件名
大多 Web 服务器 (Apache, Unix) 对大小写敏感: london.jpg 不能通过 London.jpg 访问。
其他 Web 服务器 (Microsoft, IIS) 对大小写不敏感: london.jpg 可以通过 London.jpg 或 london.jpg 访问。
你必须保持统一的风格,我们建议统一使用小写的文件名。
文件扩展名
HTML 文件后缀可以是 .html (或r .htm)。
CSS 文件后缀是 .css 。
JavaScript 文件后缀是 .js 。
.htm 和 .html 的区别
.htm 和 .html 的扩展名文件本质上是没有区别的。浏览器和 Web 服务器都会把它们当作 HTML 文件来处理。
区别在于:
.htm 应用在早期 DOS 系统,系统现在或者只能有三个字符。
在 Unix 系统中后缀没有特别限制,一般用 .html。
技术上区别
如果一个 URL 没有指定文件名 (如 http://www.runoob.com/css/), 服务器会返回默认的文件名。通常默认文件名为 index.html, index.htm, default.html, 和 default.htm。
如果服务器只配置了 "index.html" 作为默认文件,你必须将文件命名为 "index.html", 而不是 "index.htm"。
但是,通常服务器可以设置多个默认文件,你可以根据需要设置默认文件吗。
不管怎样,HTML 完整的后缀是 ".html"。
如您还有不明白的可以在下面与我留言或是与我探讨QQ群308855039,我们一起飞!
*请认真填写需求信息,我们会在24小时内与您取得联系。