整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

独家|手把手教你学习R语言(附资源链接)

者:NSS

翻译:杨金鸿

术语校对:韩海畴

全文校对:林亦霖

本文约3000字,建议阅读7分钟

本文为带大家了解R语言以及分段式的步骤教程!

人们学习R语言时普遍存在缺乏系统学习方法的问题。学习者不知道从哪开始,如何进行,选择什么学习资源。虽然网络上有许多不错的免费学习资源,然而它们多过了头,反而会让人挑花了眼。

为了构建R语言学习方法,我们在Vidhya和DataCamp中选一组综合资源,帮您从头学习R语言。这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户,则会由本文了解这门语言的部分最新成果。

R语言学习方法会帮助您快速、高效学习R语言。

前言

在开始学习之前,第一个要回答的问题是:为什么要用R语言?或者R语言为何如此有用?

R语言是一门快速发展的开源软件,是SAS、STATA和SPSS这类商业软件的竞争对手。就业市场对R语言的需求正在迅速上升,微软等公司也同时承诺将致力让R语言成为数据科学通用语言。

看看由Revolution Analytics制作的90秒视频(https://www.youtube.com/watch?v=VlJnNSeO1uQ),您就知道R语言的用处。顺便说下,微软刚刚收购了Revolution Analytics。

步骤一:配置计算机环境

建立R语言学习环境最简单方法是通过综合R语言归档网络(CRAN)下载(https://cran.r-project.org/)到您的本地计算机上。可以选择Linux、Mac和Windows对应二进制文件下载。

您可能会考虑使用R语言自带的控制台,但我们建议您安装R语言集成开发环境(IDE)。RStudio(https://www.rstudio.com/)是最有名的IDE,它能让R语言编码更容易、更快,还能让您输入多行代码、处理图形、安装和维护程序,有效引导您的编程环境。RStudio此外可以选用基于eclipse的Architect(http://www.openanalytics.eu/architect)。如果需要安装图形用户界面(GUI),请选择R-commander(http://www.rcommander.com/)或Deducer(http://www.deducer.org/pmwiki/index.php?n=Main.WindowsInstallation)。

课后作业

  • 安装R和RStudio。

  • 安装Rcmdr、rattle和Deducer程序包。以及推荐或依赖的程序包,包括GUI。

  • 使用库命令加载安装程序,并打开GUI。

步骤二:R语言基础学习

您应该首先了解语言、库和数据结构基础知识。

如果您更倾向于在线交流方式学习R语法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免费在线R教程是很好的资源。还可以选择后续课程:中级R编程(https://www.datacamp.com/courses/intermediate-r)。另一种学习方法是在线版本swirl(https://www.datacamp.com/swirl-r-tutorial),它能让您在类似RStudio环境中学习R语言。

在互动学习环境中,您可以选择参加Coursera(https://www.coursera.org/specializations/jhu-data-science)或Edx(https://www.edx.org/course/introduction-r-programming-microsoft-dat204x-0)上mooc课程。

除了上述在线资源,您还可以考虑以下优秀资源:

  • CRAN免费教学R语言(https://cran.r-project.org/doc/manuals/R-intro.pdf)。

  • Jared Lander’s R for Everyone(http://www.jaredlander.com/r-for-everyone/)

  • Quick-R(http://statmethods.net/)

专门学习:阅读、数据帧、表、概述、描述、加载和安装包、使用绘图命令可视化数据。

课后作业

  • 使用DataCamp免费在线R教程,熟悉基本的R语法。

  • 创建Github(http://github.com/)账号。

  • 通过google帮助,解决安装过程中出现的问题。

  • 安装swirl包并学习R编程(见上文)。

步骤三:了解R社

强大社区的存在是R语言发展迅速、大获成功的主要原因。社区中核心的是R语言的“包”生态系统。R语言程序包可以在CRAN、bioconductor、github和bitbucket中下载。在Rdocumentation(http://www.rdocumentation.org/)中,您可以轻松搜索来自CRAN、github和bioconductor中能满足您当前工作需要的程序包。与在R语言程序包生态系统同样重要的是,您可以在R endeavours上轻松获得帮助与反馈。首先,R内置帮助系统,您可以通过命令来访问。同时,在Analytics Vidhya Discussions,Stack OverflowR语言是增长最快语言。R-bloggers(http://www.r-bloggers.com/)汇集许多R语言爱好者写的博文。

课后作业:

  • 访问CranTask Views了解R语言生态系统。

  • 在http://r-bloggers.com上注册并订阅每日新闻。

步骤四:数据导入和操作

导入和操作数据是数据科学工作流程中重要步骤。R语言允许使用特定包导入不同数据格式,从而使您工作更轻松,如下:

  • readr:导入平面文件。

  • Readxl package:将excel文件转化为R语言。

  • haven package包:让您将SAS、STATA和SPSS数据文件导入R语言。

  • Databases:连接通过像RMySQL和RpostgreSQL包,使用DBI访问和操作。

  • rvest: 网页数据抓取。

一旦数据在工作环境中可用,您就可以使用下面程序包操作:

  • 整理数据的tidyr程序包。

  • stringr包处理字符串操作。

  • 对象数据帧,可以学习dplyr包输入和输出(https://www.datacamp.com/courses/dplyr-data-manipulation)。

  • 需要执行繁重数据争用任务?试试data.table程序包。

  • 执行时间序列分析?尝试一下像zoo,xts和quantmod程序包。

课后作业

  • 通过“导入数据进入R语言”课程,或阅读文章1、2、3、4。掌握导入数据软件包。

  • 通过RStudio观看Data Wrangling with R 。(https://www.rstudio.com/resources/webinars/data-wrangling-with-r-and-rstudio/)

  • 阅读并练习如何使用dplyr、tidyr和data.table程序包。

步骤五:有效数据可视化

自己创建数据可视化作品是一件很自豪的事情。然而,数据可视化既是一项技能,也是一门艺术。许多学者阅读Edward Tufte 的“可视化定量数据”原理,或者StephenFew的 “pitfalls on dashboard design”。也可以阅读NathanYau在FlowingData 写的博文,来获得创建R语言可视化灵感。

1. 平面图无处不在

R语言提供了多种创建图形方法,使用原理图创建图形是标准的方法。然而,有一些好的工具(或包)使用更简单的方式来创建,查看图形。

  • 在R语言中学习基本图形语法是数据可视化中一种实用方法。

  • 在R语言中ggplot是数据可视化中最重要的包,并且很受欢迎,网上有很多它的学习资源,比如在线ggplot2教程,cheatsheet ,和以及一本由哈德利韦翰编写的教学书。

  • ggvis程序包允许您使用基本图形语法创建交互式web图形(参见教程)。

  • 您知道Hans Rosling ted课程吗?教您如何的用googleVis(一个带有谷歌图表接口)来重建图表。

  • 如果您遇到了绘制数据的问题,这篇文章会对您有所帮助。在这个CRAN任务视图中可以查看到更多的可视化资源。或者查看R语言数据可视化指南。

2. 地图无处不在

您对分析空间可视化数据感兴趣吗?学习本教程:介绍R语言空间数据,您会轻松地使用这些包。

  • 源自Google maps和ggmap开放街道的静态图片,可用来创建可视化空间数据和模型。

  • Ari Lamstein’s中的choroplethr程序包。

  • tmap 程序包

3. HTML插件

HTML插件是R语言可视化产品中非常有前景的插件,您可以用简单的方式创建交互式web可视化(参见RStudio教程),掌握这种可视化方法将会成为R语言学习中必备技能。其带来的视觉效果会给您朋友和同事留下深刻印象。

  • leaflet创建动态图片。

  • 使用dygraphs生成时间序列数据图表。

  • 互动表(datatable)。

  • DiagrammeR创建图和流程图。

  • MetricsGraphics创建散点图、线图和直方图。

课后作业

  • 理解基本图形语法原理。

  • 学习ggplot2教程。

  • 使用RStudio环境学习html插件。

步骤六:数据挖掘、机器学习

对于新的统计数据学习方法,我们推荐下列资源:

  • Andrew Conway’s课程:R语言统计数据简介。

  • 杜克大学数据分析和统计推断。

  • R语言实用数据科学。

  • 约翰霍普金斯大学数据科学专业课程。

  • R语言数据科学使用指南。

如果您想提高机器学习能力,可以考虑从以下教程开始学习:

  • 机器学习算法要点。

  • 自行车共享大赛--一套R语言完整解决方案。

  • Kaggle上的机器学习课程。

  • 掌握机器学习。

  • 介绍机器学习。

确保在相关的CRAN任务视图中查看到R语言可用的机器学习资源。

课后作业

  • 从统计学课程开始入门。

  • 学习Kaggle上免费机器学习课程。

  • 看Rattle中的一些R语言数据挖掘书。

  • 可以从这本小册子上学习时间序列——A Little Book for Time Series in R .

步骤七:报告结果

与数据科学爱好者交流成果,分享见解是一件很重要的事情。幸运的是,R语言针对这个问题有一些非常实用工具。

第一个工具是R Markdown,采用knitr和pandoc复制方式生成您的数据分析结果报告。使用R markdown工具,R语言最终生成文档,替换R语言代码。文档可以是html、word、pfd、ioslides等格式。您可以通过本教程学到更多知识并使用cheatsheet作为参考资料。

第二个工具是ReporteRs,它是个创建Microsoft(Worddocx和Powerpoint pptx)和html R语言文档程序包,并可以在Windows、Linux、Unix和Mac OS系统上运行。像R Markdown工具一样自动生成R语言报告,点击这里我们来看看如何操作。

第三个是Shiny,目前R语言中最令人兴奋的工具。使R语言构建交互式web应用程序变得非常容易。您可以把分析报告转换为交互式web应用程序,您不需要了解HTML、CSS或Javascript相关知识。如果您想要学习Shiny ,请点击RStudio learning portal。

课后作业

  • 使用RMarkdown或ReporteRs创建第一个交互式报告。

  • 尝试构建一个Shiny应用。

练习

只有通过大量练习才能成为优秀R语言程序员。因此,要定期解决数据科学中的问题。我们的建议是赶紧开始与Kaggle上的数据科学家交流。

在解决问题中测试自己的R语言水平--练习中的问题。

步骤八:时间序列分析

R语言有一个用于专属任务视图时间序列。如果你想在R语言中做一些时间序列分析,这将是您开始的地方。您很快会发现工具的强大。

想要从在线资源中掌握时间序列分析是件不容易的事情。好的切入点是一本关于时间序列的书或者选择《原理与实践》这本书。在程序包方面,您需要熟悉Zoo与xts程序包。Zoo为您提供了常用的保存时间序列对象格式,而xts供了操作时间序列的数据集工具。

辅助资源: 时间序列综合教程。

课后作业

  • 选择上述列出的时间系列教程,开始您的分析。

  • 使用quantmod或quandl程序软件包下载财务数据,开始您的时间序列分析。

  • 使用诸如dygraphs的程序包创建您的可视化时间序列数据和分析。

文本挖掘一个重要工具

学习文本挖掘,您可以从edge课程中学习。虽然课程已经结束,但是您仍然可以访问这些课程。

练习

  • 文本挖掘竞赛--一套R语言的完整解决方案。

步骤九:成为R语言大师

现在您已经掌握了大部分R语言数据分析,是时候给出一些高级课程资源了。您很可能已经知道其中的一些内容,但不妨看看这些教程。

  • Hadley Wickham的高级R语言教程。

  • 在Hadoop、MongoDB或NoSQL中使用R语言。

  • 微软的RevoScaleR 程序包

原文链接:

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/

杨金鸿,北京护航科技有限公司员工,在业余时间喜欢翻译一些技术文档。喜欢阅读有关数据挖掘、数据库之类的书,学习java语言编程等,希望能在数据派平台上熟识更多爱好相同的伙伴,今后能在数据科学的道路上走的更远,飞的更远。

TML 代码约定

很多 Web 开发人员对 HTML 的代码规范知之甚少。

在2000年至2010年,许多Web开发人员从 HTML 转换到 XHTML。

使用 XHTML 开发人员逐渐养成了比较好的 HTML 编写规范。

而针对于 HTML5 ,我们应该形成比较好的代码规范,以下提供了几种规范的建议。

使用正确的文档类型

文档类型声明位于HTML文档的第一行:

<!DOCTYPE html>

如果你想跟其他标签一样使用小写,可以使用以下代码:

<!doctype html>

使用小写元素名

HTML5 元素名可以使用大写和小写字母。

推荐使用小写字母:

  • 混合了大小写的风格是非常糟糕的。

  • 开发人员通常使用小写 (类似 XHTML)。

  • 小写风格看起来更加清爽。

  • 小写字母容易编写。

不推荐:

<SECTION>

<p>这是一个段落。</p>

</SECTION>

非常糟糕:

<Section>

<p>这是一个段落。</p>

</SECTION>

推荐:

<section>

<p>这是一个段落。</p>

</section>

关闭所有 HTML 元素

在 HTML5 中, 你不一定要关闭所有元素 (例如 <p> 元素),但我们建议每个元素都要添加关闭标签。

不推荐:

<section>

<p>这是一个段落。

<p>这是一个段落。

</section>

推荐:

<section>

<p>这是一个段落。</p>

<p>这是一个段落。</p>

</section>

关闭空的 HTML 元素

在 HTML5 中, 空的 HTML 元素也不一定要关闭:

我们可以这么写:

<meta charset="utf-8">

也可以这么写:

<meta charset="utf-8" />

在 XHTML 和 XML 中斜线 (/) 是必须的。

如果你期望 XML 软件使用你的页面,使用这种风格是非常好的。

使用小写属性名

HTML5 属性名允许使用大写和小写字母。

我们推荐使用小写字母属性名:

  • 同时使用大小写是非常不好的习惯。

  • 开发人员通常使用小写 (类似 XHTML)。

  • 小写风格看起来更加清爽。

  • 小写字母容易编写。

不推荐:

<div CLASS="menu">

推荐:

<div class="menu">

属性值

HTML5 属性值可以不用引号。

属性值我们推荐使用引号:

  • 如果属性值含有空格需要使用引号。

  • 混合风格不推荐的,建议统一风格。

  • 属性值使用引号易于阅读。

以下实例属性值包含空格,没有使用引号,所以不能起作用:

<table class=table striped>

以下使用了双引号,是正确的:

<table class="table striped">

图片属性

图片通常使用 alt 属性。 在图片不能显示时,它能替代图片显示。

<img src="html5.gif" alt="HTML5" style="width:128px;height:128px">

定义好图片的尺寸,在加载时可以预留指定空间,减少闪烁。

<img src="html5.gif" alt="HTML5" style="width:128px;height:128px">

空格和等号

等号前后可以使用空格。

<link rel = "stylesheet" href = "styles.css">

但我们推荐少用空格:

<link rel="stylesheet" href="styles.css">

避免一行代码过长

使用 HTML 编辑器,左右滚动代码是不方便的。

每行代码尽量少于 80 个字符。

空行和缩进

不要无缘无故添加空行。

为每个逻辑功能块添加空行,这样更易于阅读。

缩进使用两个空格,不建议使用 TAB。

比较短的代码间不要使用不必要的空行和缩进。

不必要的空行和缩进:

<body>

<h1>菜鸟教程</h1>

<h2>HTML</h2>

<p>

菜鸟教程,学的不仅是技术,更是梦想。

菜鸟教程,学的不仅是技术,更是梦想。

菜鸟教程,学的不仅是技术,更是梦想,

菜鸟教程,学的不仅是技术,更是梦想。

</p>

</body>

推荐:

<body>

<h1>菜鸟教程</h1>

<h2></h2>

<p>菜鸟教程,学的不仅是技术,更是梦想。

菜鸟教程,学的不仅是技术,更是梦想。

菜鸟教程,学的不仅是技术,更是梦想。

菜鸟教程,学的不仅是技术,更是梦想。</p>

</body>

表格实例:

<table>

<tr>

<th>Name</th>

<th>Description</th>

</tr>

<tr>

<td>A</td>

<td>Description of A</td>

</tr>

<tr>

<td>B</td>

<td>Description of B</td>

</tr>

</table>

列表实例:

<ol>

<li>London</li>

<li>Paris</li>

<li>Tokyo</li>

</ol>

省略 <html> 和 <body>?

在标准 HTML5 中, <html> 和 <body> 标签是可以省略的。

以下 HTML5 文档是正确的:

实例:

<!DOCTYPE html>

<head>

<title>页面标题</title>

</head>

<h1>这是一个标题</h1>

<p>这是一个段落。</p>

尝试一下 »

不推荐省略 <html> 和 <body> 标签。

<html> 元素是文档的根元素,用于描述页面的语言:

<!DOCTYPE html>

<html lang="zh">

声明语言是为了方便屏幕阅读器及搜索引擎。

省略 <html> 或 <body> 在 DOM 和 XML 软件中会崩溃。

省略 <body> 在旧版浏览器 (IE9)会发生错误。

省略 <head>?

在标准 HTML5 中, <head>标签是可以省略的。

默认情况下,浏览器会将 <body> 之前的内容添加到一个默认的 <head> 元素上。

实例

<!DOCTYPE html>

<html>

<title>页面标题</title>

<body>

<h1>这是一个标题</h1>

<p>这是一个段落。</p>

</body>

</html>

尝试一下 »

现在省略 head 标签还不推荐使用。

元数据

HTML5 中 <title> 元素是必须的,标题名描述了页面的主题:

<title>菜鸟教程</title>

标题和语言可以让搜索引擎很快了解你页面的主题:

<!DOCTYPE html>

<html lang="zh">

<head>

<meta charset="UTF-8">

<title>菜鸟教程</title>

</head>

HTML 注释

注释可以写在 <!-- 和 --> 中:

<!-- 这是注释 -->

比较长的评论可以在 <!-- 和 --> 中分行写:

<!--

这是一个较长评论。 这是 一个较长评论。这是一个较长评论。

这是 一个较长评论 这是一个较长评论。 这是 一个较长评论。

-->

长评论第一个字符缩进两个空格,更易于阅读。

样式表

样式表使用简洁的语法格式 ( type 属性不是必须的):

<link rel="stylesheet" href="styles.css">

短的规则可以写成一行:

p.into {font-family: Verdana; font-size: 16em;}

长的规则可以写成多行:

body {

background-color: lightgrey;

font-family: "Arial Black", Helvetica, sans-serif;

font-size: 16em;

color: black;

}

  • 将左花括号与选择器放在同一行。

  • 左花括号与选择器间添加以空格。

  • 使用两个空格来缩进。

  • 冒号与属性值之间添加已空格。

  • 逗号和符号之后使用一个空格。

  • 每个属性与值结尾都要使用符号。

  • 只有属性值包含空格时才使用引号。

  • 右花括号放在新的一行。

  • 每行最多 80 个字符。

在逗号和分号后添加空格是常用的一个规则。

在 HTML 中载入 JavaScript

使用简洁的语法来载入外部的脚本文件 ( type 属性不是必须的 ):

<script src="myscript.js">

使用 JavaScript 访问 HTML 元素

一个糟糕的 HTML 格式可能会导致 JavaScript 执行错误。

以下两个 JavaScript 语句会输出不同结果:

实例

var obj = getElementById("Demo")

var obj = getElementById("demo")

HTML 中 JavaScript 尽量使用相同的命名规则。

访问 JavaScript 代码规范。

使用小写文件名

大多 Web 服务器 (Apache, Unix) 对大小写敏感: london.jpg 不能通过 London.jpg 访问。

其他 Web 服务器 (Microsoft, IIS) 对大小写不敏感: london.jpg 可以通过 London.jpg 或 london.jpg 访问。

你必须保持统一的风格,我们建议统一使用小写的文件名。

文件扩展名

HTML 文件后缀可以是 .html (或r .htm)。

CSS 文件后缀是 .css

JavaScript 文件后缀是 .js

.htm 和 .html 的区别

.htm 和 .html 的扩展名文件本质上是没有区别的。浏览器和 Web 服务器都会把它们当作 HTML 文件来处理。

区别在于:

.htm 应用在早期 DOS 系统,系统现在或者只能有三个字符。

在 Unix 系统中后缀没有特别限制,一般用 .html。

技术上区别

如果一个 URL 没有指定文件名 (如 http://www.runoob.com/css/), 服务器会返回默认的文件名。通常默认文件名为 index.html, index.htm, default.html, 和 default.htm。

如果服务器只配置了 "index.html" 作为默认文件,你必须将文件命名为 "index.html", 而不是 "index.htm"。

但是,通常服务器可以设置多个默认文件,你可以根据需要设置默认文件吗。

不管怎样,HTML 完整的后缀是 ".html"。

如您还有不明白的可以在下面与我留言或是与我探讨QQ群308855039,我们一起飞!

015-07-29 12:01:00 作者:马荣

经过了漫长的研发,微软最新的操作系统Windows 10终于正式完整地展现在用户面前了。那么相信大家当下最关心的一个问题就是,Win10到底是个什么样的系统?尽管有着多场发布会、多个预览版的轮番曝光,但是这些碎片化的信息还是很难拼凑出一个完整的印象,所以我们今天就带来了Windows 10的360度全方位评测,看看这套新系统究竟有哪些不一样。

回归的开始菜单好用吗?

对于Win10来说,很多人第一个关注的点就是重新回归的开始菜单。从Win95时代就被定为“标配”的开始菜单在Win8中被替代,这一激进的改动让大部分用户难以适应,因此在Win10中,微软又把它请回来了。

那么重新请回的开始菜单是否打了微软的“脸”呢?在我们看来并非完全如此。在Win10中,微软采用了一种非常圆滑的中庸之道,将以Win7为代表的传统开始菜单元素,与Win8的通用应用(以前叫做Metro)元素进行了整合。所以我们看到的就是下面这个样子的开始菜单。

新的开始菜单

新的开始菜单可以视为两个部分,左侧部分是传统的开始菜单功能,这里与Win7的开始菜单几乎没有区别,包含了文件管理器、“所有程序”、“最近使用”等项目。更重要的是,在这里用户可以找到熟悉的关机键和设置(新的控制面板)。

而右侧部分则是用户自己将常用软件的快捷方式固定在此的区域,可以自定义并且分区块管理。在应用商店中安装的应用也可以固定在这里,方便调用。

默认情况下,这里集成了系统预装的一些应用程序,比如浏览器、视频播放器、OneNote笔记、天气、游戏、手机助手等。

新的开始菜单可以自定义大小,把鼠标放到边缘就能进行拉伸,就像下图这样,可以把开始菜单拉成这么大。

自定义大小

另外,右击开始菜单图标,我们还是能够调出系统管理菜单,这一点是没有变的。

右键菜单没有变

小结:新的开始菜单既具有Win7的操作模式,又具备了Win8开始屏幕的实用功能,算是一次较好的整合。笔者在几年的Win8的使用中深刻发现Win8的开始屏幕在功能性上远超Win7,只不过在形式上难以被人接受,因此Win10的开始菜单非常值得尝试。