者:NSS
翻译:杨金鸿
术语校对:韩海畴
全文校对:林亦霖
本文约3000字,建议阅读7分钟。
本文为带大家了解R语言以及分段式的步骤教程!
人们学习R语言时普遍存在缺乏系统学习方法的问题。学习者不知道从哪开始,如何进行,选择什么学习资源。虽然网络上有许多不错的免费学习资源,然而它们多过了头,反而会让人挑花了眼。
为了构建R语言学习方法,我们在Vidhya和DataCamp中选一组综合资源,帮您从头学习R语言。这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户,则会由本文了解这门语言的部分最新成果。
R语言学习方法会帮助您快速、高效学习R语言。
前言
在开始学习之前,第一个要回答的问题是:为什么要用R语言?或者R语言为何如此有用?
R语言是一门快速发展的开源软件,是SAS、STATA和SPSS这类商业软件的竞争对手。就业市场对R语言的需求正在迅速上升,微软等公司也同时承诺将致力让R语言成为数据科学通用语言。
看看由Revolution Analytics制作的90秒视频(https://www.youtube.com/watch?v=VlJnNSeO1uQ),您就知道R语言的用处。顺便说下,微软刚刚收购了Revolution Analytics。
步骤一:配置计算机环境
建立R语言学习环境最简单方法是通过综合R语言归档网络(CRAN)下载(https://cran.r-project.org/)到您的本地计算机上。可以选择Linux、Mac和Windows对应二进制文件下载。
您可能会考虑使用R语言自带的控制台,但我们建议您安装R语言集成开发环境(IDE)。RStudio(https://www.rstudio.com/)是最有名的IDE,它能让R语言编码更容易、更快,还能让您输入多行代码、处理图形、安装和维护程序,有效引导您的编程环境。RStudio此外可以选用基于eclipse的Architect(http://www.openanalytics.eu/architect)。如果需要安装图形用户界面(GUI),请选择R-commander(http://www.rcommander.com/)或Deducer(http://www.deducer.org/pmwiki/index.php?n=Main.WindowsInstallation)。
课后作业
安装R和RStudio。
安装Rcmdr、rattle和Deducer程序包。以及推荐或依赖的程序包,包括GUI。
使用库命令加载安装程序,并打开GUI。
步骤二:R语言基础学习
您应该首先了解语言、库和数据结构基础知识。
如果您更倾向于在线交流方式学习R语法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免费在线R教程是很好的资源。还可以选择后续课程:中级R编程(https://www.datacamp.com/courses/intermediate-r)。另一种学习方法是在线版本swirl(https://www.datacamp.com/swirl-r-tutorial),它能让您在类似RStudio环境中学习R语言。
在互动学习环境中,您可以选择参加Coursera(https://www.coursera.org/specializations/jhu-data-science)或Edx(https://www.edx.org/course/introduction-r-programming-microsoft-dat204x-0)上mooc课程。
除了上述在线资源,您还可以考虑以下优秀资源:
CRAN免费教学R语言(https://cran.r-project.org/doc/manuals/R-intro.pdf)。
Jared Lander’s R for Everyone(http://www.jaredlander.com/r-for-everyone/)
Quick-R(http://statmethods.net/)
专门学习:阅读、数据帧、表、概述、描述、加载和安装包、使用绘图命令可视化数据。
课后作业
使用DataCamp免费在线R教程,熟悉基本的R语法。
创建Github(http://github.com/)账号。
通过google帮助,解决安装过程中出现的问题。
安装swirl包并学习R编程(见上文)。
步骤三:了解R社
强大社区的存在是R语言发展迅速、大获成功的主要原因。社区中核心的是R语言的“包”生态系统。R语言程序包可以在CRAN、bioconductor、github和bitbucket中下载。在Rdocumentation(http://www.rdocumentation.org/)中,您可以轻松搜索来自CRAN、github和bioconductor中能满足您当前工作需要的程序包。与在R语言程序包生态系统同样重要的是,您可以在R endeavours上轻松获得帮助与反馈。首先,R内置帮助系统,您可以通过命令来访问。同时,在Analytics Vidhya Discussions,Stack OverflowR语言是增长最快语言。R-bloggers(http://www.r-bloggers.com/)汇集许多R语言爱好者写的博文。
课后作业:
访问CranTask Views了解R语言生态系统。
在http://r-bloggers.com上注册并订阅每日新闻。
步骤四:数据导入和操作
导入和操作数据是数据科学工作流程中重要步骤。R语言允许使用特定包导入不同数据格式,从而使您工作更轻松,如下:
readr:导入平面文件。
Readxl package:将excel文件转化为R语言。
haven package包:让您将SAS、STATA和SPSS数据文件导入R语言。
Databases:连接通过像RMySQL和RpostgreSQL包,使用DBI访问和操作。
rvest: 网页数据抓取。
一旦数据在工作环境中可用,您就可以使用下面程序包操作:
整理数据的tidyr程序包。
stringr包处理字符串操作。
对象数据帧,可以学习dplyr包输入和输出(https://www.datacamp.com/courses/dplyr-data-manipulation)。
需要执行繁重数据争用任务?试试data.table程序包。
执行时间序列分析?尝试一下像zoo,xts和quantmod程序包。
课后作业
通过“导入数据进入R语言”课程,或阅读文章1、2、3、4。掌握导入数据软件包。
通过RStudio观看Data Wrangling with R 。(https://www.rstudio.com/resources/webinars/data-wrangling-with-r-and-rstudio/)
阅读并练习如何使用dplyr、tidyr和data.table程序包。
步骤五:有效数据可视化
自己创建数据可视化作品是一件很自豪的事情。然而,数据可视化既是一项技能,也是一门艺术。许多学者阅读Edward Tufte 的“可视化定量数据”原理,或者StephenFew的 “pitfalls on dashboard design”。也可以阅读NathanYau在FlowingData 写的博文,来获得创建R语言可视化灵感。
1. 平面图无处不在
R语言提供了多种创建图形方法,使用原理图创建图形是标准的方法。然而,有一些好的工具(或包)使用更简单的方式来创建,查看图形。
在R语言中学习基本图形语法是数据可视化中一种实用方法。
在R语言中ggplot是数据可视化中最重要的包,并且很受欢迎,网上有很多它的学习资源,比如在线ggplot2教程,cheatsheet ,和以及一本由哈德利韦翰编写的教学书。
ggvis程序包允许您使用基本图形语法创建交互式web图形(参见教程)。
您知道Hans Rosling ted课程吗?教您如何的用googleVis(一个带有谷歌图表接口)来重建图表。
如果您遇到了绘制数据的问题,这篇文章会对您有所帮助。在这个CRAN任务视图中可以查看到更多的可视化资源。或者查看R语言数据可视化指南。
2. 地图无处不在
您对分析空间可视化数据感兴趣吗?学习本教程:介绍R语言空间数据,您会轻松地使用这些包。
源自Google maps和ggmap开放街道的静态图片,可用来创建可视化空间数据和模型。
Ari Lamstein’s中的choroplethr程序包。
tmap 程序包
3. HTML插件
HTML插件是R语言可视化产品中非常有前景的插件,您可以用简单的方式创建交互式web可视化(参见RStudio教程),掌握这种可视化方法将会成为R语言学习中必备技能。其带来的视觉效果会给您朋友和同事留下深刻印象。
leaflet创建动态图片。
使用dygraphs生成时间序列数据图表。
互动表(datatable)。
DiagrammeR创建图和流程图。
MetricsGraphics创建散点图、线图和直方图。
课后作业
理解基本图形语法原理。
学习ggplot2教程。
使用RStudio环境学习html插件。
步骤六:数据挖掘、机器学习
对于新的统计数据学习方法,我们推荐下列资源:
Andrew Conway’s课程:R语言统计数据简介。
杜克大学数据分析和统计推断。
R语言实用数据科学。
约翰霍普金斯大学数据科学专业课程。
R语言数据科学使用指南。
如果您想提高机器学习能力,可以考虑从以下教程开始学习:
机器学习算法要点。
自行车共享大赛--一套R语言完整解决方案。
Kaggle上的机器学习课程。
掌握机器学习。
介绍机器学习。
确保在相关的CRAN任务视图中查看到R语言可用的机器学习资源。
课后作业
从统计学课程开始入门。
学习Kaggle上免费机器学习课程。
看Rattle中的一些R语言数据挖掘书。
可以从这本小册子上学习时间序列——A Little Book for Time Series in R .
步骤七:报告结果
与数据科学爱好者交流成果,分享见解是一件很重要的事情。幸运的是,R语言针对这个问题有一些非常实用工具。
第一个工具是R Markdown,采用knitr和pandoc复制方式生成您的数据分析结果报告。使用R markdown工具,R语言最终生成文档,替换R语言代码。文档可以是html、word、pfd、ioslides等格式。您可以通过本教程学到更多知识并使用cheatsheet作为参考资料。
第二个工具是ReporteRs,它是个创建Microsoft(Worddocx和Powerpoint pptx)和html R语言文档程序包,并可以在Windows、Linux、Unix和Mac OS系统上运行。像R Markdown工具一样自动生成R语言报告,点击这里我们来看看如何操作。
第三个是Shiny,目前R语言中最令人兴奋的工具。使R语言构建交互式web应用程序变得非常容易。您可以把分析报告转换为交互式web应用程序,您不需要了解HTML、CSS或Javascript相关知识。如果您想要学习Shiny ,请点击RStudio learning portal。
课后作业
使用RMarkdown或ReporteRs创建第一个交互式报告。
尝试构建一个Shiny应用。
练习
只有通过大量练习才能成为优秀R语言程序员。因此,要定期解决数据科学中的问题。我们的建议是赶紧开始与Kaggle上的数据科学家交流。
在解决问题中测试自己的R语言水平--练习中的问题。
步骤八:时间序列分析
R语言有一个用于专属任务视图时间序列。如果你想在R语言中做一些时间序列分析,这将是您开始的地方。您很快会发现工具的强大。
想要从在线资源中掌握时间序列分析是件不容易的事情。好的切入点是一本关于时间序列的书或者选择《原理与实践》这本书。在程序包方面,您需要熟悉Zoo与xts程序包。Zoo为您提供了常用的保存时间序列对象格式,而xts供了操作时间序列的数据集工具。
辅助资源: 时间序列综合教程。
课后作业
选择上述列出的时间系列教程,开始您的分析。
使用quantmod或quandl程序软件包下载财务数据,开始您的时间序列分析。
使用诸如dygraphs的程序包创建您的可视化时间序列数据和分析。
文本挖掘一个重要工具
学习文本挖掘,您可以从edge课程中学习。虽然课程已经结束,但是您仍然可以访问这些课程。
练习
文本挖掘竞赛--一套R语言的完整解决方案。
步骤九:成为R语言大师
现在您已经掌握了大部分R语言数据分析,是时候给出一些高级课程资源了。您很可能已经知道其中的一些内容,但不妨看看这些教程。
Hadley Wickham的高级R语言教程。
在Hadoop、MongoDB或NoSQL中使用R语言。
微软的RevoScaleR 程序包
原文链接:
https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/
杨金鸿,北京护航科技有限公司员工,在业余时间喜欢翻译一些技术文档。喜欢阅读有关数据挖掘、数据库之类的书,学习java语言编程等,希望能在数据派平台上熟识更多爱好相同的伙伴,今后能在数据科学的道路上走的更远,飞的更远。
TML 代码约定
很多 Web 开发人员对 HTML 的代码规范知之甚少。
在2000年至2010年,许多Web开发人员从 HTML 转换到 XHTML。
使用 XHTML 开发人员逐渐养成了比较好的 HTML 编写规范。
而针对于 HTML5 ,我们应该形成比较好的代码规范,以下提供了几种规范的建议。
使用正确的文档类型
文档类型声明位于HTML文档的第一行:
<!DOCTYPE html>
如果你想跟其他标签一样使用小写,可以使用以下代码:
<!doctype html>
使用小写元素名
HTML5 元素名可以使用大写和小写字母。
推荐使用小写字母:
混合了大小写的风格是非常糟糕的。
开发人员通常使用小写 (类似 XHTML)。
小写风格看起来更加清爽。
小写字母容易编写。
不推荐:
<SECTION>
<p>这是一个段落。</p>
</SECTION>
非常糟糕:
<Section>
<p>这是一个段落。</p>
</SECTION>
推荐:
<section>
<p>这是一个段落。</p>
</section>
关闭所有 HTML 元素
在 HTML5 中, 你不一定要关闭所有元素 (例如 <p> 元素),但我们建议每个元素都要添加关闭标签。
不推荐:
<section>
<p>这是一个段落。
<p>这是一个段落。
</section>
推荐:
<section>
<p>这是一个段落。</p>
<p>这是一个段落。</p>
</section>
关闭空的 HTML 元素
在 HTML5 中, 空的 HTML 元素也不一定要关闭:
我们可以这么写:
<meta charset="utf-8">
也可以这么写:
<meta charset="utf-8" />
在 XHTML 和 XML 中斜线 (/) 是必须的。
如果你期望 XML 软件使用你的页面,使用这种风格是非常好的。
使用小写属性名
HTML5 属性名允许使用大写和小写字母。
我们推荐使用小写字母属性名:
同时使用大小写是非常不好的习惯。
开发人员通常使用小写 (类似 XHTML)。
小写风格看起来更加清爽。
小写字母容易编写。
不推荐:
<div CLASS="menu">
推荐:
<div class="menu">
属性值
HTML5 属性值可以不用引号。
属性值我们推荐使用引号:
如果属性值含有空格需要使用引号。
混合风格不推荐的,建议统一风格。
属性值使用引号易于阅读。
以下实例属性值包含空格,没有使用引号,所以不能起作用:
<table class=table striped>
以下使用了双引号,是正确的:
<table class="table striped">
图片属性
图片通常使用 alt 属性。 在图片不能显示时,它能替代图片显示。
<img src="html5.gif" alt="HTML5" style="width:128px;height:128px">
定义好图片的尺寸,在加载时可以预留指定空间,减少闪烁。
<img src="html5.gif" alt="HTML5" style="width:128px;height:128px">
空格和等号
等号前后可以使用空格。
<link rel = "stylesheet" href = "styles.css">
但我们推荐少用空格:
<link rel="stylesheet" href="styles.css">
避免一行代码过长
使用 HTML 编辑器,左右滚动代码是不方便的。
每行代码尽量少于 80 个字符。
空行和缩进
不要无缘无故添加空行。
为每个逻辑功能块添加空行,这样更易于阅读。
缩进使用两个空格,不建议使用 TAB。
比较短的代码间不要使用不必要的空行和缩进。
不必要的空行和缩进:
<body>
<h1>菜鸟教程</h1>
<h2>HTML</h2>
<p>
菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想,
菜鸟教程,学的不仅是技术,更是梦想。
</p>
</body>
推荐:
<body>
<h1>菜鸟教程</h1>
<h2></h2>
<p>菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想。
菜鸟教程,学的不仅是技术,更是梦想。</p>
</body>
表格实例:
<table>
<tr>
<th>Name</th>
<th>Description</th>
</tr>
<tr>
<td>A</td>
<td>Description of A</td>
</tr>
<tr>
<td>B</td>
<td>Description of B</td>
</tr>
</table>
列表实例:
<ol>
<li>London</li>
<li>Paris</li>
<li>Tokyo</li>
</ol>
省略 <html> 和 <body>?
在标准 HTML5 中, <html> 和 <body> 标签是可以省略的。
以下 HTML5 文档是正确的:
实例:
<!DOCTYPE html>
<head>
<title>页面标题</title>
</head>
<h1>这是一个标题</h1>
<p>这是一个段落。</p>
尝试一下 »
不推荐省略 <html> 和 <body> 标签。
<html> 元素是文档的根元素,用于描述页面的语言:
<!DOCTYPE html>
<html lang="zh">
声明语言是为了方便屏幕阅读器及搜索引擎。
省略 <html> 或 <body> 在 DOM 和 XML 软件中会崩溃。
省略 <body> 在旧版浏览器 (IE9)会发生错误。
省略 <head>?
在标准 HTML5 中, <head>标签是可以省略的。
默认情况下,浏览器会将 <body> 之前的内容添加到一个默认的 <head> 元素上。
实例
<!DOCTYPE html>
<html>
<title>页面标题</title>
<body>
<h1>这是一个标题</h1>
<p>这是一个段落。</p>
</body>
</html>
尝试一下 »
现在省略 head 标签还不推荐使用。 |
元数据
HTML5 中 <title> 元素是必须的,标题名描述了页面的主题:
<title>菜鸟教程</title>
标题和语言可以让搜索引擎很快了解你页面的主题:
<!DOCTYPE html>
<html lang="zh">
<head>
<meta charset="UTF-8">
<title>菜鸟教程</title>
</head>
HTML 注释
注释可以写在 <!-- 和 --> 中:
<!-- 这是注释 -->
比较长的评论可以在 <!-- 和 --> 中分行写:
<!--
这是一个较长评论。 这是 一个较长评论。这是一个较长评论。
这是 一个较长评论 这是一个较长评论。 这是 一个较长评论。
-->
长评论第一个字符缩进两个空格,更易于阅读。
样式表
样式表使用简洁的语法格式 ( type 属性不是必须的):
<link rel="stylesheet" href="styles.css">
短的规则可以写成一行:
p.into {font-family: Verdana; font-size: 16em;}
长的规则可以写成多行:
body {
background-color: lightgrey;
font-family: "Arial Black", Helvetica, sans-serif;
font-size: 16em;
color: black;
}
将左花括号与选择器放在同一行。
左花括号与选择器间添加以空格。
使用两个空格来缩进。
冒号与属性值之间添加已空格。
逗号和符号之后使用一个空格。
每个属性与值结尾都要使用符号。
只有属性值包含空格时才使用引号。
右花括号放在新的一行。
每行最多 80 个字符。
在逗号和分号后添加空格是常用的一个规则。 |
在 HTML 中载入 JavaScript
使用简洁的语法来载入外部的脚本文件 ( type 属性不是必须的 ):
<script src="myscript.js">
使用 JavaScript 访问 HTML 元素
一个糟糕的 HTML 格式可能会导致 JavaScript 执行错误。
以下两个 JavaScript 语句会输出不同结果:
实例
var obj = getElementById("Demo")
var obj = getElementById("demo")
HTML 中 JavaScript 尽量使用相同的命名规则。
访问 JavaScript 代码规范。
使用小写文件名
大多 Web 服务器 (Apache, Unix) 对大小写敏感: london.jpg 不能通过 London.jpg 访问。
其他 Web 服务器 (Microsoft, IIS) 对大小写不敏感: london.jpg 可以通过 London.jpg 或 london.jpg 访问。
你必须保持统一的风格,我们建议统一使用小写的文件名。
文件扩展名
HTML 文件后缀可以是 .html (或r .htm)。
CSS 文件后缀是 .css 。
JavaScript 文件后缀是 .js 。
.htm 和 .html 的区别
.htm 和 .html 的扩展名文件本质上是没有区别的。浏览器和 Web 服务器都会把它们当作 HTML 文件来处理。
区别在于:
.htm 应用在早期 DOS 系统,系统现在或者只能有三个字符。
在 Unix 系统中后缀没有特别限制,一般用 .html。
技术上区别
如果一个 URL 没有指定文件名 (如 http://www.runoob.com/css/), 服务器会返回默认的文件名。通常默认文件名为 index.html, index.htm, default.html, 和 default.htm。
如果服务器只配置了 "index.html" 作为默认文件,你必须将文件命名为 "index.html", 而不是 "index.htm"。
但是,通常服务器可以设置多个默认文件,你可以根据需要设置默认文件吗。
不管怎样,HTML 完整的后缀是 ".html"。
如您还有不明白的可以在下面与我留言或是与我探讨QQ群308855039,我们一起飞!
015-07-29 12:01:00 作者:马荣
经过了漫长的研发,微软最新的操作系统Windows 10终于正式完整地展现在用户面前了。那么相信大家当下最关心的一个问题就是,Win10到底是个什么样的系统?尽管有着多场发布会、多个预览版的轮番曝光,但是这些碎片化的信息还是很难拼凑出一个完整的印象,所以我们今天就带来了Windows 10的360度全方位评测,看看这套新系统究竟有哪些不一样。
回归的开始菜单好用吗?
对于Win10来说,很多人第一个关注的点就是重新回归的开始菜单。从Win95时代就被定为“标配”的开始菜单在Win8中被替代,这一激进的改动让大部分用户难以适应,因此在Win10中,微软又把它请回来了。
那么重新请回的开始菜单是否打了微软的“脸”呢?在我们看来并非完全如此。在Win10中,微软采用了一种非常圆滑的中庸之道,将以Win7为代表的传统开始菜单元素,与Win8的通用应用(以前叫做Metro)元素进行了整合。所以我们看到的就是下面这个样子的开始菜单。
新的开始菜单
新的开始菜单可以视为两个部分,左侧部分是传统的开始菜单功能,这里与Win7的开始菜单几乎没有区别,包含了文件管理器、“所有程序”、“最近使用”等项目。更重要的是,在这里用户可以找到熟悉的关机键和设置(新的控制面板)。
而右侧部分则是用户自己将常用软件的快捷方式固定在此的区域,可以自定义并且分区块管理。在应用商店中安装的应用也可以固定在这里,方便调用。
默认情况下,这里集成了系统预装的一些应用程序,比如浏览器、视频播放器、OneNote笔记、天气、游戏、手机助手等。
新的开始菜单可以自定义大小,把鼠标放到边缘就能进行拉伸,就像下图这样,可以把开始菜单拉成这么大。
自定义大小
另外,右击开始菜单图标,我们还是能够调出系统管理菜单,这一点是没有变的。
右键菜单没有变
小结:新的开始菜单既具有Win7的操作模式,又具备了Win8开始屏幕的实用功能,算是一次较好的整合。笔者在几年的Win8的使用中深刻发现Win8的开始屏幕在功能性上远超Win7,只不过在形式上难以被人接受,因此Win10的开始菜单非常值得尝试。
*请认真填写需求信息,我们会在24小时内与您取得联系。