者:NSS
翻译:杨金鸿
术语校对:韩海畴
全文校对:林亦霖
本文约3000字,建议阅读7分钟。
本文为带大家了解R语言以及分段式的步骤教程!
人们学习R语言时普遍存在缺乏系统学习方法的问题。学习者不知道从哪开始,如何进行,选择什么学习资源。虽然网络上有许多不错的免费学习资源,然而它们多过了头,反而会让人挑花了眼。
为了构建R语言学习方法,我们在Vidhya和DataCamp中选一组综合资源,帮您从头学习R语言。这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户,则会由本文了解这门语言的部分最新成果。
R语言学习方法会帮助您快速、高效学习R语言。
前言
在开始学习之前,第一个要回答的问题是:为什么要用R语言?或者R语言为何如此有用?
R语言是一门快速发展的开源软件,是SAS、STATA和SPSS这类商业软件的竞争对手。就业市场对R语言的需求正在迅速上升,微软等公司也同时承诺将致力让R语言成为数据科学通用语言。
看看由Revolution Analytics制作的90秒视频(https://www.youtube.com/watch?v=VlJnNSeO1uQ),您就知道R语言的用处。顺便说下,微软刚刚收购了Revolution Analytics。
步骤一:配置计算机环境
建立R语言学习环境最简单方法是通过综合R语言归档网络(CRAN)下载(https://cran.r-project.org/)到您的本地计算机上。可以选择Linux、Mac和Windows对应二进制文件下载。
您可能会考虑使用R语言自带的控制台,但我们建议您安装R语言集成开发环境(IDE)。RStudio(https://www.rstudio.com/)是最有名的IDE,它能让R语言编码更容易、更快,还能让您输入多行代码、处理图形、安装和维护程序,有效引导您的编程环境。RStudio此外可以选用基于eclipse的Architect(http://www.openanalytics.eu/architect)。如果需要安装图形用户界面(GUI),请选择R-commander(http://www.rcommander.com/)或Deducer(http://www.deducer.org/pmwiki/index.php?n=Main.WindowsInstallation)。
课后作业
安装R和RStudio。
安装Rcmdr、rattle和Deducer程序包。以及推荐或依赖的程序包,包括GUI。
使用库命令加载安装程序,并打开GUI。
步骤二:R语言基础学习
您应该首先了解语言、库和数据结构基础知识。
如果您更倾向于在线交流方式学习R语法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免费在线R教程是很好的资源。还可以选择后续课程:中级R编程(https://www.datacamp.com/courses/intermediate-r)。另一种学习方法是在线版本swirl(https://www.datacamp.com/swirl-r-tutorial),它能让您在类似RStudio环境中学习R语言。
在互动学习环境中,您可以选择参加Coursera(https://www.coursera.org/specializations/jhu-data-science)或Edx(https://www.edx.org/course/introduction-r-programming-microsoft-dat204x-0)上mooc课程。
除了上述在线资源,您还可以考虑以下优秀资源:
CRAN免费教学R语言(https://cran.r-project.org/doc/manuals/R-intro.pdf)。
Jared Lander’s R for Everyone(http://www.jaredlander.com/r-for-everyone/)
Quick-R(http://statmethods.net/)
专门学习:阅读、数据帧、表、概述、描述、加载和安装包、使用绘图命令可视化数据。
课后作业
使用DataCamp免费在线R教程,熟悉基本的R语法。
创建Github(http://github.com/)账号。
通过google帮助,解决安装过程中出现的问题。
安装swirl包并学习R编程(见上文)。
步骤三:了解R社
强大社区的存在是R语言发展迅速、大获成功的主要原因。社区中核心的是R语言的“包”生态系统。R语言程序包可以在CRAN、bioconductor、github和bitbucket中下载。在Rdocumentation(http://www.rdocumentation.org/)中,您可以轻松搜索来自CRAN、github和bioconductor中能满足您当前工作需要的程序包。与在R语言程序包生态系统同样重要的是,您可以在R endeavours上轻松获得帮助与反馈。首先,R内置帮助系统,您可以通过命令来访问。同时,在Analytics Vidhya Discussions,Stack OverflowR语言是增长最快语言。R-bloggers(http://www.r-bloggers.com/)汇集许多R语言爱好者写的博文。
课后作业:
访问CranTask Views了解R语言生态系统。
在http://r-bloggers.com上注册并订阅每日新闻。
步骤四:数据导入和操作
导入和操作数据是数据科学工作流程中重要步骤。R语言允许使用特定包导入不同数据格式,从而使您工作更轻松,如下:
readr:导入平面文件。
Readxl package:将excel文件转化为R语言。
haven package包:让您将SAS、STATA和SPSS数据文件导入R语言。
Databases:连接通过像RMySQL和RpostgreSQL包,使用DBI访问和操作。
rvest: 网页数据抓取。
一旦数据在工作环境中可用,您就可以使用下面程序包操作:
整理数据的tidyr程序包。
stringr包处理字符串操作。
对象数据帧,可以学习dplyr包输入和输出(https://www.datacamp.com/courses/dplyr-data-manipulation)。
需要执行繁重数据争用任务?试试data.table程序包。
执行时间序列分析?尝试一下像zoo,xts和quantmod程序包。
课后作业
通过“导入数据进入R语言”课程,或阅读文章1、2、3、4。掌握导入数据软件包。
通过RStudio观看Data Wrangling with R 。(https://www.rstudio.com/resources/webinars/data-wrangling-with-r-and-rstudio/)
阅读并练习如何使用dplyr、tidyr和data.table程序包。
步骤五:有效数据可视化
自己创建数据可视化作品是一件很自豪的事情。然而,数据可视化既是一项技能,也是一门艺术。许多学者阅读Edward Tufte 的“可视化定量数据”原理,或者StephenFew的 “pitfalls on dashboard design”。也可以阅读NathanYau在FlowingData 写的博文,来获得创建R语言可视化灵感。
1. 平面图无处不在
R语言提供了多种创建图形方法,使用原理图创建图形是标准的方法。然而,有一些好的工具(或包)使用更简单的方式来创建,查看图形。
在R语言中学习基本图形语法是数据可视化中一种实用方法。
在R语言中ggplot是数据可视化中最重要的包,并且很受欢迎,网上有很多它的学习资源,比如在线ggplot2教程,cheatsheet ,和以及一本由哈德利韦翰编写的教学书。
ggvis程序包允许您使用基本图形语法创建交互式web图形(参见教程)。
您知道Hans Rosling ted课程吗?教您如何的用googleVis(一个带有谷歌图表接口)来重建图表。
如果您遇到了绘制数据的问题,这篇文章会对您有所帮助。在这个CRAN任务视图中可以查看到更多的可视化资源。或者查看R语言数据可视化指南。
2. 地图无处不在
您对分析空间可视化数据感兴趣吗?学习本教程:介绍R语言空间数据,您会轻松地使用这些包。
源自Google maps和ggmap开放街道的静态图片,可用来创建可视化空间数据和模型。
Ari Lamstein’s中的choroplethr程序包。
tmap 程序包
3. HTML插件
HTML插件是R语言可视化产品中非常有前景的插件,您可以用简单的方式创建交互式web可视化(参见RStudio教程),掌握这种可视化方法将会成为R语言学习中必备技能。其带来的视觉效果会给您朋友和同事留下深刻印象。
leaflet创建动态图片。
使用dygraphs生成时间序列数据图表。
互动表(datatable)。
DiagrammeR创建图和流程图。
MetricsGraphics创建散点图、线图和直方图。
课后作业
理解基本图形语法原理。
学习ggplot2教程。
使用RStudio环境学习html插件。
步骤六:数据挖掘、机器学习
对于新的统计数据学习方法,我们推荐下列资源:
Andrew Conway’s课程:R语言统计数据简介。
杜克大学数据分析和统计推断。
R语言实用数据科学。
约翰霍普金斯大学数据科学专业课程。
R语言数据科学使用指南。
如果您想提高机器学习能力,可以考虑从以下教程开始学习:
机器学习算法要点。
自行车共享大赛--一套R语言完整解决方案。
Kaggle上的机器学习课程。
掌握机器学习。
介绍机器学习。
确保在相关的CRAN任务视图中查看到R语言可用的机器学习资源。
课后作业
从统计学课程开始入门。
学习Kaggle上免费机器学习课程。
看Rattle中的一些R语言数据挖掘书。
可以从这本小册子上学习时间序列——A Little Book for Time Series in R .
步骤七:报告结果
与数据科学爱好者交流成果,分享见解是一件很重要的事情。幸运的是,R语言针对这个问题有一些非常实用工具。
第一个工具是R Markdown,采用knitr和pandoc复制方式生成您的数据分析结果报告。使用R markdown工具,R语言最终生成文档,替换R语言代码。文档可以是html、word、pfd、ioslides等格式。您可以通过本教程学到更多知识并使用cheatsheet作为参考资料。
第二个工具是ReporteRs,它是个创建Microsoft(Worddocx和Powerpoint pptx)和html R语言文档程序包,并可以在Windows、Linux、Unix和Mac OS系统上运行。像R Markdown工具一样自动生成R语言报告,点击这里我们来看看如何操作。
第三个是Shiny,目前R语言中最令人兴奋的工具。使R语言构建交互式web应用程序变得非常容易。您可以把分析报告转换为交互式web应用程序,您不需要了解HTML、CSS或Javascript相关知识。如果您想要学习Shiny ,请点击RStudio learning portal。
课后作业
使用RMarkdown或ReporteRs创建第一个交互式报告。
尝试构建一个Shiny应用。
练习
只有通过大量练习才能成为优秀R语言程序员。因此,要定期解决数据科学中的问题。我们的建议是赶紧开始与Kaggle上的数据科学家交流。
在解决问题中测试自己的R语言水平--练习中的问题。
步骤八:时间序列分析
R语言有一个用于专属任务视图时间序列。如果你想在R语言中做一些时间序列分析,这将是您开始的地方。您很快会发现工具的强大。
想要从在线资源中掌握时间序列分析是件不容易的事情。好的切入点是一本关于时间序列的书或者选择《原理与实践》这本书。在程序包方面,您需要熟悉Zoo与xts程序包。Zoo为您提供了常用的保存时间序列对象格式,而xts供了操作时间序列的数据集工具。
辅助资源: 时间序列综合教程。
课后作业
选择上述列出的时间系列教程,开始您的分析。
使用quantmod或quandl程序软件包下载财务数据,开始您的时间序列分析。
使用诸如dygraphs的程序包创建您的可视化时间序列数据和分析。
文本挖掘一个重要工具
学习文本挖掘,您可以从edge课程中学习。虽然课程已经结束,但是您仍然可以访问这些课程。
练习
文本挖掘竞赛--一套R语言的完整解决方案。
步骤九:成为R语言大师
现在您已经掌握了大部分R语言数据分析,是时候给出一些高级课程资源了。您很可能已经知道其中的一些内容,但不妨看看这些教程。
Hadley Wickham的高级R语言教程。
在Hadoop、MongoDB或NoSQL中使用R语言。
微软的RevoScaleR 程序包
原文链接:
https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/
杨金鸿,北京护航科技有限公司员工,在业余时间喜欢翻译一些技术文档。喜欢阅读有关数据挖掘、数据库之类的书,学习java语言编程等,希望能在数据派平台上熟识更多爱好相同的伙伴,今后能在数据科学的道路上走的更远,飞的更远。
能转换:R图和统计表转成发表级的Word、PPT、Excel、HTML、Latex、矢量图等
R包export可以轻松的将R绘制的图和统计表输出到 Microsoft Office (Word、PowerPoint和Excel)、HTML和Latex中,其质量可以直接用于发表。
export包可以在Windows、Ubuntu和Mac上跨平台运行。不过有些Mac发行版默认情况下没有安装cairo设备,需要自行安装。如果Mac用户已安装XQuartz,这个问题就解决了,它可以从https://www.xquartz.org/免费获得。
install.packages("export")
install.packages("officer")
install.packages("rvg")
install.packages("openxlsx")
install.packages("ggplot2")
install.packages("flextable")
install.packages("xtable")
install.packages("rgl")
install.packages("stargazer")
install.packages("tikzDevice")
install.packages("xml2")
install.packages("broom")
install.packages("devtools")
devtools::install_github("tomwenseleers/export")
该包主要包括以下几种转换
使用帮助信息如下:
graph2bitmap(x=NULL, file="Rplot", fun=NULL, type=c("PNG","JPG", "TIF"),
aspectr=NULL, width=NULL, height=NULL, dpi=300,scaling=100,
font=ifelse(Sys.info()["sysname"]=="Windows", "Arial",
"Helvetica")[[1]], bg="white", cairo=TRUE,
tiffcompression=c("lzw", "rle", "jpeg", "zip", "lzw+p", "zip+p"),
jpegquality=99, ...)
安装完 export包后,先调用该包
library(export)
library(ggplot2)
library(datasets)
x=qplot(Sepal.Length, Petal.Length, data=iris,
color=Species, size=Petal.Width, alpha=I(0.7))
qplot()的意思是快速作图,利用它可以很方便的创建各种复杂的图形,其他系统需要好几行代码才能解决的问题,用qplot只需要一行就能完成。
使用半透明的颜色可以有效减少图形元素重叠的现象,要创建半透明的颜色,可以使用alpha图形属性,其值从0(完全透明)到1(完全不透明)。更多ggplot2绘图见ggplot2高效实用指南 (可视化脚本、工具、套路、配色) (往期教程更有很多生物信息相关的例子)。
鸢尾花(iris)是数据挖掘常用到的一个数据集,包含150个鸢尾花的信息,每50个取自三个鸢尾花种之一(setosa,versicolour或virginica)。每个花的特征用下面的5种属性描述萼片长度(Sepal.Length)、萼片宽度(Sepal.Width)、花瓣长度(Petal.Length)、花瓣宽度(Petal.Width)、类(Species)。
在console里展示数据图 (长宽比自己调节):
# 需运行上面的ggplot2绘图
# Create a file name
# 程序会自动加后缀
filen <- "output_filename" # or
# filen <- paste("YOUR_DIR/ggplot")
# There are 3 ways to use graph2bitmap():
### 1. Pass the plot as an object
graph2png(x=x, file=filen, dpi=400, height=5, aspectr=4)
graph2tif(x=x, file=filen, dpi=400, height=5, aspectr=4)
graph2jpg(x=x, file=filen, dpi=400, height=5, aspectr=4)
### 2. Get the plot from current screen device
# 注意这个x,是运行命令,展示图像
x
graph2png(file=filen, dpi=400, height=5, aspectr=4)
graph2tif(file=filen, dpi=400, height=5, aspectr=4)
graph2jpg(file=filen, dpi=400, height=5, aspectr=4)
### 3. Pass the plot as a functio
plot.fun <- function(){
print(qplot(Sepal.Length, Petal.Length, data=iris,
color=Species, size=Petal.Width, alpha=0.7))
}
graph2png(file=filen, fun=plot.fun, dpi=400, height=5, aspectr=4)
graph2tif(file=filen, fun=plot.fun, dpi=400, height=5, aspectr=4)
graph2jpg(file=filen, fun=plot.fun, dpi=400, height=5, aspectr=4)
转换后的图形:
大部分图的细节修改都是用代码完成的,不需要后续的修饰;但如果某一些修改比较特异,不具有程序的通用性特征,或实现起来比较困难,就可以考虑后期修改。比如用AI文章用图的修改和排版。熟悉PPT的,也可以用PPT,这时R的图导出PPT,就要用到graph2office系列函数了。
graph2ppt: 将当前R图保存到Microsoft Office PowerPoint/LibreOffice Impress演示文稿中。
graph2doc:将当前的R图保存到Microsoft Office Word/LibreOffice Writer文档中。
函数参数展示和解释
graph2office(x=NULL, file="Rplot", fun=NULL, type=c("PPT", "DOC"),
append=FALSE, aspectr=NULL, width=NULL, height=NULL,scaling=100,
paper="auto", orient=ifelse(type[1]=="PPT","landscape", "auto"),
margins=c(top=0.5, right=0.5, bottom=0.5, left=0.5),
center=TRUE, offx=1, offy=1, upscale=FALSE, vector.graphic=TRUE, ...)
# 需运行上面的ggplot2绘图
# Create a file name
filen <- "output_filename" # or
# filen <- paste("YOUR_DIR/ggplot")
# There are 3 ways to use graph2office():
### 1. Pass the plot as an object
# 导出图形对象
graph2ppt(x=x, file=filen)
graph2doc(x=x, file=filen, aspectr=0.5)
### 2. Get the plot from current screen device
# 导出当前预览窗口呈现的图
x
graph2ppt(file=filen, width=9, aspectr=2, append=TRUE)
graph2doc(file=filen, aspectr=1.7, append=TRUE)
### 3. Pass the plot as a function
# 导出自定义函数输出的一系列图
graph2ppt(fun=plot.fun, file=filen, aspectr=0.5, append=TRUE)
graph2doc(fun=plot.fun, file=filen, aspectr=0.5, append=TRUE)
导出到office(ppt和word)中的图形,是可编辑的:
其它导出到ppt的例子(设置长宽比)
graph2ppt(file="ggplot2_plot.pptx", aspectr=1.7)
增加第二张同样的图,9英寸宽和A4长宽比的幻灯片 (append=T,追加)
graph2ppt(file="ggplot2_plot.pptx", width=9, aspectr=sqrt(2), append=TRUE)
添加相同图形的第三张幻灯片,宽度和高度固定
graph2ppt(file="ggplot2_plot.pptx", width=6, height=5, append=TRUE)
禁用矢量化图像导出
graph2ppt(x=x, file=filen, vector.graphic=FALSE, width=9, aspectr=sqrt(2), append=TRUE)
用图填满幻灯片
graph2ppt(x=x, file=filen, margins=0, upscale=TRUE, append=TRUE)
函数参数解释
graph2vector(x=NULL, file="Rplot", fun=NULL, type="SVG",aspectr=NULL,
width=NULL, height=NULL, scaling=100,
font=ifelse(Sys.info()["sysname"]=="Windows",
"Arial","Helvetica")[[1]], bg="white", colormodel="rgb",
cairo=TRUE,fallback_resolution=600, ...)
#需运行上面的ggplot2绘图
# Create a file name
filen <- "output_filename" # or
# filen <- paste("YOUR_DIR/ggplot")
# There are 3 ways to use graph2vector():
### 1. Pass the plot as an object
# 导出图形对象
graph2svg(x=x, file=filen, aspectr=2, font="Times New Roman",
height=5, bg="white")
graph2pdf(x=x, file=filen, aspectr=2, font="Arial",
height=5, bg="transparent")
graph2eps(x=x, file=filen, aspectr=2, font="Arial",
height=5, bg="transparent")
# 导出当前预览窗口呈现的图
### 2. Get the plot from current screen device
x
graph2svg(file=filen, aspectr=2, font="Arial",
height=5, bg="transparent")
graph2pdf(file=filen, aspectr=2, font="Times New Roman",
height=5, bg="white")
graph2eps(file=filen, aspectr=2, font="Times New Roman",
height=5, bg="white")
# 导出自定义函数输出的一系列图
### 3. Pass the plot as a function
graph2svg(file=filen, fun=plot.fun, aspectr=2, font="Arial",
height=5, bg="transparent")
graph2pdf(file=filen, fun=plot.fun, aspectr=2, font="Arial",
height=5, bg="transparent")
graph2eps(file=filen, fun=plot.fun, aspectr=2, font="Arial",
height=5, bg="transparent")
rgl2png: 将当前的rgl 3D图形保存为PNG格式。
rgl2bitmap(file="Rplot", type=c("PNG"))
# Create a file name
filen <- tempfile("rgl") # or
# filen <- paste("YOUR_DIR/rgl")
# Generate a 3D plot using 'rgl'
x=y=seq(-10, 10, length=20)
z=outer(x, y, function(x, y) x^2 + y^2)
rgl::persp3d(x, y, z, col='lightblue')
# Save the plot as a png
rgl2png(file=filen)
# Note that omitting 'file' will save in current directory
生成的3D图形:
将生成的3D图形保存为PNG格式:
table2spreadsheet(x=NULL, file="Rtable", type=c("XLS", "CSV",
"CSV2"), append=FALSE, sheetName="new sheet", digits=2,
digitspvals=2, trim.pval=TRUE, add.rownames=FALSE, ...)
# Create a file name
filen <- "table_aov" # or
# filen <- paste("YOUR_DIR/table_aov")
# Generate ANOVA output
fit=aov(yield ~ block + N * P + K, data=npk) # 'npk' dataset from base 'datasets'
x=summary(fit)
# Save ANOVA table as a CSV
### Option 1: pass output as object
# 输出对象
table2csv(x=x,file=filen, digits=1, digitspvals=3, add.rownames=TRUE)
# 屏幕输出导出到文件
### Option 2: get output from console
summary(fit)
table2csv(file=filen, digits=2, digitspvals=4, add.rownames=TRUE)
# Save ANOVA table as an Excel
# Without formatting of the worksheet
x
table2excel(file=filen, sheetName="aov_noformatting", digits=1, digitspvals=3, add.rownames=TRUE)
# 更多参数
# With formatting of the worksheet
table2excel(x=x,file=filen, sheetName="aov_formated", append=TRUE, add.rownames=TRUE, fontName="Arial", fontSize=14, fontColour=rgb(0.15,0.3,0.75), border=c("top", "bottom"), fgFill=rgb(0.9,0.9,0.9), halign="center", valign="center", textDecoration="italic")
原始数据的表格:
转换格式之后的,在console中的数据:
文件(csv和excel)中表格数据:
table2ppt: 导出统计输出到Microsoft Office PowerPoint/ LibreOffice Impress演示文稿中的表
table2doc: 将统计输出导出到Microsoft Office Word/ LibreOffice Writer文档中的表
table2office(x=NULL, file="Rtable", type=c("PPT", "DOC"),
append=FALSE, digits=2, digitspvals=2, trim.pval=TRUE,
width=NULL, height=NULL, offx=1, offy=1,
font=ifelse(Sys.info()["sysname"]=="Windows", "Arial",
"Helvetica")[[1]], pointsize=12, add.rownames=FALSE)
# Create a file name
filen <- "table_aov"
# filen <- paste("YOUR_DIR/table_aov")
# Generate ANOVA output
fit=aov(yield ~ block + N * P + K, data=npk) # 'npk' dataset from base 'datasets'
# Save ANOVA table as a PPT
### Option 1: pass output as object
x=summary(fit)
table2ppt(x=x,file=filen, digits=1, digitspvals=3, add.rownames=TRUE)
### Option 2: get output from console
summary(fit)
table2ppt(x=x,file=filen, width=5, font="Times New Roman", pointsize=14, digits=4, digitspvals=1, append=TRUE, add.rownames=TRUE) # append table to previous slide
# Save ANOVA table as a DOC file
table2doc(x=x,file=filen, digits=1, digitspvals=3, add.rownames=TRUE)
summary(fit)
table2doc(file=filen, width=3.5, font="Times New Roman", pointsize=14, digits=4, digitspvals=1, append=TRUE, add.rownames=TRUE) # append table at end of document
将表格数据导出到ppt和word中:
table2html: 导出统计输出到HTML表。
table2tex(x=NULL, file="Rtable", type="TEX", digits=2,
digitspvals=2, trim.pval=TRUE, summary=FALSE, standAlone=TRUE,
add.rownames=FALSE, ...)
summary:是否汇总数据文件。
standAlone:导出的Latex代码应该是独立可编译的,还是应该粘贴到另一个文档中。
add.rownames:是否应该将行名添加到表中(在第一列之前插入一列)。
# Create a file name
filen <- tempfile(pattern="table_aov") # or
# filen <- paste("YOUR_DIR/table_aov")
# Generate ANOVA output
fit=aov(yield ~ block + N * P + K, data=npk) # 'npk' dataset from base 'datasets'
x=summary(fit)
# Export to Latex in standAlone format
table2tex(x=x,file=filen,add.rownames=TRUE)
# Export to Latex to paste in tex document
summary(fit) # get output from the console
table2tex(file=filen, standAlone=FALSE,add.rownames=TRUE)
# Export to HTML
table2html(x=x,file=filen) # or
summary(fit) # get output from the console
table2html(file=filen,add.rownames=TRUE)
导出到html或tex中的表格数据:
击上方关注,All in AI中国
我经常告诉我的同事和其他程序员一些我在R中使用的简单的东西,它们可以帮助我完成需要改进的任务。这些方法从简单的快捷方式、鲜为人知的函数到方便的小技巧都有。
由于R生态系统如此丰富且不断增长,人们往往会错过一些能够帮助他们完成任务的事情。所以我经常得到一些惊讶的反应,就像我从来不知道那样!
这里有十件让我的生活更轻松的事情。如果你已经全部了解它们,很抱歉浪费你的阅读时间,请考虑添加一些评论,其中包含你认为对其他读者有益的其他内容。
我喜欢swith()。它基本上是根据另一个变量的值来选择其值的if语句的一个方便的缩写。我发现当我编写代码时,根据您先前的选择需要加载不同的数据集时,它特别有用。例如,如果您有一个名为animal的变量,并且您想要根据动物是狗、猫还是兔子加载不同的数据集,您可以写下:
data <- read.csv( switch(animal, "dog"="dogdata.csv", "cat"="catdata.csv", "rabbit"="rabbitdata.csv") )
这在Shiny应用程序中特别有用,您可能希望根据一个或多个输入菜单选项加载不同的数据集甚至环境文件。
这不仅仅是一个R技巧,更多是关于RStudio IDE的更多内容,但是可用于常用命令的快捷键非常有用,可以节省大量的输入时间。我最喜欢的是Ctrl + Shift + M用于管道运算符%>%,用Alt + - 用于赋值运算符< - 。如果你想看到一整套这些很棒的快捷方式,只需在RStudio中键入Atl + Shift + K即可。
如果您希望快速启动Shiny仪表板,并且操作简单,那么flexdashboard软件包可以满足您的一切需求。它提供了简单的HTML快捷方式,可以轻松构建侧边栏,并将显示组织成行和列。它还有一个超级灵活的标题栏,您可以将应用程序组织到不同的页面,并放入图标和指向Github代码或电子邮件地址或其他任何内容的链接。作为在RMarkdown中运行的软件包,它还允许您将所有应用程序保存在一个Rmd文件中,而不是需要将其分解为单独的服务器和UI文件,例如shinydashboard。每当我需要创建仪表板的简单原型版本,然后再将其转移到更高级的设计时,我就会使用flexdashboard。我经常可以使用flexdashboard在一小时内启动并运行仪表板。
R Shiny开发可能令人沮丧,特别是当您收到通用错误消息时,无法帮助您了解底层出现的问题。随着Shiny的发展,越来越多的验证和测试功能被添加,以帮助更好地诊断和警告特定发生的错误。req()函数允许您阻止操作发生,除非环境中存在另一个变量,但是静默地执行操作而不显示错误。因此,您可以使UI元素的显示以先前的操作为条件。例如,参考我上面的例子1:
output$go_button <- shiny::renderUI({ # only display button if an animal input has been chosen shiny::req(input$animal) # display button shiny::actionButton("go", paste("Conduct", input$animal, "analysis!") ) })
在呈现输出之前进行validate()检查,并且如果某个条件未满足,则允许您返回定制的错误消息,例如,如果用户上载了错误的文件:
# get csv input file inFile <- input$file1 data <- inFile$datapath # render table only if it is dogs shiny::renderTable({ # check that it is the dog file, not cats or rabbits shiny::validate( need("Dog Name" %in% colnames(data)), "Dog Name column not found - did you load the right file?" ) data })
如果要共享需要登录凭据到数据库之类的代码,则可以使用系统环境来避免将这些凭据发布到Github或其他可能存在风险的空间。您可以将凭据作为命名环境变量放在R会话中,例如:
然后在共享脚本中,您可以使用这些环境变量登录。例如:
# get csv input file inFile <- input$file1 data <- inFile$datapath # render table only if it is dogs shiny::renderTable({ # check that it is the dog file, not cats or rabbits shiny::validate( need("Dog Name" %in% colnames(data)), "Dog Name column not found - did you load the right file?" ) data })
更方便的是,如果你经常使用这些凭证,你可以在操作系统中将它们设置为环境变量,这样当你在R中工作时它们总是可用,但你不必在你的代码中显示它们。
您的代码可能不像您所希望的那样整洁,您没有时间对其进行编辑。stylerpackage具有许多功能,允许自动重新编码代码以匹配tidyverse风格。它非常简单,就像在你的凌乱脚本上运行styler :: style_file(),它将为你做很多(虽然不是全部)工作。
所以你写了一个可爱的R Markdown文档,你已经分析了很多关于狗的事实。然后你会被告知 - '不,我对猫更感兴趣。如果将R标记文档参数化,则只需一个命令就可以自动生成关于猫的类似报告。
您可以通过在R Markdown文档的YAML标题中定义参数,并为每个参数赋值来完成此操作。例如:
现在,您可以将这些变量写入文档中的R代码,如params 和
years_of_study。如果您正常编织文档,它将根据值变量使用这些参数的默认值进行编织。但是,如果您通过在RStudio的Knit下拉列表中选择此选项来编织参数(或使用knit_with_parameters()),则会出现一个可爱的菜单选项,您可以在编织文档之前选择参数。
用参数编织
revealjs是一个包,它允许您使用带有嵌入式R代码的直观幻灯片导航菜单以HTML格式创建精美的演示文稿。它可以在R Markdown中使用,并且具有非常直观的HTML快捷方式,允许您使用各种样式选项创建漂亮幻灯片的嵌套逻辑结构。演示文稿是用HTML表示的,这意味着人们可以通过他们的平板电脑或手机听你说话,这非常方便。您可以通过安装包然后在YAML标头中调用它来设置revealjspresentation。这是我最近使用revealjs发表的演讲的YAML标题示例
-- title: "Exporing the Edge of the People Analytics Universe" author: "Keith McNulty" output: revealjs::revealjs_presentation: center: yes template: starwars.html theme: black date: "HR Analytics Meetup London - 18 March, 2019" resource_files: - darth.png - deathstar.png - hanchewy.png - millenium.png - r2d2-threepio.png - starwars.html - starwars.png - stormtrooper.png ---
这是一个示例页面。您可以在此处找到代码和演示文稿hr_meetup_london/presentation.Rmd at master · keithmcnulty/hr_meetup_london · GitHub
使用revealjs轻松进行在线演示
大多数人没有充分利用R Shiny中提供的HTML标签。有110个标签提供各种HTML格式和其他命令的快捷方式。最近我构建了一个应用程序,花了很长时间来执行任务。知道用户在等待它完成时可能会出现多任务,我使用标签$ audio让应用程序大肆宣传,以便在任务完成时提醒用户。
这个赞美包非常简单但也很棒,给用户带来了好评。虽然这看起来像是毫无意义的自我钦佩,但它实际上在编写R包时非常有用,如果他们做正确的事情,例如如果一个过程成功完成,你可以向某人提供赞美或鼓励。您也可以将它放在复杂脚本的末尾,以便在成功运行时为您提供额外的快乐。
最初我是一名纯数学家,然后我成为了一名心理测量学家和一名数据科学家。我热衷于将所有这些学科的严谨性应用于复杂的人们问题。我也是一名编码极客,也是日本角色扮演游戏的忠实粉丝。
*请认真填写需求信息,我们会在24小时内与您取得联系。