因为最近搞毕业论文,有点忙,加上还有好多粉丝咨询,临近毕业更新就很少了。
今天就写一个非常简单的文章,敷衍一下吧,哈哈哈。
今天要写的就是数据清洗的函数mutate(),这个属于超级基本的内容哦,一般我们拿到数据最头疼应该就是清洗数据了,所以清洗数据的基础一定要牢牢掌握。
还有,如果你想成为一名合格的分析师,其实你只要精通清洗数据就够了,我这么说一点都不夸张。
一个简单数据清洗任务常常包括:
本文就只写最后一个,即在R中使用mutate创建新变量。
mutate的基础知识
在开始之前,我们先谈谈dplyr。
dplyr是R中专门用于数据处理的包。更具体功能包括:
在大多数情况下,dplyr仅执行这些任务。dplyr出色的部分原因在于它“紧凑”。只有5或6种主要工具,并且非常易于使用。
mutate()如何用?
使用时,通常你只需要指定3项内容:
还是给大家举个例子:看下图,mutate()的第一个参数就是数据框,然后就是新变量名=旧变量的某种新式。就是说你可以轻松地以数据框中的原有变量生成新变量。
但是这个函数只能用于数据框,不能在列表,矩阵,向量或其他数据结构中使用。
注意,mutate()的第二个参数是“名称-值”对,就是说我们在创建变量时新变量需要一个名称,但是它也需要一个分配给该名称的值。因此,当使用mutate时,您需要提供名称和新值…即名称/值对。
我们再次看一下刚刚的语法示例:
那么在上图中我们是要创建一个名为的新变量。分配给的值为乘以2的值。在此示例中,变量为原本就存在于数据框df当中的。
就是这么简单。
实例操作
为了加深大家的印象,还是给大家一个实例
library(dplyr)
library(ISLR)
我们使用ISLR包中的Auto数据框给大家演示。
在我们对数据进行实际操作之前,让我们先瞅一瞅它长啥样。
print(Auto)
打印出来时,您会发现数据数据框排列的有些杂乱,我们可以将它转化为tibble打印效果更好。tibble实际上是修改后的数据框。它的优点之一是它们以更好的格式打印出来。
auto_specs <- as.tibble(Auto)
print(auto_specs)
这样好多了。
您可以看到,当我们现在打印出来时,tibble结构更具可读性。
好了。比如我现在需要一个新变量叫做,这个变量是原先 / weight两个变量的比值,我们就可以用使用mutate()写出如下代码:
auto_specs_new <- mutate(auto_specs, hp_to_weight = horsepower / weight)
print(auto_specs_new)
可以看到新的变量已经在这个数据框中了。在R中使用mutate()就是这么简单。
小结
今天给大家写了mutate()如何创建新变量,超级简单的一个教程,感谢大家耐心看完,自己的文章都写的很细,代码都在原文中,希望大家都可以自己做一做,请关注后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏,再点赞转发。
也欢迎大家的意见和建议。
如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供好的,详细和耐心的数据分析服务。
如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节,量表信效度等等统计技巧有任何问题,请私信我,获取详细和耐心的指导。
If you are a student and you are worried about you #, #Data #, #Thesis, #reports, #, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-, #Excel, Mplus, then contact me. Because I could provide you the best for your Data .
Are you with like z-test, t-test, ANOVA, MANOVA, , , Chi-Square, , , SEM, model, and etc. for your Data ...??
Then Contact Me. I will solve your Problem...
加油吧,打工人!
使用PowerDesigner设计数据库
原文链接:
设计数据库有如下6个主要步骤:
1、需求分析:了解用户的数据需求、处理需求、安全性及完整性要求;
2、概念设计:通过数据抽象,设计系统概念模型,一般为E-R模型;
3、逻辑结构设计:设计系统的模式和外模式,对于关系模型主要是基本表和视图;
4、物理结构设计:设计数据的存储结构和存取方法,如索引的设计;
5、系统实施:组织数据入库、编制应用程序、试运行;
6、运行维护:系统投入运行,长期的维护工作。
在此我要说的是使用设计数据库的设计过程,有些地方可能不太正确,望各位高手指正。
一、首先是需求分析,这个不用多说了,不同的数据库有不同的需求,以下是分析这个数据库需求之后设计出来的实体、实体间的关系和表格,其中的字段,属性就不一一列出了:
二、通过这个表格使用设计数据库:
1、概念模型设计
(1)创建模型:
(2)创建表,添加属性字段,根据实体间的对应关系,建立表与表之间的关系。
对于多对多关系的中间表(如角色菜单表),是不能创建的,只需设定它们的对应关系为多对多,在生成逻辑模型时会自动生成这张表,这张表的默认名为多对多的关系名,把这张的表名修改为自己想要的就行了。而“角色菜单操作”表涉及三张表的关联也是不能创建的,这个在物理模型设计时再来解决。
对于表的外键,也是不能添加的,在指定实体关系之后,生成逻辑模型时也会自动添加到表中。
这个时候,有一些表示和其他表之间没什么关联的,它们依赖与多对多生成的表(如操作表),或者和其他表都没什么关系(如数据字典表,这个只需创建好表即可,无须担心),在生成物理模型时对依赖中间表的表可以进行关联。
2、逻辑模型设计
生成逻辑模型
自动生成的角色菜单表:
3、物理模型设计
(1)生成物理模型,指定数据库类型
(2)修改数据类型
生成的数据表中,有些数据类型可能不是你想要的,这个时候就可以打开数据表修改为自己想要的数据类型了:
(3)添加一张新的空表,分别指向角色、菜单、操作这三张表,生成角色菜单关系表:
(4)完成之后Ctrl+C保存所有的到一个新的文件夹中:
4、生成数据库SQL语句
至此数据库的SQL的语句生成了,只需在数据库中创建一个数据库,用来执行这些SQL语句即可。
三、生成数据库设计文档
完成数据库设计之后,关闭,使用数据字典阅读器生成设计文档
还需要在设计文档中填写一些数据字典数据等内容。
到此,所有的设计工作都OK了!
*请认真填写需求信息,我们会在24小时内与您取得联系。