线性建模是任何对使用数据进行预测或对变量之间的关系进行推断感兴趣的人的基础数据技能。
对于大数据分析师来说,能够建立线性模型是绝对必要的,但是数据分析师甚至业余爱好者也可以从线性建模的功能中受益匪浅。
大数据分析R中的线性建模(R路径中的 Data Analyst中的最新课程)将彻底教会您该技能。您准备好动手开始建模吗?
从线性建模里面学到什么?
大数据分析R中的线性建模将教您如何使用模型进行预测和推理,从而从数据中获取更多收益。同样重要的是,它会教您如何在建立,评估和在不同类型的模型之间进行选择时积累经验,从而评估这些预测和推论的准确性。
在整个过程中,您将使用我们的交互式,浏览器内编码界面。这意味着您将动手实践,并在学习它们时使用R代码应用这些概念。
您将通过学习构建和选择模型的基础知识来开始本课程,这不仅是线性建模方面的技能,而且是未来机器学习中所有技能的要求。我们将详细介绍预测模型和可帮助您进行推断以确定哪些变量影响结果的模型。
接下来,您将逐步完成在R中实际构建线性模型的逐步过程,并了解有关如何选择输入变量以进行准确的预测或推断的更多信息。
建立初始模型后,您将深入研究如何进行拟合。在R中拟合模型很简单,但要更加了解输出的含义。在本课程中,您将学习有效地解释结果,以便得出有益的结论。
然后,我们将更深入地评估您的模型。您将学习计算残差标准误差和R平方,如何可视化残差,以及如何使用这些方法更好地了解模型的优缺点。
从头到尾构建了一个模型之后,您将开始使用Broom软件包快速,高效地拟合,分析和可视化多个线性模型,从而创建多个模型。
最后,您将负责将所有这些新知识整合到一个指导项目中,该任务将指导您分析真实的纽约房地产价格,以使用线性模型进行预测。
在课程结束时,您将对建模的基础有深入的了解,并且将有信心在R中建立,拟合和评估线性模型。大数据分析R语言如何进行线性分析https://www.aaa-cg.com.cn/data/2293.html您还将获得课程结业证书和完善的产品组合该项目使用真实的房地产数据来突出您在工作申请中的新技能。
为什么要学习大数据分析R语言线性建模?
线性建模是一种经过实践检验的预测和推理方法。如果您一直在R路径上与我们的数据分析师合作,那么您已经学会了分析数据。学习线性建模可以使您更进一步,从而可以对未来进行预测。
如果您的目标是从事数据科学工作,那么了解线性建模将是课程的重要内容。即使您打算将大部分时间花在使用更高级的机器学习应用程序上,您在本课程中学习的基础知识对于理解各种机器学习模型类型也至关重要。
但是,即使您根本不想担任数据科学家或全职使用数据,线性建模也是一项有用的技能,可让您释放数据的预测能力,同时甚至对于数据爱好者来说也相对容易使用。无论您是分析师还是只是想从他们的数据中获得更多收益的人,学习线性建模都是实现该目标的好方法,同时如果您感兴趣的话,还可以为机器学习的未来研究奠定基础。
相关推荐
了一段时间分析后,你是否会感觉分析结果还停留在数据表面现象,如果你和我有同感,请耐心读完本篇文章,会受益匪浅。接下来一段时间,本人也会深入研究统计学方面的知识。因为学了统计学,你会发现很多时候的分析并不靠谱。比如很多人都喜欢用平均数去分析一个事物的结果,但是这往往是粗糙的,不准确的。如果学了统计学,那么我们就能以更多更科学的角度看待数据。更深层次的挖掘出数据背后的价值!统计学是数据分析的基石。
本文通过使用 Python+Pandas+Statsmodels 建立简单一元线性回归模型、多元线性回归模型来预测世界幸福指数。
通过一个实际的案例,了解使用线性回归建模的过程,测试、分析。
《世界幸福指数报告》是对全球幸福状况的一次具有里程碑意义的调查。
民意测验机构盖洛普从 2012 年起,每年都会在联合国计划下发布《世界幸福指数报告》,报告会综合两年内 150 多个国家的国民对其所处社会、城市和自然环境等因素进行评价后,再根据他们所感知的幸福程度对国家进行排名。
《世界幸福指数报告》的编撰主要依赖于对 150 多个国家的 1000 多人提出一个简单的主观性问题:“如果有一个从 0 分到 10 分的阶梯,顶层的 10 分代表你可能得到的最佳生活,底层的 0 分代表你可能得到的最差生活。你觉得你现在在哪一层?”
那么哪个国家在总体幸福指数上排名最高?哪些因素对幸福指数的影响最大?今天我们就用 Python+Pandas+Statsmodels 来聊一聊。
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
【因变量】 我们选择 happiness(幸福指数) 作为因变量,该变量度量了各个国家的幸福指数。
【自变量】我们选择了影响幸福的六个因素,比如 GDP、健康预期寿命、自由权、慷慨程度、清廉指数、社会支持。
import pandas as pd
import numpy as np
# 可视化
import matplotlib.pyplot as plt
import seaborn as sns
import plotly as py
import plotly.graph_objs as go
import plotly.express as px
from plotly.offline import init_notebook_mode, iplot, plot
init_notebook_mode(connected=True)
plt.style.use('seaborn')
# 读入数据
df_2015 = pd.read_csv('./deal_data/2015.csv')
df_2016 = pd.read_csv('./deal_data/2016.csv')
df_2017 = pd.read_csv('./deal_data/2017.csv')
df_2018 = pd.read_csv('./deal_data/2018.csv')
df_2019 = pd.read_csv('./deal_data/2019.csv')
# 新增列-年份
df_2015["year"] = str(2015)
df_2016["year"] = str(2016)
df_2017["year"] = str(2017)
df_2018["year"] = str(2018)
df_2019["year"] = str(2019)
# 合并数据
df_all = df_2015.append([df_2016, df_2017, df_2018, df_2019], sort=False)
df_all.drop('Unnamed: 0', axis=1, inplace=True)
df_all.head()
print(df_2015.shape, df_2016.shape, df_2017.shape, df_2018.shape, df_2019.shape)
data = dict(type = 'choropleth',
locations = df_2019['region'],
locationmode = 'country names',
colorscale = 'RdYlGn',
z = df_2019['happiness'],
text = df_2019['region'],
colorbar = {'title':'Happiness'})
layout = dict(title = 'Geographical Visualization of Happiness Score in 2019',
geo = dict(showframe = True, projection = {'type': 'azimuthal equal area'}))
choromap3 = go.Figure(data = [data], layout=layout)
plot(choromap3, filename='./html/世界幸福地图.html')
结论:整体来看,北欧的国家幸福指数较高,如冰岛、丹麦、挪威、芬兰;东非和西非的国家幸福指数较低,如多哥、布隆迪、卢旺达和坦桑尼亚。
# 合并数据
rank_top10 = df_2019.head(10)[['rank', 'region', 'happiness']]
last_top10 = df_2019.tail(10)[['rank', 'region', 'happiness']]
rank_concat = pd.concat([rank_top10, last_top10])
# 条形图
fig = px.bar(rank_concat,
x="region",
y="happiness",
color="region",
title="World's happiest and least happy countries in 2019")
plot(fig, filename='./html/2019世界幸福国家排行Top10和Last10.html')
# 热力图
plt.figure(figsize=(25, 20))
sns.heatmap(df_all.corr(), cmap='rainbow', linewidths=0.1, annot=True)
plt.title('Correlation between numeric variables', fontsize=18)
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.show()
结论:从影响因素相关性热力图可以看出,在影响幸福得分的因素中,GDP、社会支持、健康预期寿命呈现高度相关,自由权呈现中度相关,国家的廉政水平呈现低度相关,慷慨程度则呈现极低的相关性;
GDP 与健康预期寿命、社会支持之间存在高度相关。说明 GDP 高的国家,医疗水平和社会福利较为完善,人民的预期寿命也会越高;
健康预期寿命与社会支持之间存在中度相关性。
# 散点图
fig = px.scatter(df_all, x='gdp_per_capita',
y='happiness',
facet_row='year',
color='year',
trendline='ols'
)
fig.update_layout(height=800, title_text='GDP per capita and Happiness Score')
plot(fig, filename='./html/GDP和幸福得分.html')
结论:人均 GDP 与幸福得分呈高度线性正相关关系,GDP 越高的国家,幸福水平相对越高
# 散点图
fig = px.scatter(df_all, x='healthy_life_expectancy',
y='happiness',
facet_row='year',
color='year',
trendline='ols'
)
fig.update_layout(height=800, title_text='Healthy Life Expecancy and Happiness Score')
plot(fig, filename='./html/健康预期寿命和幸福得分.html')
结论:健康预期寿命与幸福得分呈高度线性正相关关系,健康预期寿命越高的国家,幸福水平相对越高。
fig = px.scatter(df_all,
x='healthy_life_expectancy',
y='happiness',
animation_frame='year',
animation_group='region',
size='rank',
color='region',
hover_name='region',
trendline='ols'
)
fig.update_layout(title_text='Happiness Rank vs healthy_life_expectancy')
plot(fig, filename='./html/健康预期寿命和幸福水平动态图展示.html')
fig = px.scatter(df_all,
x='healthy_life_expectancy',
y='happiness',
animation_frame='year',
animation_group='region',
size='rank',
color='region',
hover_name='region',
trendline='ols'
)
fig.update_layout(title_text='Happiness Rank vs healthy_life_expectancy')
plot(fig, filename='./html/健康预期寿命和幸福水平动态图展示.html')
我们使用线性回归进行建立一个基准模型,首先筛选一下建模变量,并删除空值记录。
from statsmodels.formula.api import ols
sel_cols = ['happiness', 'gdp_per_capita', 'healthy_life_expectancy',
'freedom_to_life_choise', 'corruption_perceptions', 'generosity']
# 重置索引
df_model.index = range(df_model.shape[0])
df_model = df_all[sel_cols]
# 删除空值
df_model = df_model.dropna()
df_model.head()
本文使用最小二乘法来建模,它是很基础、很强大的方法,应用非常广泛。
最小二乘法通过使得因变量观测值与因变量估计值之间的残差平方和达到最小的方法,得到估计的回归方程。最小二乘准则就是选择能与样本数据有最佳拟合方程的准则。
最小二乘法建立在假定之上,如果假设成立,建立的模型可以用来较准确地预测数据。反之,假设不成立,模型论断将失去其有效性。
最小二乘法假定:
1)线性关系:假定因变量与自变量之间存在线性关系。如果不存在线性关系,线性回归不是解释数据的正确模型。
2)无多重共线性:因变量之间不存在相关性。如果某些因变量之间存在密切联系,可以尝试删去其中一个或多个相关的因变量。因为多余的因变量提供了冗余信息,剔除多余变量并不会大大降低修正判定系数。
3)零条件均值假定:观测值和线性拟合估计值之间的平均残差为 0。有时候观测值和估计值相比,偏大;有时候偏小,但之间的残差不会无控制地偏向于一群值。
4)同方差:对于自变量的不同取值,因变量的误差项都是独立的,方差是相同的。
5)无自相关性 / 序列相关:自相关是指一个变量同自身其他观测值有相互关系。比如,如果今天的股票价格影响着明天的股票价格,那么股票价格就是序列相关的。
简单线性回归使用一个自变量来预测一个因变量,二者之间的关系可以用一条直线近似表示。
简单线性回归模型:
我们将使用 statsmodels 中 ols 功能,构建 happiness 同 gdp_per_capita 之间的模型。
Statsmodels 是一个很强大的 Python 库,用于拟合多种统计模型,执行统计测试以及数据探索和可视化。
对于线性回归 linear regression,我们可以使用 Statsmodels 库中最小二乘法 OLS(Ordinary-Least-Square)的功能来实现,可以得到丰富的数据信息。
# 建立简单线性回归模型
lm_m = ols(formula='happiness ~ gdp_per_capita',
data=df_model).fit()
lm_m.summary()
1) 修正判定系统 Adj.R-squared:63.3%。幸福指数变异性的 63.3% 能被其与 gdp_per_capita 之间的线性关系解释。
2)回归系数:2.19。代表 GDP 每增加一个单位,幸福指数将增加 2.19 个单位。和我们常识理解的想法一致,GDP 增加,幸福指数会增加。
3)回归系数的标准误差 stand error:0.061,即β的估计的标准差。通过每年的 GDP 数据,可以计算得到回归系统的标准误差。回归系数标准误差,是量度结果精密度的指标。这里计算得出的标准误差为 0.061,数值很小,说明精确度还是不错的。
( 补充:标准差是表示个体间变异大小的指标, 反映了整个样本对样本平均数的离散程度, 是数据精密度的衡量指标; 而标准误反映样本平均数对总体平均数的变异程度, 从而反映抽样误差的大小 , 是量度结果精密度的指标。)
4)p - 值为 0%。根据简单线性回归显著性的 t 检验,原假设 happiness 同 gdp_per_capita 之间不存在线性关系,β为 0。而现在 p 值为 0%,小于显著性水平 0.05。所以拒绝原假设,β显著不等于 0。我们足以断定,happiness 同 gdp_per_capita 之间存在一个显著的关系。
5)β的 63% 的置信区间:2.076 ~ 2.315。我们有 63% 的信心,回归系数β将落在置信区间 [2.076,2.315]中。换个角度来讲,简单线性回归显著性的 t 检验,假设β为 0,而β=0 并没有包含在上述置信区间内,所以我们可以拒绝原假设,断定 happiness 同 gdp_per_capita 之间存在一个显著的关系。
我们知道仅仅考虑 GDP 是不能完全解释幸福指数的。为了更加准确地分析影响幸福指数因素,应该引入一些不同的自变量来分析,看看哪些自变量的组合更优地满足 OLS 最小二乘假定。这里利用六个自变量来测试一下。
from statsmodels.formula.api import ols
# 建立多元线性回归模型
lm_m = ols(formula='happiness ~ gdp_per_capita + healthy_life_expectancy + freedom_to_life_choise + corruption_perceptions + generosity',
data=df_model).fit()
lm_m.summary()
1) 修正判定系统 Adj.R-squared 从之前的 63.3%% 上升到 74.3%。房屋价格指数变异性的 74.3% 能被其与多个自变量之间的线性关系解释。
2)回归系数: 控制其他变量不变的情况下,GDP 指数每增加一个单位,幸福指数增加 1.32 个单位,健康预期寿命指数每增加一个单位,幸福指数增加 1.21 个单位。
3)变量重要性排序为:gdp_per_capita、freedom_to_life_choise、healthy_life_expectancy、corruption_perceptions、generosity
5)新引入的自变量的 p 值都小于显著性水平 0.05,说明这些自变量同幸福指数是有显著关系的。考虑到判定系数的增加,更加说明多元线性回归模型在这里是优于简单一元线性回归的。
y_pred = lm_m.predict(df_model[:])
df_pred = pd.concat([df_model['happiness'], y_pred], axis=1)
df_pred.columns = ['y_true', 'y_pred']
# 散点图
fig = px.scatter(df_pred, x='y_true', y='y_pred', trendline='ols')
fig.update_layout(title='Resid of OLS Regression')
plot(fig, filename='./html/预测值和真实值分布图.html')
残差: y 预测值与 y 之间的差值
fig = px.histogram(x=lm_m.resid)
fig.update_layout(title='Resid of OLS Regression')
plot(fig, filename='./html/多元线性回归残差分布图.html')
参考文献:
CDA 数据分析师 :https://www.sohu.com/a/419787355_568359
问题先行,如何使用 CSS 实现下述滚动条效果?
就是顶部蓝色的滚动进度条,随着页面的滚动进度而变化长短。
在继续阅读下文之前,你可以先缓一缓。尝试思考一下上面的效果或者动手尝试一下,不借助 JS ,能否巧妙地实现上述效果。
OK,继续。这个效果是我在业务开发的过程中遇到的一个类似的小问题。其实即便让我借助 Javascript ,我的第一反应也是,感觉很麻烦啊。所以我一直在想,有没有可能只使用 CSS 完成这个效果呢?
第一眼看到这个效果,感觉这个跟随滚动动画,仅靠 CSS 是不可能完成的,因为这里涉及了页面滚动距离的计算。
如果想只用 CSS 实现,只能另辟蹊径,使用一些讨巧的方法。
好,下面就借助一些奇技淫巧,使用 CSS 一步一步完成这个效果。分析一下难点:
正常分析应该是这样的,但是这就陷入了传统的思维。进度条就只是进度条,接收页面滚动距离,改变宽度。如果页面滚动和进度条是一个整体呢?
不卖关子了,下面我们运用线性渐变来实现这个功能。
假设我们的页面被包裹在 <body> 中,可以滚动的是整个 body,给它添加这样一个从左下到到右上角的线性渐变:
body {
background-image: linear-gradient(to right top, #ffcc00 50%, #eee 50%);
background-repeat: no-repeat;
}
复制代码
那么,我们可以得到一个这样的效果:
Wow,黄色块的颜色变化其实已经很能表达整体的进度了。其实到这里,聪明的同学应该已经知道下面该怎么做了。
我们运用一个伪元素,把多出来的部分遮住:
body::after {
content: "";
position: fixed;
top: 5px;
left: 0;
bottom: 0;
right: 0;
background: #fff;
z-index: -1;
}
复制代码
为了方便演示,我把上面白色底改成了黑色透明底,:
实际效果达成了这样:
眼尖的同学可能会发现,这样之后,滑到底的时候,进度条并没有到底:
究其原因,是因为 body 的线性渐变高度设置了整个 body 的大小,我们调整一下渐变的高度:
body {
background-image: linear-gradient(to right top, #ffcc00 50%, #eee 50%);
background-size: 100% calc(100% - 100vh + 5px);
background-repeat: no-repeat;
}
复制代码
这里使用了 calc 进行了运算,减去了 100vh,也就是减去一个屏幕的高度,这样渐变刚好在滑动到底部的时候与右上角贴合。
而 + 5px 则是滚动进度条的高度,预留出 5px 的高度。再看看效果,完美:
至此,这个需求就完美实现啦,算是一个不错的小技巧,完整的 Demo:
CodePen Demo -- 使用线性渐变实现滚动进度条
别人写过的东西通常我都不会再写,这个技巧很早
以前就有看到,中午在业务中刚好用到这个技巧就写下了本文,没有去考证最先发明这个技巧的是谁。
*请认真填写需求信息,我们会在24小时内与您取得联系。