整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Pandas库常用方法、函数集合

andas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。

这里列举下Pandas中常用的函数和方法,方便大家查询使用。

读取 写入

  • read_csv:读取CSV文件
  • to_csv:导出CSV文件
  • read_excel:读取Excel文件
  • to_excel:导出Excel文件
  • read_json:读取Json文件
  • to_json:导出Json文件
  • read_html:读取网页中HTML表格数据
  • to_html:导出网页HTML表格
  • read_clipboard:读取剪切板数据
  • to_clipboard:导出数据到剪切板
  • to_latex:导出数据为latex格式
  • read_sas:读取sas格式数据(一种统计分析软件数据格式)
  • read_spss:读取spss格式数据(一种统计分析软件数据格式)
  • read_stata:读取stata格式数据(一种统计分析软件数据格式)
  • read_sql:读取sql查询的数据(需要连接数据库),输出dataframe格式
  • to_sql:向数据库写入dataframe格式数据

连接 合并 重塑

  • merge:根据指定键关联连接多个dataframe,类似sql中的join
  • concat:合并多个dataframe,类似sql中的union
  • pivot:按照指定的行列重塑表格
  • pivot_table:数据透视表,类似excel中的透视表
  • cut:将一组数据分割成离散的区间,适合将数值进行分类
  • qcut:和cut作用一样,不过它是将数值等间距分割
  • crosstab:创建交叉表,用于计算两个或多个因子之间的频率
  • join:通过索引合并两个dataframe
  • stack: 将数据框的列“堆叠”为一个层次化的Series
  • unstack: 将层次化的Series转换回数据框形式
  • append: 将一行或多行数据追加到数据框的末尾

分组 聚合 转换 过滤

  • groupby:按照指定的列或多个列对数据进行分组
  • agg:对每个分组应用自定义的聚合函数
  • transform:对每个分组应用转换函数,返回与原始数据形状相同的结果
  • rank:计算元素在每个分组中的排名
  • filter:根据分组的某些属性筛选数据
  • sum:计算分组的总和
  • mean:计算分组的平均值
  • median:计算分组的中位数
  • min和 max:计算分组的最小值和最大值
  • count:计算分组中非NA值的数量
  • size:计算分组的大小
  • std和 var:计算分组的标准差和方差
  • describe:生成分组的描述性统计摘要
  • first和 last:获取分组中的第一个和最后一个元素
  • nunique:计算分组中唯一值的数量
  • cumsum、cummin、cummax、cumprod:计算分组的累积和、最小值、最大值、累积乘积

数据清洗

  • dropna: 丢弃包含缺失值的行或列
  • fillna: 填充或替换缺失值
  • interpolate: 对缺失值进行插值
  • duplicated: 标记重复的行
  • drop_duplicates: 删除重复的行
  • str.strip: 去除字符串两端的空白字符
  • str.lower和 str.upper: 将字符串转换为小写或大写
  • str.replace: 替换字符串中的特定字符
  • astype: 将一列的数据类型转换为指定类型
  • sort_values: 对数据框按照指定列进行排序
  • rename: 对列或行进行重命名
  • drop: 删除指定的列或行

数据可视化

  • pandas.DataFrame.plot.area:绘制堆积图
  • pandas.DataFrame.plot.bar:绘制柱状图
  • pandas.DataFrame.plot.barh:绘制水平条形图
  • pandas.DataFrame.plot.box:绘制箱线图
  • pandas.DataFrame.plot.density:绘制核密度估计图
  • pandas.DataFrame.plot.hexbin:绘制六边形分箱图
  • pandas.DataFrame.plot.hist:绘制直方图
  • pandas.DataFrame.plot.line:绘制线型图
  • pandas.DataFrame.plot.pie:绘制饼图
  • pandas.DataFrame.plot.scatter:绘制散点图
  • pandas.plotting.andrews_curves:绘制安德鲁曲线,用于可视化多变量数据
  • pandas.plotting.autocorrelation_plot:绘制时间序列自相关图
  • pandas.plotting.bootstrap_plot:用于评估统计数据的不确定性,例如均值,中位数,中间范围等
  • pandas.plotting.lag_plot:绘制时滞图,用于检测时间序列数据中的模式、趋势和季节性
  • pandas.plotting.parallel_coordinates:绘制平行坐标图,用于展示具有多个特征的数据集中各个样本之间的关系
  • pandas.plotting.scatter_matrix:绘制散点矩阵图
  • pandas.plotting.table:绘制表格形式可视化图

日期时间

  • to_datetime: 将输入转换为Datetime类型
  • date_range: 生成日期范围
  • to_timedelta: 将输入转换为Timedelta类型
  • timedelta_range: 生成时间间隔范围
  • shift: 沿着时间轴将数据移动
  • resample: 对时间序列进行重新采样
  • asfreq: 将时间序列转换为指定的频率
  • cut: 将连续数据划分为离散的箱
  • period_range: 生成周期范围
  • infer_freq: 推断时间序列的频率
  • tz_localize: 设置时区
  • tz_convert: 转换时区
  • dt: 用于访问Datetime中的属性
  • day_name, month_name: 获取日期的星期几和月份的名称
  • total_seconds: 计算时间间隔的总秒数
  • rolling: 用于滚动窗口的操作
  • expanding: 用于展开窗口的操作
  • at_time, between_time: 在特定时间进行选择
  • truncate: 截断时间序列

、html概述

1、html标签是用来给文本添加语义的,而不是用来修饰文本的;

2、<meta charset="GBK">指定字符集(GB2312、UTF-8),html保存和指定字符一样,才不会乱码;

3、<!DOCTYPE html> DTD文档申明告诉浏览器我用的什么协议来写的,不是html标签;

4、webstorm快捷键大全:https://www.cnblogs.com/yeminglong/p/5995421.html

二、基础标签

1、h、p 和 hr 标签

  • 三个标签都是占一行

2、注释:<!-- -->

3、图片:<img src=" ">

  • 不会独占一行;
  • 保证不变形,指定宽或者高即可;
  • title 和 alt 属性;
  • src 可以是相对路径(../ 上一级)和绝对路径,路径中尽量不含中文,相对路径不可跨盘符,路径分隔统一写 / ,绝对路径的可移植性不好;

4、换行:<br> 用于内容未完的换行

5、跳转:<a href=" "></a>

  • 支持文字和图片的跳转;
  • 地址必须加 http 或者 https;
  • href 可以指定本地的地址;
  • target(_self 和 _blank) 属性控制跳转是否打开新的选项卡;
  • title 提示作用;

6、base 标签:<base target="_self ">

  • 统一指定 a 标签怎么打开,写在 head 中

7、假链接:点击不会跳转

  • a 标签的 href 属性值为 # 或者 javascript
  • # 会跳转到页面的顶部,而 js 不会

8、锚点:<a href="#id值"><\a>

  • 可以跳转到页面的指定位置
  • 可以跳转到其他页面的指定位置,只需在 # 前面加上页面的路径即可
  • 跳转无过度动画

三、列表标签

1、无序列表(!)

  • <ul><li><\li><\ul>;
  • 整体不可分割;
  • ul 除了 li 不建议再加其他的标签,li 标签中可以放其他标签来丰富内容;
  • li 中还可嵌套列表;
  • ws快捷生成 ul>li*3>h2+p;

2、有序列表(*)

  • <ol><li><\li><\ol>;

3、定义列表

  • dt 是标题,dd 是具体的描述;
  • 推荐一个 dt 一个 dd ,也可以一个 dt 对多个 dd 或者没有 dd;
  • dl 中不建议加其他标签,二 dt 和 dd 可以加;
  • 应用:网站尾部,图文混排(仿京东做个网站的尾部);

四、表格标签

1、格式

  • 表格的边框默认不显示(border)

2、属性

(1)宽高

  • table 和 td 可用;
  • 默认高宽根据内容调整;
  • td 设置高宽只会改变当前单元格的状态,而不会改变 table 的高宽;

(2)水平和垂直对齐(align 和 valign)

  • 水平对齐三个都可以用,而垂直对齐针对 tr 和 td;
  • table 设置 align 控制表格在水平方向的对齐,给 tr 和 td 设置都是控制单元格里的内容的对齐方式,不过 tr 影响一行,td 影响一个,tr 和 td 都设置 td 会覆盖 tr 的效果;
  • tr 和 td 设置 valign 都是控制单元格内容的垂直方向的对齐,不过 tr 影响一行,td 影响一个,tr 和 td 都设置 td 会覆盖 tr 的效果;

(3)内边距和外边距(cellpadding 和 cellspacing)

  • 两个属性都是 table 的;
  • 外边距是指格子与格子之间的空隙,而内边距是指格子与文字之间的间隙;

(4)细线表格

  • 先给 table 设置 bgcolor;
  • 再给 tr 设置 bgcolor;
  • 最后 table 设置 cellspacing;

3、表格的其他标签

(1)caption:表格的标题标签,必须写在 table 内而且需紧跟 table

(2)th:th 和 td 同级,th 有加粗的效果

4、表格的结构

(1)组成:caption 标题、thead 表头、tbody 主体、tfoot 尾部

(2)说明:

  • 浏览器自动添加 tbody;
  • table 设置高度后,tfoot 和 thead 的高度是不会变化的;

5、单元格的合并

(1)水平方向:td 属性 colspan = "2";

(2)垂直方向:td 属性 rowspan = "2";

五、表单标签

1、格式

2、input 标签

(1)type = text:

(2)password:

(3)radio:互斥要设置 name 相同;默认选中 checked

(4)checkbox:选中 checked

(5)button:

(6)image:

(7)reset:value 修改标题

(8)submit:

  • form 的 action 确定提交的地址
  • 提交数据加 name 属性

(9)hidden:

-----------------------------------------------------------------------------------------------------------------------

*相关标签:

  • label 标签:让文字与 input 标签绑定;两种绑定的方式:

  • datalist 标签:给输入框绑定输入的提示:<datalist><option>haha</option></datalist>
  • h5 中新增的 input 标签:email 、url 、number 、color、date(浏览器的支持不好)

3、非 input 标签

(1)select

(2)textarea

  • cols 和 rows 指定输入的行列,但是还是可以无限输入
  • 默认可拉伸,也可通过 css 固定大小

4、练习

(1)表单标签除了 button 外都可以用 value 来指定提交的值

(2)表单添加边框可以在 form 中添加 fieldset 来实现

六、多媒体标签

1、video 标签

(1)格式:<video src=" " autoplay="autoplay"></video>;

(2)属性:controls(控制条)poster(海报)loop(循环)preload(预加载,与autoplay冲突)muted(静音)width/height;

3)另一种 video 格式:解决浏览器的兼容

(4)让所有的浏览器支持 video 标签:通过 js 框架来实现

2、audio 标签

(1)使用基本和 video 一样,属性只有宽高和 poster 不能用,也是两种格式

3、details 和 summary 标签

(1)格式:

4、marquee标签(跑马灯效果)

(1)w3c 不推荐,但是浏览器的支持好

(2)属性:direction(方向)scrollamount(滚动的速度)loop(滚动次数,默认-1)behavior(滚动类型 slide)

(3)废弃的标签:<br><hr><font><b>加粗<u>下划线<i>斜体<s>删除线(无语义)

替代的标签:<strong><ins><em><del>(加入了语义)

5、字符实体

(1)&nbsp;空格 &lt;&gt; &copy;版权符号

(2)理解:html 占用了的不显示的特殊字符用另外的代替符号表示,使他们正常在 html 页面上显示

、Html的基本结构:

<!DOCTYPE html>

<html>

<head>

<meta charset=utf-8">

<title></title>

</head>

<body>

网页的文本、图片等信息;

</body>

</html>

二、Head部分:用于表示网页的元数据即描述网页的基本信息

其常用标签及属性有:

1、title标签:浏览器标签页显示的标题

2、meta标签:其常用属性

①charset:设置文档的字符集编码格式。HTML5中设置字符集编码:<meta charset="UTF-8">

常见的字符集编码格式:

a.GB-2312:国标码,简体中文

b.GBK:扩展的国标码

c.UTF-8:万国码 Unicode 常用

②http-equiv属性:将我们的信息写给浏览器看,让浏览器按照这里面的要求执行,可选属性值:Content-Type(文档类型) refresh(网页定时刷新) set-cookie(设置浏览器cookie缓存) 需要配合content属性使用。(http-equiv属性只是表明需要设置哪一部分,具体的设置内容,放到content属性中)

③name属性:使用方法同“http-equiv”。将我们的信息写给搜索引擎看

常用且需要掌握的属性值:author(作者) keywords(网页关键字) description(网页描述) 这两个属性设置,网页必不可少。

3、link标签:链接网页图标(title前的小logo),其常用属性有:

①rel属性:声明链接文件的类型,此处选icon

②type属性:可以省略

③href属性:表示图片的路径地址

三、body部分:网页的文本、图片等信息

标签的分类:

块级标签:显示为块,前后隔一行(自动换行)

行级标签:按行从左往右逐一显示。

1、 常见的块级标签:

①<h1></h1>......<h6><h6>:标题标签,自动加粗,h1最大,h6最小。

②<hr/>:水平线标签,添加一条水平线。

③<p></p>:段落标签,

④<br/>:换行标签,

⑤<blockquote/></blockquote>:引用标签,cite属性,表明引用的来源,一般引用网址

浏览器默认首行缩进。

⑥<pre></pre>:预格式标签,用于重载代码。浏览器默认显示样式:1、显示为等宽字体。 2、代码中的换行、

空格等元素能在浏览器中显示。

【补充】html 文件中空格的表示:

2、 基于布局的块级标签

列表:无序列表、有序列表、定义列表

①有序列表:<ol></ol> 列表项:<li></li>

②无序列表:<ul></ul> 列表项:<li></li>

③定义列表(实现图文混排):<dl></dl>

列表标题:<dt>一般只有一项</dt>

列表描述项:<dd>可以有很多项</dd>

3、组合标签:<figure></figure>用于显示图片及图片标题

他有两个子标签:<img />图片

<figcaption></figcaption>图片的标题

例如:<figure>

<img src="img/EZ.jpg" height="20%" width="20%" alt="探险家"/>

<figcaption>探险家 伊泽瑞尔</figcaption>

</figure>

4、分区标签:<div></div>

5、常见的行级标签

<1>span(文本):无实际意义,用于包裹某部分文字,修改特定样式,例如:

这是<span style="color: red;font-size: 36px;">span</span>中的文字

img(图片):其常用属性:①src:表示引用图片的地址。

路径地址的写法:相对路径:以当前文件为最准,去寻找图片地址

a、与文件处于同一层的图片,直接写图片名

b、图片在当前文件下一层:文件名/图片名

c、图片在当前文件上一层:../图片名

绝对路径:file:///盘符:/文件夹/图片名,但 是严禁使用

图片网址:网络上的图片链接,但是一般不用

②height和width:图片的高度和宽度。可以用CSS样式代替

③title:图片标。当鼠标指上之后显示的文字

④alt:当图片无法显示的时候,显示的文字

<2>em(倾斜强调)

<3>strong(加粗强调)

<4>b(加粗)

<5>i(倾斜)

Strong、em、b、i的区别

1、Strong、em都表示强调,Strong为粗体,em为斜体,而Strong的强调 程度逗比em高

2、Strong和b都能加粗,em和i都能倾斜,,但是Strong和em多了一层强调的语义 。H5要求标签尽可能实现语义化。

<6>q(短引用)

<7>small/big(缩小/放大字体):small和big分别是缩小和扩大字体,都可以多层嵌套直至上限或下限

<8>a(超链接)

1、href:超链接的路径,可以是网络链接,也可以是本地文件。

2、target:跳转页面打开的位置。_self自身页面,_blank新页面。

3、title:鼠标指在超链接上显示的名称。

4、Rel(被链接是当前的前/后一篇):指定被链接文档与当前文档的关系,搜索引擎 会利用该属性 获取更多的有关链接的信息:

rel="prev"被链接文档是当前文档的前一篇文 档,

rel="next"被链接文档是当前文档的后一篇文档,

rel="icon"被链接文档是当前文档的图标

rel="stylesheet"被链接文档是当前文档的样式表

5、Rev(当前是被链接的前/后一篇)

锚链接:

①本页面锚链接:a、设置锚点:<a name="top"></a>

b、跳转锚点:#name名

①页面间锚链接:a、在即将跳转页面的指定位置设置锚点

b、跳转锚点:页面地址.html#name名

<a href="02_常见的块级标签.html#Hbuilder">页面间锚链接</a><br/>

功能性链接: mailto用于给指定邮箱发送邮件

file:///e:/aaa.png打开本地文件

tencent://message/?uin=1315618220 给指定QQ发送息

<9>s标签,有误文本:删除线

<s>这是S标签中的文字</s><br />

<10>cite标签:浏览器显示为倾斜,常用于书、画作、作品的引用

<cite>这是cite中的文本</cite><br />

<11>code:计算机代码,不保留代码格式

<pre>

<code></code>

</pre>

<12>bdo:表示文本方向,属性:dir="ltr"表示从左往右,dir="rtl"表示从右往左

<bdo dir="rtl">1234567</bdo><br />

kbd:表示需要用户用键盘输入的内容,浏览器显示为等宽字体

请输入“<kbd>Esc</kbd>”推迟系统<br />

<13>sup:上标文本,sub:下标文本

x<sub>6</sub><br />

© © 空格

© © 空格 <br />

<14>u:下划线

<u>这是下划线</u><br />

mark:高亮或标记文本,浏览器显示为黄色背景

<mark>mark</mark><br />

6、表格:表格的行:tr,每行中的列:td,表格的表头:th

表格的常用属性:

表格行列属性:[tr和td的属性]:

1、width/heigh:单元格的宽高

2、bgcolor:单元格的背景颜色

3、align:left center right 单元格中的文字水平对齐方式

4、valign:top center bottom 单元格中的文字垂直对其方式

5、nowrap:单元格中文字不换行

【注意】当表格属性与行列属性冲突时,行列属性优先级高

7、表单(form)

【两个重要属性】:action-表单提交的服务器地址 method-表单提交数据的方法(get/post)

get/post区别:

1>get使用URL传参:http://服务器地址?name1=value1&name2=value2

(?表示传递参数,?后面采用name=value的形式传递,多个参数之间用&连接) ① URL传参不安全,所有信息可在地址栏看到,并且别人可以很容易url注入,来 攻击自己的数据库。

② URL传参数据量有限,只能传递少量数据。

2>post:使用http请求传递数据。URL地址看不到数据信息,安全且传递信息量没有限制

综上所述:大部分使用post传参,但是get传参比Post快

【input标签及属性】

①type:input输入框的类型,可选值有:

②name:input输入框的别名,必填,因为传参的时候采用name=value的形式传递。

③value:input输入框的默认值

④placeholder:提示内容,当输入框有value时,提示内容消失。

【input特殊属性值】

① checked="checked"默认选中

② disabled="disabled"设置控制不能使用,按钮上不能点击,输入框上不能修改,而且如果

输入框时disabled,则输入框信息不传递到后台

③hidden=“hidden”隐藏。等同于<input type="hidden" name="username"value="1234" />

等同于配合disabled或根据其他需要,使用隐藏域传递信息.

【input-type属性详解】

①text:文本输入框

②password:密码输入框,内容不对外显示

③radio:单选按钮

checkbox:复选按钮

a、单选按钮,name和value属性需同时存在,提交时,提交的是value中的属性值

例如:<input type="radio" name="sex" value="男"/>提交显示为"sex=男"

b、radio凭借name属性区分是否为同一组,name相同为同组,且只能选择一个

c、checked="checked"默认选中,(radio只可以选一个,checkbox可以选多个)

④submit:提交按钮,提交表单数据

⑤reset:重置按钮,重置为默认状态

⑥file:文件上传按钮

⑦image:图片提交按钮,功能同submit,可以提交数据

⑧button:普通按钮,没什么软用

⑨其他常用属性值:见下图

【select标签】下拉选择标签

写法:

<select name="=city">

<option>青岛</option>

<option>烟台</option>

<option>北京</option>

<option>纽约</option>

<option>罗马</option>

</select>

常用属性

①name属性:写在select里,所有选项只有一个name

②multiple属性:multiple="multiple"设置select为多选,一般不用

③option常用属性:value=""属性,当option没有value属性时,往后台传递的是<option></option>中间的文字,

当有value属性时,传递的是value的属性值。

title=""属性,鼠标之上后现实的文字

select="select"默认属性值

④optgroup属性: 用于option属性分组,用lable属性表示分组名。

<optgroup label="中国">

<option>青岛</option>

<option>烟台</option>

<option>北京</option>

</optgroup>

【textarea】:文本域,其常用属性 :

①设置宽度高度 style="width: 150px;height: 200px;

②readonly="readonly":只读模式,不允许修改编辑

③style="resize: none;"设置为宽度高度不允许修改

④style="overflow:;"设置文字超出区域时,如何处置,常用属性值有:

hidden 超出区域的文字,隐藏无法显示

scroll 无论文字多少,均显示滚动

auto 自动,根据文字多少自动决定是否会显示为滚动条

【fieldset 、legend】表单的边框与标题

<fieldset> //边框

<legend> //标题

</legend>

</fieldset>

如果想让标题嵌入到边框中,需将标题标签写到边框标签里面

一个表单可以有多组标题加边框组合

【h5智能表单】

1、H5新增input的form属性,用于指定特form表单的id,实现input无需放在form标签之中,即可通过表单进行提交

<form id=foo>

……

</form>

<input type="text" name="" form="foo">

2、 input元素的新增属性:

Autocomplete:自动完成功能,记录用户之前输入的内容,并在用户下次输入时提示用户输入

》》》属性值:on/off

》》》可以再form表单使用,对整个表单的所有控件进行自动完成的开关也可以在input上使用,

对特定输入框进行修改

》》》绝大部分浏览器默认开启

Autofocus:自动获得焦点,autofocus="autofocus"只能获得一个焦点

Form:所属表单,通过id确认属于哪个表单

Required:必填,required="required",设置必填,否则停止提交

Pattern:使用正则表达式验证input的模式

Placeholder:提示,当有value时取消提示。