您好,欢迎来到伴沃教育。
搜索
您的当前位置:首页数据科学与计算之Pandas

数据科学与计算之Pandas

来源:伴沃教育


一、Pandas的介绍

一个开源的Python类库:用于数据分析、数据处理、数据可视化

优点:

· 高性能

· 容易使用的数据结构

· 容易使用的数据分析工具

二、Pandas的安装与导入

Pandas的安装:

1.pip install pandas

2.conda install pandas

(清华源:https://pypi.tuna.tsinghua.edu.cn/simple)

Pandas的导入:

import pandas as pd

 三、Pandas数据结构之Series

       pandas.Series类似表格中的一个列,类似于一维数组,可以保存任何数据类型,它由索引和列组成,函数如下:pandas.Series( data, index, dtype, name, copy)

dataindexdtypenamecopy
一组数据(ndarray类型)数据索引标签,如果不指定,默认从0开始。数据类型。默认会自己判断设置名称拷贝数据,默认为False

1、使用列表创建Series

2、使用ndarray创建Series

3、使用字典创建Series

4、查看series中的索引和数值:

 

 四、Pandas数据结构之DataFrame

       DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。它既有行索引也有列索引。

DataFrame 构造方法如下:

pandas.DataFrame( data, index, columns, dtype, copy)

data

index

columns

dtype

copy

一组数据(ndarray、series, map, lists, dict 等类型)。

索引值,或者可以称为行标签。

列标签,默认为 RangeIndex (0, 1, 2, …, n) 。

数据类型。

拷贝数据,默认为 False。

 1、使用列表创建DataFrame

 2、使用ndarrays创建DataFrame

3、使用字典(key/value)创建DataFrame

 五、Pandas数据查询

 1、loc( )函数返回n数据

 2、loc( )函数:也可以返回多行数据,使用 [[ ... ]] 格式,... 为各行的索引,以逗号隔开。

3、指定索引值 

4、使用loc属性返回指定索引对应到某一行:

 

 六、Pandas数据读取

数据类型

说明

Pandas读取方法

csvtsvtxt

用逗号分隔或者tab分割的纯文本文件

pd.read_csv()

excel

xls或者xlsx文件

pd.read_excel()

mysql

关系型数据库表

pd.read_sql()

1、head()函数:用于读取前面的 n 行,默认返回 5 行。

 2、tail()函数:用于读取尾部的 n 行,默认返回 5 行。

 

 3、info()函数:返回表格的一些基本信息.

 七、Pandas处理丢失数据

需要进行数据清洗的property-data.csv文件。

 1、isnull()函数:判断各个单元格是否为空。

 

 

2、 dropna()函数:删除包含空字段的行。

语法格式:DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

axis

how

thresh

subset

inplace

默认为 0,表示逢空值剔除整行。

 'any' :有一个数据为空就去掉整行。

'all' :所有数据都为空才去掉这整行。

设置需要多少非空值的数据才可以保留下来的。

设置想要检查的列。如果是多个列,可以使用列名的 list 作为参数。

如果设置 True,将计算得到的值直接覆盖之前的值并返回 None,修改的是源数据。

 3、fillna()函数 :用指定内容来替换一些空字段。

4、mean()函数:计算列的均值替换空单元格。

 5、median()函数:计算列的中位数替换空单元格。

 

 

 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- bangwoyixia.com 版权所有 湘ICP备2023022004号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务