您的位置:首页 > 健康 > 养生 > 上海疫情最新数据消息_一流专业建设标准_网络营销策划书应该怎么写_大专网络营销专业好不好

上海疫情最新数据消息_一流专业建设标准_网络营销策划书应该怎么写_大专网络营销专业好不好

2025/4/14 16:19:18 来源:https://blog.csdn.net/weixin_42789698/article/details/147162033  浏览:    关键词:上海疫情最新数据消息_一流专业建设标准_网络营销策划书应该怎么写_大专网络营销专业好不好
上海疫情最新数据消息_一流专业建设标准_网络营销策划书应该怎么写_大专网络营销专业好不好

文章目录

  • 1、pandas介绍
  • 2、为什么使用pandas
  • 3、pandas的数据结构
    • 1、Series
    • 2、DataFrame
    • 3、MultiIndex
  • 4、pandas基本数据操作
    • 1、索引操作
    • 2、赋值操作
    • 3、排序
    • 4、算术运算
    • 5、逻辑运算
    • 6、逻辑运算函数
    • 7、统计函数
    • 8、累计统计函数
    • 9、自定义运算
  • 5、pandas读取文件和存储
    • 1、csv文件
    • 2、HDF5
    • 3、JSON
  • 6、使用pandas连接数据库
    • 1、安装sqlalchemy
    • 2、使用read_sql()函数读取数据
  • 7、pandas高级用法
    • 1、缺失值处理
    • 2、数据离散化
    • 3、合并
    • 4、交叉表和透视表
    • 5、分组与聚合

需要使用的库

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

1、pandas介绍

  • 专门用于数据挖掘的开源python库
  • 以numpy为基础,借力numpy模块在计算方面性能高的优势
  • 基于matplotlib,能够简便的画图
  • 独特的数据结构

2、为什么使用pandas

Numpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,那么pandas学习的目的在什么地方呢?

  • 增强图表可读性
    在这里插入图片描述
  • 便捷的数据处理能力
    在这里插入图片描述

3、pandas的数据结构

pandas中一共有三种数据结构,分别为:Series、DataFrame和MultiIndex。
其中Series是一维数据结构,DataFrame是二维表格型数据结构,MultiIndex是三维的数据结构。

1、Series

Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与之相关的索引两部分构成。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

2、DataFrame

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3、MultiIndex

在这里插入图片描述

4、pandas基本数据操作

在这里插入图片描述

1、索引操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、赋值操作

在这里插入图片描述

3、排序

在这里插入图片描述
在这里插入图片描述

4、算术运算

在这里插入图片描述
在这里插入图片描述

5、逻辑运算

在这里插入图片描述

6、逻辑运算函数

在这里插入图片描述

7、统计函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

8、累计统计函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

9、自定义运算

在这里插入图片描述

5、pandas读取文件和存储

1、csv文件

在这里插入图片描述

  • 1、读取csv文件方法
    在这里插入图片描述
  • 2、保存csv
    在这里插入图片描述

2、HDF5

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

3、JSON

在这里插入图片描述
在这里插入图片描述

6、使用pandas连接数据库

1、安装sqlalchemy

在这里插入图片描述

2、使用read_sql()函数读取数据

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7、pandas高级用法

1、缺失值处理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、数据离散化

  • 1、为什么要离散化
    连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数,离散化方法经常作为数据挖掘的工具

  • 2、什么是数据的离散化
    连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。
    离散化有很多种方法,这使用一种最简单的方式去操作

    • 原始人的身高数据:165、174、160、180、159、163、192、184
    • 假设我们按照身高分几个区间:150-165、165-180、180-195
      这样我们将数据分到三个区间段,我们可以对应的标记为矮、中、高三个类别,最终要处理成一个"哑变量"的矩阵
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

3、合并

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4、交叉表和透视表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 上面获取这个透视表的步骤,可以用一个函数代替
    在这里插入图片描述

5、分组与聚合

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com