散点图:数据分析的利器
在数据分析领域,散点图是一种直观且强大的可视化工具,广泛应用于揭示变量间的相关性以及识别数据集中的异常值。本文将深入探讨散点图的这两种关键功能,并结合实际案例与Python代码示例,带您全面了解散点图的应用。
一、散点图如何展示变量间的相关性
正相关关系
当两个变量呈现正相关关系时,数据点会呈现出从左下方向右上方延伸的分布趋势。例如,随着广告投入的增加,产品销售额也相应上升。
import matplotlib.pyplot as plt
import numpy as np# 生成正相关的数据
np.random.seed(0)
x = np.random.rand(50)
y = x + np.random.rand(50) * 0.2# 绘制散点图
plt.figure(figsize=(8, 6))
plt.scatter(x, y, color='blue', alpha=0.7)
plt.title('正相关关系散点图')
plt.xlabel('广告投入')
plt.ylabel('产品销售额')
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()
负相关关系
负相关关系则表现为数据点从左上方向右下方分布。比如,随着气温的升高,热饮的销售量反而下降。
# 生成负相关的数据
np.random.seed(0)
x = np.random.rand(50)
y = -x + np.random.rand(50) * 0.2# 绘制散点图
plt.figure(figsize=(8, 6))
plt.scatter(x, y, color='red', alpha=0.7)
plt.title('负相关关系散点图')
plt.xlabel('气温')
plt.ylabel('热饮销售量')
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()
无明显相关性
如果两个变量之间不存在明显相关性,散点图上的数据点会呈现出随机分布的状态,没有明显的趋势或模式。
# 生成无明显相关的数据
np.random.seed(0)
x = np.random.rand(50)
y = np.random.rand(50)# 绘制散点图
plt.figure(figsize=(8, 6))
plt.scatter(x, y