import pandas as pd
from matplotlib import pyplot as plt
data=pd.read_pickle("jian_fen2.pkl")
data["总资产"]=data["总资产"].apply(lambda x: x.replace("w","")+'10000' if "w" in x else x)
data['涨粉消耗的字数']=data["字数"].astype("float").values/data["粉丝"].astype("float").values
data['涨粉消耗的文章']=data["文章"].astype("float").values/data["粉丝"].astype("float").values
# data['涨钻消耗的字数']=data["字数"].astype("float").values/data["总资产"].astype("float").values
# data['涨钻消耗的文章']=data["文章"].astype("float").values/data["总资产"].astype("float").values
data['涨喜消耗的文章']=data["字数"].astype("float").values/data["收获喜欢"].astype("float").values
data['涨喜消耗的文章']=data["文章"].astype("float").values/data["收获喜欢"].astype("float").values
data.to_csv("jian_fen2.csv",index=False)
data=data.drop_duplicates("name")data=data.sort_values(['涨粉消耗的字数'])
plt.plot(data["粉丝"].astype("float").values)
# 涨粉消耗的字数
# plt.plot()
plt.show()data=data.sort_values(['涨粉消耗的文章'])
plt.plot(data["粉丝"].astype("float").values)
# 涨粉消耗的字数
# plt.plot()
plt.show()
这段代码的目的是读取一个Pickle文件,对其进行一系列的数据处理和转换,然后保存为CSV文件,并绘制一些图表。以下是代码的详细解释:
- 导入必要的库:
import pandas as pd
from matplotlib import pyplot as plt
这里导入了pandas
用于数据处理,以及matplotlib.pyplot
用于绘图。
2. 读取Pickle文件:
data = pd.read_pickle("jian_fen2.pkl")
从Pickle文件中读取数据,并将其存储在变量data
中。
3. 处理"总资产"列:
data["总资产"] = data["总资产"].apply(lambda x: x.replace("w", "") + '10000' if "w" in x else x)
如果"总资产"列中的值包含字符"w",则将其替换为"10000",否则保持原值。
4. 计算新的列"涨粉消耗的字数"和"涨粉消耗的文章":
data['涨粉消耗的字数'] = data["字数"].astype("float").values / data["粉丝"].astype("float").values
data['涨粉消耗的文章'] = data["文章"].astype("float").values / data["粉丝"].astype("float").values
这里计算了每增加一个粉丝所需消耗的字数和文章数,通过将"字数"和"文章"列转换为浮点数,然后分别除以"粉丝"列的浮点数值。
5. 注释掉的计算"涨钻消耗的字数"和"涨钻消耗的文章"的代码:
# data['涨钻消耗的字数'] = data["字数"].astype("float").values / data["总资产"].astype("float").values
# data['涨钻消耗的文章'] = data["文章"].astype("float").values / data["总资产"].astype("float").values
这部分代码被注释掉了,所以不会被执行。它原本是用来计算每增加一个总资产单位所需消耗的字数和文章数。
6. 计算"涨喜消耗的文章":
data['涨喜消耗的文章'] = data["字数"].astype("float").values / data["收获喜欢"].astype("float").values
data['涨喜消耗的文章'] = data["文章"].astype("float").values / data["收获喜欢"].astype("float").values
这里计算了每增加一个"收获喜欢"所需消耗的文章数。不过,这里有一个问题:变量名涨喜消耗的文章
被重复使用,第二次赋值会覆盖第一次的结果。
7. 保存处理后的数据为CSV文件:
data.to_csv("jian_fen2.csv", index=False)
将处理后的DataFrame保存为CSV文件,index=False
表示不保存行索引。
8. 删除重复的行:
data = data.drop_duplicates("name")
基于"name"列删除重复的行。
9. 根据不同的排序绘制图表:
data = data.sort_values(['涨粉消耗的字数'])
plt.plot(data["粉丝"].astype("float").values)
plt.show()
data = data.sort_values(['涨粉消耗的文章'])
plt.plot(data["粉丝"].astype("float").values)
plt.show()
- 首先,根据"涨粉消耗的字数"对数据进行排序,然后绘制排序后的"粉丝"列的值。
- 然后,根据"涨粉消耗的文章"对数据进行排序,再次绘制排序后的"粉丝"列的值。
plt.show()
用于显示绘制的图表。
注意:在绘制图表时,没有指定x轴和y轴的标签,也没有设置图表标题,这可能会使图表难以理解。此外,代码中的注释与实际执行的代码不符,这可能是一个疏忽。