大家好,我是小寒。
Chatgpt 最近可是火出了圈,今天我们来分享如何使用 chatgpt 来减轻数据分析师的工作。
数据可视化
在执行探索性数据分析时,用 Python 快速生成可视化图,通常可以帮助我更好地理解数据集。
不幸的是,这项任务可能会变得非常耗时—尤其是当你不知道如何使用正确的语法来获得所需结果时。
我经常发现自己在搜索 Seaborn 的大量文档并使用 StackOverflow 生成单个 Python 图。
让我们看看 ChatGPT 是否可以帮助解决这个问题。
这里我们使用的数据集是来自 kaggle 上的 Pima Indians Diabetes。
下载数据后,让我们使用 Pandas 进行读取并显示。
import pandas as pd
df = pd.read_csv('diabetes.csv')
df.head()
该数据集中有九个变量。其中 “Outcome” 变量是告诉我们一个人是否会患上糖尿病的目标变量。其余的是用于预测结果的自变量。
好的!所以我想看看这些变量中的哪些变量会影响一个人是否会患上糖尿病。
为实现这一点,我们可以创建一个聚类条形图来查看。
这实际上很容易编写出来,但让我们从简单的开始。随着文章的进展,我们将转向更复杂的提示。
现在,让我们输入以下提示以使用糖尿病数据集生成可视化。
下面是 chatgpt 生成的完整代码片段。
import seaborn as sns
import pandas as pd
# 读取数据
df = pd.read_csv("data.csv")
# 绘制聚类条形图
sns.catplot(x="variable", y="value",hue="Outcome",
data=pd.melt(df, id_vars=["Outcome"]),
kind="bar", height=4, aspect=2)
把数据集的名称换一下,就真的生成了我们想要的图。
这张图表看起来很完美!这正是我在 ChatGPT 中输入提示时的设想。
然而,一个突出的问题是该图表上的文本重叠。
我将通过键入以下提示询问模型是否可以帮助我们解决此问题:
生成的图形中 x 轴的标签有重叠,我们如何修改它呢
这看起来很棒!
通过简单地查看此图表,我现在可以更好地理解数据集。似乎葡萄糖和胰岛素水平较高的人更容易患上糖尿病。