数据清洗是数据分析和机器学习流程中至关重要的一步。通过使用 Python 的强大工具和库(如 pandas),我们可以高效地处理缺失值、去除重复数据、转换数据类型以及执行聚合和合并操作。以下是最常用的 Python 数据清洗与重塑命令,帮助您快速掌握数据清洗的技巧,从而为后续分析奠定坚实基础。
1. 数据检查
df.head() # 显示数据框的前几行
df.info() # 显示数据框信息和数据类型
df.describe() # 显示数值列的摘要统计信息
2. 缺失数据处理
df.isnull().sum() # 统计每列的空值数量
df.dropna() # 删除包含缺失值的行
df.fillna(value) # 用指定值替换缺失值
3. 数据清洗与转换
df.drop_duplicates() # 从数据框中删除重复行
df.rename(columns={'old': 'new'}) # 使用字典映射重命名列
df.astype({'col': 'type'})` # 转换列的数据类型
df.replace('old', 'new') # 替换数据框中的值
df.reset_index() # 重置索引为默认的数字序列
df.drop('col', axis=1) # 删除指定的列
4. 数据选择与过滤
df.loc['label', 'col'] # 根据标签/条件选择数据
df.iloc[] # 访问数据使用整数位置
df[df['col'] > value] # 基于条件过滤行
5. 数据聚合与分析
df.groupby('col').agg(['mean']) # 分组并应用聚合函数
df.sort_values('col', ascending=False) # 根据数据列值排序
df.value_counts() # 统计列中唯一值的数量
df.apply() # 对行/列应用函数
df.pivot_table(values, index, columns) # 从数据创建透视表
6. 数据合并/联合
pd.concat([df1, df2]) # 连接多个 DataFrames
pd.merge(df1, df2, on='key') # 基于键列合并两个 DataFrames
df1.join(df2) # 基于索引连接 DataFrames
df1.append(df2) # 将 df2 的行追加到 df1
<script type="text/javascript" src="//mp.toutiao.com/mp/agw/mass_profit/pc_product_promotions_js?item_id=7522052916597817865"></script>