分析 Pandas 与 Lambda 结合进行高效数据分析

发布时间：2021-12-27 09:54 所属栏目：125 来源：互联网

导读：这篇文章小编来讲讲lambda方法以及它在pandas模块当中的运用，熟练掌握可以极大地提高数据分析与挖掘的效率。导入模块与读取数据我们第一步需要导入模块以及数据集： import pandas as pd df = pd.read_csv(IMDB-Movie-Data.csv) df.head() 创建新的列一般

这篇文章小编来讲讲lambda方法以及它在pandas模块当中的运用，熟练掌握可以极大地提高数据分析与挖掘的效率。

导入模块与读取数据
我们第一步需要导入模块以及数据集：

import pandas as pd
df = pd.read_csv("IMDB-Movie-Data.csv")
df.head()
创建新的列
一般我们是通过在现有两列的基础上进行一些简单的数学运算来创建新的一列，例如：

df['AvgRating'] = (df['Rating'] + df['Metascore']/10)/2
但是如果要新创建的列是经过相当复杂的计算得来的，那么lambda方法就很多必要被运用到了，我们先来定义一个函数方法。

def custom_rating(genre,rating):
    if 'Thriller' in genre:
        return min(10,rating+1)
    elif 'Comedy' in genre:
        return max(0,rating-1)
    elif 'Drama' in genre:
        return max(5, rating-1)
    else:
        return rating
我们对于不同类别的电影采用了不同方式的评分方法，例如对于“惊悚片”，评分的方法则是在“原来的评分+1”和10分当中取一个最小的，而对于“喜剧”类别的电影，则是在0分和“原来的评分-1”当中取一个最大的，然后我们通过apply方法和lambda方法将这个自定义的函数应用在这个DataFrame数据集当中。

我们筛选数据的时候，主要是用.loc方法，它同时也可以和lambda方法联用，例如我们想要筛选出评分在5-8分之间的电影以及它们的票房，代码如下：

df.loc[lambda x: (x["Rating"] > 5) & (x["Rating"] < 8)][["Title", "Revenue (Millions)"]]
转变指定列的数据类型
通常我们转变指定列的数据类型，都是调用astype方法来实现的，例如我们将“Price”这一列的数据类型转变成整型的数据，代码如下：

df['Price'].astype('int')
会出现如下所示的报错信息：

ValueError: invalid literal for int() with base 10: '12,000'
因此当出现类似“12,000”的数据的时候，调用astype方法实现数据类型转换就会报错，因此我们还需要将到apply和lambda结合进行数据的清洗，代码如下：

df['Price'] = df.apply(lambda x: int(x['Price'].replace(',', '')),axis=1)
方法调用过程的可视化
有时候我们在处理数据集比较大的时候，调用函数方法需要比较长的时间，这个时候就需要有一个要是有一个进度条，时时刻刻向我们展示数据处理的进度，就会直观很多了。

（编辑：ASP站长网）