如何压榨Cython及OpenMP优化Target Encoding | 游戏资源 | 元素文章 | Cython,OpenMP,Python | 游戏开发 | 微元素 - Cython,OpenMP,Python,CG世界

您需要登录才可以下载或查看，没有账号？注册

x

本帖最后由 CG世界于 2022-4-11 16:53 编辑

来源 CG世界
屏幕快照 2022-04-11 下午4.36.36.png

如何压榨Cython及OpenMP优化Target Encoding

最近上了王然老师的课，做了当周作业后，有了不少心得，希望能分享一下前段时间的学习成果。

这是一篇纯技术文，因为内容较多字数上万，本文不会涉及太多理论上的知识，更多的是偏思路分享，某些概念会简单介绍，如果要大家不想看这么多分析，只需要嫖源码，就直接跳到最后吧~如果大家想要深入学习，可以去网上查询相关资料或者和资深大佬进行交流学习。我尽可能去保证我文章的准确性，但如果哪里有纰漏或者是错误，大佬们请轻喷。

首先我们来看一个问题

假设我们的目标变量是 0，1；0 表示负样本，1 表示正样本。

所以我们如何拟合模型呢？我们没法表示 1 × 程序员. 所以我们需要把这些改为一种编码。

假如我们有一套数据集，保安有10%月收入超过1W，程序员有90%月收入超过一月，也就是说我们可以用0.9替换程序员，0.1替换保安来进行预测。

我们的解释变量是一个离散的变量，并且有很多类（比如说职业）。如果我们每一个样本（x）对应一个职业（y）的话，那我们预测就没有任何意义了，因为你都知道y值了，所以这就是发生了data leakage。

这样导致单一样本权重过大，进而高估这个变量对模型的作用，也就是会发生测试的时候很准，在真实情况下，预测率极低的情况。

这类问题就叫Target leakage。

所以，最好的解决办法就是算当前的时候，把当前的值给去掉，我们只算其他样本的平均。

Target encoding

Target encoding 采用 target mean value （among each category）来给categorical feature做编码。为了减少target variable leak，主流的方法是使用2 levels of cross-validation求出target mean，而我们这里不做复杂的计算，仅仅只是均值。

这是一个一开始写出来的代码，并没有优化过，只是简单实现了功能。

# coding = 'utf-8'
import numpy as np
import pandas as pd
def target_mean_v1(data, y_name, x_name):
result = np.zeros(data.shape[0])
for i in range(data.shape[0]):
groupby_result = data[data.index != i].groupby([x_name], as_index=False).agg(['mean', 'count'])
result = groupby_result.loc[groupby_result.index == data.loc[i, x_name], (y_name, 'mean')]
return result
def main():
y = np.random.randint(2, size=(5000, 1))
x = np.random.randint(10, size=(5000, 1))
data = pd.DataFrame(np.concatenate([y, x], axis=1), columns=['y', 'x'])
result_1 = target_mean_v1(data, 'y', 'x')
if __name__ == '__main__':
main()

点击此处复制文本

逻辑是创建一个初始值为0,长度是shape求出pandas的DataFrame其长度的np.nparray后。

再把遍历一次，算出每个index，并且把除当前的其他index进行groupby操作，去计算平均值和count。

最后再遍历loc出与data中loc当前的x值是否与groupby相等的均值

听起来很复杂，也确实很复杂，这个函数是对每个标记计算去除该样本后，按x类型的y值均值，时间复杂度为 O(n2)，并不是最优。

更重要一点就是，用timeit计时发现5000个样本居然要 23.6 秒？？！

所以，现在开始整理一下我们的优化思路。。

最重要的一点就是我们需要先优化python代码（算法复杂度），再去用cython（底层），最后才用并行（多线程多进程），不能本末倒置。

Python优化

因为colab环境配好了，不需要额外花时间，所以我用的Colab来进行操作。

在我们不使用profiler的情况下，我们只能通过经验和理解去分析排查代码中的Hotspots。

我先尝试自己手动优化一下，至少这样写，把算法复杂度从 O(n2) 降到 O(n)

def target_mean_v2(data:pd.DataFrame, y_name:str, x_name:str) -> np.ndarray:
result = np.zeros(data.shape[0])
value_dict = dict()
count_dict = dict()
for i in range(data.shape[0]):
if data.loc[i, x_name] not in value_dict.keys():
value_dict[data.loc[i, x_name]] = data.loc[i, y_name]
count_dict[data.loc[i, x_name]] = 1
else:
value_dict[data.loc[i, x_name]] += data.loc[i, y_name]
count_dict[data.loc[i, x_name]] += 1
for i in range(data.shape[0]):
result = (value_dict[data.loc[i, x_name]] - data.loc[i, y_name]) / (count_dict[data.loc[i, x_name]] - 1)
return result

点击此处复制文本

我们再使用profiler看看，我们Hotspots在什么位置。

目前市面上常见可用的有 cprofile，Vtune，line_profiler

因为cprofile的bug和Vtune的特殊性，毕竟我们不能在arm上干inter不是，所以我们使用line_profiler。

在colab第一次使用，需要pip

pip install line_profiler

点击此处复制文本

一般来说写法是这样的

from line_profiler import LineProfilerprofile = LineProfiler(target_mean_v2) #把函数传递到性能分析器

点击此处复制文本

profile.enable() #开始分析
target_mean_v2(data, 'y', 'x')
profile.disable() #停止分析
profile.print_stats() #打印出性能分析结果

点击此处复制文本

不过我们使用colab可以这样玩

%lprun -f target_mean_v2 target_mean_v2(data, 'y', 'x')

点击此处复制文本

不过首先需要load一下ext

%load_ext line_profiler

点击此处复制文本

可以看到我们瓶颈在遍历的赋予键值对的过程中。

显示全部标签

本帖被以下画板推荐:

浏览过的版块

长枪

短杖

蓝色药水

【绝】红龙战甲

火元素

元素秘籍