对pandas多索引的列进行规范化或规模化处理

0 人关注

我有一个包含两个索引的大数据框架。第一个是日期索引，第二个是标签索引，每天都出现，没有特定的顺序。每一列都需要每天在-1和1之间进行规范化或缩放。我附上一张图片，显示了需要规范化的区域。所以基本上我需要按列和日对数据进行标准化处理，如果这有意义的话。由于我所处理的数据非常大，我附上了一些样本代码，生成了一个用于测试的副本。

import pandas as pd
import numpy as np
#For repeatability
np.random.seed(0)
#The index's
arrays = [
    np.array([
        "Day1", "Day1", "Day1", "Day1", "Day1", 
        "Day2", "Day2", "Day2", "Day2", "Day2",
        "Day3", "Day3", "Day3", "Day3", "Day3"
    np.array([
        "a", "b", "c", "d", "e", 
        "a", "b", "c", "d", "e", 
        "a", "b", "c", "d", "e"
#Create the sample dataframe 
df = pd.DataFrame(np.random.randn(15, 4), index=arrays, columns=["100", "200", "300", "400"])
#Output the dataframe
print(df) #End of code
             100       200       300       400
Day1 a  1.764052  0.400157  0.978738  2.240893
     b  1.867558 -0.977278  0.950088 -0.151357
     c -0.103219  0.410599  0.144044  1.454274
     d  0.761038  0.121675  0.443863  0.333674
     e  1.494079 -0.205158  0.313068 -0.854096
Day2 a -2.552990  0.653619  0.864436 -0.742165
     b  2.269755 -1.454366  0.045759 -0.187184
     c  1.532779  1.469359  0.154947  0.378163
     d -0.887786 -1.980796 -0.347912  0.156349
     e  1.230291  1.202380 -0.387327 -0.302303
Day3 a -1.048553 -1.420018 -1.706270  1.950775
     b -0.509652 -0.438074 -1.252795  0.777490
     c -1.613898 -0.212740 -0.895467  0.386902
     d -0.510805 -1.180632 -0.028182  0.428332
     e  0.066517  0.302472 -0.634322 -0.362741
下面是这个样本的输出，我需要在-1和1之间调整字段的比例。
不，索引是没有标签的。
我对pandas groupby不是很熟悉，但它可能是需要使用的东西。我愿意接受任何方法或建议。


         python


         pandas


         normalize


        1
        
        个回答


          已采纳


         0
         
         人赞同


          
           最简单的方法是在使用
           
            scikit-learn
           
           包的同时使用
           
            pandas
           
           。
          
          from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(-1,1))
# Group by level 0, which is the first index corresponding to 'Dayx'
# After applying the scaling function (which output a Numpy array), convert it to a dataframe
df_scaled = df.groupby(level=0).apply(lambda x : pd.DataFrame(scaler.fit_transform(x), columns=x.columns, index=x.index).round(5))
print(df_scaled)
which gives you:
            100      200      300      400
Day1 a  0.89496  0.98495  1.00000  1.00000
     b  1.00000 -1.00000  0.93135 -0.54589
     c -1.00000  1.00000 -1.00000  0.49168
     d -0.12293  0.58365 -0.28161 -0.23246
     e  0.62098  0.11266 -0.59500 -1.00000
Day2 a -1.00000  0.52713  1.00000 -1.00000
     b  1.00000 -0.69484 -0.30804 -0.00925
     c  0.69438  1.00000 -0.13358  1.00000
     d -0.30944 -1.00000 -0.93703  0.60402
     e  0.56893  0.84524 -1.00000 -0.21476
Day3 a -0.32714 -1.00000 -1.00000  1.00000
     b  0.31425  0.14014 -0.45953 -0.01429
     c -1.00000  0.40178 -0.03366 -0.35194
     d  0.31288 -0.72205  1.00000 -0.31613
     e  1.00000  1.00000  0.27758 -1.00000
此外，为了帮助你理解groupby，它实际上是根据你指定的组来分割数据框（即在上面的例子中，组是第一层索引，Dayx。第一组基本上是这样的。
             100       200       300       400
Day1 a  1.764052  0.400157  0.978738  2.240893
     b  1.867558 -0.977278  0.950088 -0.151357
     c -0.103219  0.410599  0.144044  1.454274
     d  0.761038  0.121675  0.443863  0.333674
     e  1.494079 -0.205158  0.313068 -0.854096

推荐文章

神勇威武的红酒 · Python dat文件读入 python读取dat文件内容_mob64ca1406d617的技术博客_51CTO博客

3 周前

威武的单杠 · Pandas中日期由“YYYYMMDD”改为“YYYY-MM-DD“_pandas datetime转化成yyyy.mm.dd-CSDN博客

1 周前

有胆有识的椰子 · Pandas dataframe数据处理方法速度比较_pandas千万行数据筛选要多久-CSDN博客

1 周前

奔跑的风衣 · pandas高效读取大文件的探索之路 - wang_yb - 博客园

1 周前

坏坏的羽毛球 · 数据分析利器 pandas 系列教程（六）：合并上百万个 csv 文件，如何提速上百倍-腾讯云开发者社区-腾讯云

1 周前

腹黑的开心果 · css根据元素中子元素的个数设置不同的样式_css 判断子元素个数来设置父元素样式-CSDN博客

6 月前

重情义的红豆 · 使用grid方式调整tkinter的notebook小部件的大小

8 月前

个性的小蝌蚪 · “无法激活 “XXX” 扩展, 因为它依赖于未加载的 “Python” 扩展。_无法激活“isort”扩展,因为它依赖于被禁用的“python”扩展。-CSDN博客

11 月前

安静的冰棍 · Redis url should start with redis:// or rediss:// (for SSL connection)_wx62c7d84084214的技术博客_51CTO博客

1 年前

玩足球的铅笔 · 在执行 pip install 时遇到错误：python setup.py egg_info ... - 知乎

1 年前