{
 "cells": [
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Reshape Data in Polars Efficiently from Wide to Long Form - Part I"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## **Introduction**"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "You've got data in a wide form (lots of columns), and you wish to transform it into a long form (fewer columns, more rows), to make it tidy, or for ease of analysis. In polars, this is achieved with the [unpivot](https://docs.pola.rs/api/python/stable/reference/dataframe/api/polars.DataFrame.unpivot.html#polars.DataFrame.unpivot) method. There are scenarios however where some processing has to be done before and/or after unpivoting. This article shows how to reshape data for such scenarios.\n",
    "\n",
    "Most of the examples here are based on the [tidyr pivoting vignette](https://tidyr.tidyverse.org/articles/pivot.html#longer). \n",
    "\n",
    "Polars' [eager API](https://docs.pola.rs/api/python/stable/reference/dataframe/index.html) is used in the examples below; for more performance, or in production mode, it is recommended to use the [lazy API](https://docs.pola.rs/api/python/stable/reference/lazyframe/index.html)."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "polars version : 1.7.1\n",
      "python version : 3.10.14 | packaged by conda-forge | (main, Mar 20 2024, 12:51:49) [Clang 16.0.6 ]\n"
     ]
    }
   ],
   "source": [
    "import polars as pl\n",
    "import polars.selectors as cs\n",
    "import sys\n",
    "\n",
    "print(\"polars version :\", pl.__version__)\n",
    "print(\"python version :\", sys.version)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "(String-data-in-column-names)=\n",
    "## **String data in column names**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (18, 11)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>religion</th><th>&lt;$10k</th><th>$10-20k</th><th>$20-30k</th><th>$30-40k</th><th>$40-50k</th><th>$50-75k</th><th>$75-100k</th><th>$100-150k</th><th>&gt;150k</th><th>Don&#x27;t know/refused</th></tr><tr><td>str</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td></tr></thead><tbody><tr><td>&quot;Agnostic&quot;</td><td>27</td><td>34</td><td>60</td><td>81</td><td>76</td><td>137</td><td>122</td><td>109</td><td>84</td><td>96</td></tr><tr><td>&quot;Atheist&quot;</td><td>12</td><td>27</td><td>37</td><td>52</td><td>35</td><td>70</td><td>73</td><td>59</td><td>74</td><td>76</td></tr><tr><td>&quot;Buddhist&quot;</td><td>27</td><td>21</td><td>30</td><td>34</td><td>33</td><td>58</td><td>62</td><td>39</td><td>53</td><td>54</td></tr><tr><td>&quot;Catholic&quot;</td><td>418</td><td>617</td><td>732</td><td>670</td><td>638</td><td>1116</td><td>949</td><td>792</td><td>633</td><td>1489</td></tr><tr><td>&quot;Don’t know/refused&quot;</td><td>15</td><td>14</td><td>15</td><td>11</td><td>10</td><td>35</td><td>21</td><td>17</td><td>18</td><td>116</td></tr><tr><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td></tr><tr><td>&quot;Orthodox&quot;</td><td>13</td><td>17</td><td>23</td><td>32</td><td>32</td><td>47</td><td>38</td><td>42</td><td>46</td><td>73</td></tr><tr><td>&quot;Other Christian&quot;</td><td>9</td><td>7</td><td>11</td><td>13</td><td>13</td><td>14</td><td>18</td><td>14</td><td>12</td><td>18</td></tr><tr><td>&quot;Other Faiths&quot;</td><td>20</td><td>33</td><td>40</td><td>46</td><td>49</td><td>63</td><td>46</td><td>40</td><td>41</td><td>71</td></tr><tr><td>&quot;Other World Religions&quot;</td><td>5</td><td>2</td><td>3</td><td>4</td><td>2</td><td>7</td><td>3</td><td>4</td><td>4</td><td>8</td></tr><tr><td>&quot;Unaffiliated&quot;</td><td>217</td><td>299</td><td>374</td><td>365</td><td>341</td><td>528</td><td>407</td><td>321</td><td>258</td><td>597</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (18, 11)\n",
       "┌────────────────────┬───────┬─────────┬─────────┬───┬──────────┬───────────┬───────┬──────────────┐\n",
       "│ religion           ┆ <$10k ┆ $10-20k ┆ $20-30k ┆ … ┆ $75-100k ┆ $100-150k ┆ >150k ┆ Don't        │\n",
       "│ ---                ┆ ---   ┆ ---     ┆ ---     ┆   ┆ ---      ┆ ---       ┆ ---   ┆ know/refused │\n",
       "│ str                ┆ i64   ┆ i64     ┆ i64     ┆   ┆ i64      ┆ i64       ┆ i64   ┆ ---          │\n",
       "│                    ┆       ┆         ┆         ┆   ┆          ┆           ┆       ┆ i64          │\n",
       "╞════════════════════╪═══════╪═════════╪═════════╪═══╪══════════╪═══════════╪═══════╪══════════════╡\n",
       "│ Agnostic           ┆ 27    ┆ 34      ┆ 60      ┆ … ┆ 122      ┆ 109       ┆ 84    ┆ 96           │\n",
       "│ Atheist            ┆ 12    ┆ 27      ┆ 37      ┆ … ┆ 73       ┆ 59        ┆ 74    ┆ 76           │\n",
       "│ Buddhist           ┆ 27    ┆ 21      ┆ 30      ┆ … ┆ 62       ┆ 39        ┆ 53    ┆ 54           │\n",
       "│ Catholic           ┆ 418   ┆ 617     ┆ 732     ┆ … ┆ 949      ┆ 792       ┆ 633   ┆ 1489         │\n",
       "│ Don’t know/refused ┆ 15    ┆ 14      ┆ 15      ┆ … ┆ 21       ┆ 17        ┆ 18    ┆ 116          │\n",
       "│ …                  ┆ …     ┆ …       ┆ …       ┆ … ┆ …        ┆ …         ┆ …     ┆ …            │\n",
       "│ Orthodox           ┆ 13    ┆ 17      ┆ 23      ┆ … ┆ 38       ┆ 42        ┆ 46    ┆ 73           │\n",
       "│ Other Christian    ┆ 9     ┆ 7       ┆ 11      ┆ … ┆ 18       ┆ 14        ┆ 12    ┆ 18           │\n",
       "│ Other Faiths       ┆ 20    ┆ 33      ┆ 40      ┆ … ┆ 46       ┆ 40        ┆ 41    ┆ 71           │\n",
       "│ Other World        ┆ 5     ┆ 2       ┆ 3       ┆ … ┆ 3        ┆ 4         ┆ 4     ┆ 8            │\n",
       "│ Religions          ┆       ┆         ┆         ┆   ┆          ┆           ┆       ┆              │\n",
       "│ Unaffiliated       ┆ 217   ┆ 299     ┆ 374     ┆ … ┆ 407      ┆ 321       ┆ 258   ┆ 597          │\n",
       "└────────────────────┴───────┴─────────┴─────────┴───┴──────────┴───────────┴───────┴──────────────┘"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "relig_income = pl.read_csv(\"./Data_files/relig_income.csv\")\n",
    "relig_income"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "> The relig_income dataset stores counts based on a survey which (among other things) asked people about their religion and annual income. \n",
    "> This dataset contains three variables:\n",
    "\n",
    ">   - religion, stored in the rows,\n",
    ">   - income spread across the column names, and\n",
    ">   - count stored in the cell values.\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "We can flip this into long form, and ensure each variable has its own column - this can be achieved with the [unpivot](https://docs.pola.rs/api/python/stable/reference/dataframe/api/polars.DataFrame.unpivot.html#polars.DataFrame.unpivot) method:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (180, 3)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>religion</th><th>income</th><th>count</th></tr><tr><td>str</td><td>str</td><td>i64</td></tr></thead><tbody><tr><td>&quot;Agnostic&quot;</td><td>&quot;&lt;$10k&quot;</td><td>27</td></tr><tr><td>&quot;Atheist&quot;</td><td>&quot;&lt;$10k&quot;</td><td>12</td></tr><tr><td>&quot;Buddhist&quot;</td><td>&quot;&lt;$10k&quot;</td><td>27</td></tr><tr><td>&quot;Catholic&quot;</td><td>&quot;&lt;$10k&quot;</td><td>418</td></tr><tr><td>&quot;Don’t know/refused&quot;</td><td>&quot;&lt;$10k&quot;</td><td>15</td></tr><tr><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td></tr><tr><td>&quot;Orthodox&quot;</td><td>&quot;Don&#x27;t know/refused&quot;</td><td>73</td></tr><tr><td>&quot;Other Christian&quot;</td><td>&quot;Don&#x27;t know/refused&quot;</td><td>18</td></tr><tr><td>&quot;Other Faiths&quot;</td><td>&quot;Don&#x27;t know/refused&quot;</td><td>71</td></tr><tr><td>&quot;Other World Religions&quot;</td><td>&quot;Don&#x27;t know/refused&quot;</td><td>8</td></tr><tr><td>&quot;Unaffiliated&quot;</td><td>&quot;Don&#x27;t know/refused&quot;</td><td>597</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (180, 3)\n",
       "┌───────────────────────┬────────────────────┬───────┐\n",
       "│ religion              ┆ income             ┆ count │\n",
       "│ ---                   ┆ ---                ┆ ---   │\n",
       "│ str                   ┆ str                ┆ i64   │\n",
       "╞═══════════════════════╪════════════════════╪═══════╡\n",
       "│ Agnostic              ┆ <$10k              ┆ 27    │\n",
       "│ Atheist               ┆ <$10k              ┆ 12    │\n",
       "│ Buddhist              ┆ <$10k              ┆ 27    │\n",
       "│ Catholic              ┆ <$10k              ┆ 418   │\n",
       "│ Don’t know/refused    ┆ <$10k              ┆ 15    │\n",
       "│ …                     ┆ …                  ┆ …     │\n",
       "│ Orthodox              ┆ Don't know/refused ┆ 73    │\n",
       "│ Other Christian       ┆ Don't know/refused ┆ 18    │\n",
       "│ Other Faiths          ┆ Don't know/refused ┆ 71    │\n",
       "│ Other World Religions ┆ Don't know/refused ┆ 8     │\n",
       "│ Unaffiliated          ┆ Don't know/refused ┆ 597   │\n",
       "└───────────────────────┴────────────────────┴───────┘"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "relig_income.unpivot(index=\"religion\", variable_name=\"income\", value_name=\"count\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "No preprocessing required here."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## **Numeric data in column names**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (317, 81)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>year</th><th>artist</th><th>track</th><th>time</th><th>date.entered</th><th>wk1</th><th>wk2</th><th>wk3</th><th>wk4</th><th>wk5</th><th>wk6</th><th>wk7</th><th>wk8</th><th>wk9</th><th>wk10</th><th>wk11</th><th>wk12</th><th>wk13</th><th>wk14</th><th>wk15</th><th>wk16</th><th>wk17</th><th>wk18</th><th>wk19</th><th>wk20</th><th>wk21</th><th>wk22</th><th>wk23</th><th>wk24</th><th>wk25</th><th>wk26</th><th>wk27</th><th>wk28</th><th>wk29</th><th>wk30</th><th>wk31</th><th>wk32</th><th>&hellip;</th><th>wk40</th><th>wk41</th><th>wk42</th><th>wk43</th><th>wk44</th><th>wk45</th><th>wk46</th><th>wk47</th><th>wk48</th><th>wk49</th><th>wk50</th><th>wk51</th><th>wk52</th><th>wk53</th><th>wk54</th><th>wk55</th><th>wk56</th><th>wk57</th><th>wk58</th><th>wk59</th><th>wk60</th><th>wk61</th><th>wk62</th><th>wk63</th><th>wk64</th><th>wk65</th><th>wk66</th><th>wk67</th><th>wk68</th><th>wk69</th><th>wk70</th><th>wk71</th><th>wk72</th><th>wk73</th><th>wk74</th><th>wk75</th><th>wk76</th></tr><tr><td>i64</td><td>str</td><td>str</td><td>str</td><td>str</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>&hellip;</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td><td>i32</td></tr></thead><tbody><tr><td>2000</td><td>&quot;2 Pac&quot;</td><td>&quot;Baby Don&#x27;t Cry (Keep...&quot;</td><td>&quot;4:22&quot;</td><td>&quot;2000-02-26&quot;</td><td>87</td><td>82</td><td>72</td><td>77</td><td>87</td><td>94</td><td>99</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>&hellip;</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>2000</td><td>&quot;2Ge+her&quot;</td><td>&quot;The Hardest Part Of ...&quot;</td><td>&quot;3:15&quot;</td><td>&quot;2000-09-02&quot;</td><td>91</td><td>87</td><td>92</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>&hellip;</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>2000</td><td>&quot;3 Doors Down&quot;</td><td>&quot;Kryptonite&quot;</td><td>&quot;3:53&quot;</td><td>&quot;2000-04-08&quot;</td><td>81</td><td>70</td><td>68</td><td>67</td><td>66</td><td>57</td><td>54</td><td>53</td><td>51</td><td>51</td><td>51</td><td>51</td><td>47</td><td>44</td><td>38</td><td>28</td><td>22</td><td>18</td><td>18</td><td>14</td><td>12</td><td>7</td><td>6</td><td>6</td><td>6</td><td>5</td><td>5</td><td>4</td><td>4</td><td>4</td><td>4</td><td>3</td><td>&hellip;</td><td>15</td><td>14</td><td>13</td><td>14</td><td>16</td><td>17</td><td>21</td><td>22</td><td>24</td><td>28</td><td>33</td><td>42</td><td>42</td><td>49</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>2000</td><td>&quot;3 Doors Down&quot;</td><td>&quot;Loser&quot;</td><td>&quot;4:24&quot;</td><td>&quot;2000-10-21&quot;</td><td>76</td><td>76</td><td>72</td><td>69</td><td>67</td><td>65</td><td>55</td><td>59</td><td>62</td><td>61</td><td>61</td><td>59</td><td>61</td><td>66</td><td>72</td><td>76</td><td>75</td><td>67</td><td>73</td><td>70</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>&hellip;</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>2000</td><td>&quot;504 Boyz&quot;</td><td>&quot;Wobble Wobble&quot;</td><td>&quot;3:35&quot;</td><td>&quot;2000-04-15&quot;</td><td>57</td><td>34</td><td>25</td><td>17</td><td>17</td><td>31</td><td>36</td><td>49</td><td>53</td><td>57</td><td>64</td><td>70</td><td>75</td><td>76</td><td>78</td><td>85</td><td>92</td><td>96</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>&hellip;</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td></tr><tr><td>2000</td><td>&quot;Yankee Grey&quot;</td><td>&quot;Another Nine Minutes&quot;</td><td>&quot;3:10&quot;</td><td>&quot;2000-04-29&quot;</td><td>86</td><td>83</td><td>77</td><td>74</td><td>83</td><td>79</td><td>88</td><td>95</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>&hellip;</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>2000</td><td>&quot;Yearwood, Trisha&quot;</td><td>&quot;Real Live Woman&quot;</td><td>&quot;3:55&quot;</td><td>&quot;2000-04-01&quot;</td><td>85</td><td>83</td><td>83</td><td>82</td><td>81</td><td>91</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>&hellip;</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>2000</td><td>&quot;Ying Yang Twins&quot;</td><td>&quot;Whistle While You Tw...&quot;</td><td>&quot;4:19&quot;</td><td>&quot;2000-03-18&quot;</td><td>95</td><td>94</td><td>91</td><td>85</td><td>84</td><td>78</td><td>74</td><td>78</td><td>85</td><td>89</td><td>97</td><td>96</td><td>99</td><td>99</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>&hellip;</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>2000</td><td>&quot;Zombie Nation&quot;</td><td>&quot;Kernkraft 400&quot;</td><td>&quot;3:30&quot;</td><td>&quot;2000-09-02&quot;</td><td>99</td><td>99</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>&hellip;</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>2000</td><td>&quot;matchbox twenty&quot;</td><td>&quot;Bent&quot;</td><td>&quot;4:12&quot;</td><td>&quot;2000-04-29&quot;</td><td>60</td><td>37</td><td>29</td><td>24</td><td>22</td><td>21</td><td>18</td><td>16</td><td>13</td><td>12</td><td>8</td><td>6</td><td>1</td><td>2</td><td>3</td><td>2</td><td>2</td><td>3</td><td>4</td><td>5</td><td>4</td><td>4</td><td>6</td><td>9</td><td>12</td><td>13</td><td>19</td><td>20</td><td>20</td><td>24</td><td>29</td><td>28</td><td>&hellip;</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (317, 81)\n",
       "┌──────┬──────────────────┬─────────────────────────┬──────┬───┬──────┬──────┬──────┬──────┐\n",
       "│ year ┆ artist           ┆ track                   ┆ time ┆ … ┆ wk73 ┆ wk74 ┆ wk75 ┆ wk76 │\n",
       "│ ---  ┆ ---              ┆ ---                     ┆ ---  ┆   ┆ ---  ┆ ---  ┆ ---  ┆ ---  │\n",
       "│ i64  ┆ str              ┆ str                     ┆ str  ┆   ┆ i32  ┆ i32  ┆ i32  ┆ i32  │\n",
       "╞══════╪══════════════════╪═════════════════════════╪══════╪═══╪══════╪══════╪══════╪══════╡\n",
       "│ 2000 ┆ 2 Pac            ┆ Baby Don't Cry (Keep... ┆ 4:22 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "│ 2000 ┆ 2Ge+her          ┆ The Hardest Part Of ... ┆ 3:15 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "│ 2000 ┆ 3 Doors Down     ┆ Kryptonite              ┆ 3:53 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "│ 2000 ┆ 3 Doors Down     ┆ Loser                   ┆ 4:24 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "│ 2000 ┆ 504 Boyz         ┆ Wobble Wobble           ┆ 3:35 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "│ …    ┆ …                ┆ …                       ┆ …    ┆ … ┆ …    ┆ …    ┆ …    ┆ …    │\n",
       "│ 2000 ┆ Yankee Grey      ┆ Another Nine Minutes    ┆ 3:10 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "│ 2000 ┆ Yearwood, Trisha ┆ Real Live Woman         ┆ 3:55 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "│ 2000 ┆ Ying Yang Twins  ┆ Whistle While You Tw... ┆ 4:19 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "│ 2000 ┆ Zombie Nation    ┆ Kernkraft 400           ┆ 3:30 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "│ 2000 ┆ matchbox twenty  ┆ Bent                    ┆ 4:12 ┆ … ┆ null ┆ null ┆ null ┆ null │\n",
       "└──────┴──────────────────┴─────────────────────────┴──────┴───┴──────┴──────┴──────┴──────┘"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "billboard = pl.read_csv(\"./Data_files/billboard.csv\", null_values=\"NA\")\n",
    "billboard = billboard.with_columns(cs.starts_with(\"wk\").cast(pl.Int32))\n",
    "billboard"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    ">The billboard dataset records the billboard rank of songs in the year 2000. It has a form similar to the relig_income data, but the data encoded in the column names is really a number, not a string."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Let's unpivot the data into a tidy form:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (5_307, 7)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>year</th><th>artist</th><th>track</th><th>time</th><th>date.entered</th><th>week</th><th>rank</th></tr><tr><td>i64</td><td>str</td><td>str</td><td>str</td><td>str</td><td>str</td><td>i32</td></tr></thead><tbody><tr><td>2000</td><td>&quot;2 Pac&quot;</td><td>&quot;Baby Don&#x27;t Cry (Keep...&quot;</td><td>&quot;4:22&quot;</td><td>&quot;2000-02-26&quot;</td><td>&quot;wk1&quot;</td><td>87</td></tr><tr><td>2000</td><td>&quot;2Ge+her&quot;</td><td>&quot;The Hardest Part Of ...&quot;</td><td>&quot;3:15&quot;</td><td>&quot;2000-09-02&quot;</td><td>&quot;wk1&quot;</td><td>91</td></tr><tr><td>2000</td><td>&quot;3 Doors Down&quot;</td><td>&quot;Kryptonite&quot;</td><td>&quot;3:53&quot;</td><td>&quot;2000-04-08&quot;</td><td>&quot;wk1&quot;</td><td>81</td></tr><tr><td>2000</td><td>&quot;3 Doors Down&quot;</td><td>&quot;Loser&quot;</td><td>&quot;4:24&quot;</td><td>&quot;2000-10-21&quot;</td><td>&quot;wk1&quot;</td><td>76</td></tr><tr><td>2000</td><td>&quot;504 Boyz&quot;</td><td>&quot;Wobble Wobble&quot;</td><td>&quot;3:35&quot;</td><td>&quot;2000-04-15&quot;</td><td>&quot;wk1&quot;</td><td>57</td></tr><tr><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td></tr><tr><td>2000</td><td>&quot;Creed&quot;</td><td>&quot;Higher&quot;</td><td>&quot;5:16&quot;</td><td>&quot;1999-09-11&quot;</td><td>&quot;wk63&quot;</td><td>50</td></tr><tr><td>2000</td><td>&quot;Lonestar&quot;</td><td>&quot;Amazed&quot;</td><td>&quot;4:25&quot;</td><td>&quot;1999-06-05&quot;</td><td>&quot;wk63&quot;</td><td>45</td></tr><tr><td>2000</td><td>&quot;Creed&quot;</td><td>&quot;Higher&quot;</td><td>&quot;5:16&quot;</td><td>&quot;1999-09-11&quot;</td><td>&quot;wk64&quot;</td><td>50</td></tr><tr><td>2000</td><td>&quot;Lonestar&quot;</td><td>&quot;Amazed&quot;</td><td>&quot;4:25&quot;</td><td>&quot;1999-06-05&quot;</td><td>&quot;wk64&quot;</td><td>50</td></tr><tr><td>2000</td><td>&quot;Creed&quot;</td><td>&quot;Higher&quot;</td><td>&quot;5:16&quot;</td><td>&quot;1999-09-11&quot;</td><td>&quot;wk65&quot;</td><td>49</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (5_307, 7)\n",
       "┌──────┬──────────────┬─────────────────────────┬──────┬──────────────┬──────┬──────┐\n",
       "│ year ┆ artist       ┆ track                   ┆ time ┆ date.entered ┆ week ┆ rank │\n",
       "│ ---  ┆ ---          ┆ ---                     ┆ ---  ┆ ---          ┆ ---  ┆ ---  │\n",
       "│ i64  ┆ str          ┆ str                     ┆ str  ┆ str          ┆ str  ┆ i32  │\n",
       "╞══════╪══════════════╪═════════════════════════╪══════╪══════════════╪══════╪══════╡\n",
       "│ 2000 ┆ 2 Pac        ┆ Baby Don't Cry (Keep... ┆ 4:22 ┆ 2000-02-26   ┆ wk1  ┆ 87   │\n",
       "│ 2000 ┆ 2Ge+her      ┆ The Hardest Part Of ... ┆ 3:15 ┆ 2000-09-02   ┆ wk1  ┆ 91   │\n",
       "│ 2000 ┆ 3 Doors Down ┆ Kryptonite              ┆ 3:53 ┆ 2000-04-08   ┆ wk1  ┆ 81   │\n",
       "│ 2000 ┆ 3 Doors Down ┆ Loser                   ┆ 4:24 ┆ 2000-10-21   ┆ wk1  ┆ 76   │\n",
       "│ 2000 ┆ 504 Boyz     ┆ Wobble Wobble           ┆ 3:35 ┆ 2000-04-15   ┆ wk1  ┆ 57   │\n",
       "│ …    ┆ …            ┆ …                       ┆ …    ┆ …            ┆ …    ┆ …    │\n",
       "│ 2000 ┆ Creed        ┆ Higher                  ┆ 5:16 ┆ 1999-09-11   ┆ wk63 ┆ 50   │\n",
       "│ 2000 ┆ Lonestar     ┆ Amazed                  ┆ 4:25 ┆ 1999-06-05   ┆ wk63 ┆ 45   │\n",
       "│ 2000 ┆ Creed        ┆ Higher                  ┆ 5:16 ┆ 1999-09-11   ┆ wk64 ┆ 50   │\n",
       "│ 2000 ┆ Lonestar     ┆ Amazed                  ┆ 4:25 ┆ 1999-06-05   ┆ wk64 ┆ 50   │\n",
       "│ 2000 ┆ Creed        ┆ Higher                  ┆ 5:16 ┆ 1999-09-11   ┆ wk65 ┆ 49   │\n",
       "└──────┴──────────────┴─────────────────────────┴──────┴──────────────┴──────┴──────┘"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "(\n",
    "    billboard.unpivot(\n",
    "        index=~cs.starts_with(\"wk\"), variable_name=\"week\", value_name=\"rank\"\n",
    "    )\n",
    "    # irrelevant nulls\n",
    "    .drop_nulls(subset=\"rank\")\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "> It would be nice to easily determine how long each song stayed in the charts, but to do that, we’ll need to convert the week variable to an integer.\n",
    "\n",
    "This is where the post processing comes into play after the unpivoting  - extract the number from the string column, and cast the extracted column to an integer dtype:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (5_307, 7)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>year</th><th>artist</th><th>track</th><th>time</th><th>date.entered</th><th>week</th><th>rank</th></tr><tr><td>i64</td><td>str</td><td>str</td><td>str</td><td>str</td><td>i16</td><td>i32</td></tr></thead><tbody><tr><td>2000</td><td>&quot;2 Pac&quot;</td><td>&quot;Baby Don&#x27;t Cry (Keep...&quot;</td><td>&quot;4:22&quot;</td><td>&quot;2000-02-26&quot;</td><td>1</td><td>87</td></tr><tr><td>2000</td><td>&quot;2Ge+her&quot;</td><td>&quot;The Hardest Part Of ...&quot;</td><td>&quot;3:15&quot;</td><td>&quot;2000-09-02&quot;</td><td>1</td><td>91</td></tr><tr><td>2000</td><td>&quot;3 Doors Down&quot;</td><td>&quot;Kryptonite&quot;</td><td>&quot;3:53&quot;</td><td>&quot;2000-04-08&quot;</td><td>1</td><td>81</td></tr><tr><td>2000</td><td>&quot;3 Doors Down&quot;</td><td>&quot;Loser&quot;</td><td>&quot;4:24&quot;</td><td>&quot;2000-10-21&quot;</td><td>1</td><td>76</td></tr><tr><td>2000</td><td>&quot;504 Boyz&quot;</td><td>&quot;Wobble Wobble&quot;</td><td>&quot;3:35&quot;</td><td>&quot;2000-04-15&quot;</td><td>1</td><td>57</td></tr><tr><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td></tr><tr><td>2000</td><td>&quot;Creed&quot;</td><td>&quot;Higher&quot;</td><td>&quot;5:16&quot;</td><td>&quot;1999-09-11&quot;</td><td>3</td><td>50</td></tr><tr><td>2000</td><td>&quot;Lonestar&quot;</td><td>&quot;Amazed&quot;</td><td>&quot;4:25&quot;</td><td>&quot;1999-06-05&quot;</td><td>3</td><td>45</td></tr><tr><td>2000</td><td>&quot;Creed&quot;</td><td>&quot;Higher&quot;</td><td>&quot;5:16&quot;</td><td>&quot;1999-09-11&quot;</td><td>4</td><td>50</td></tr><tr><td>2000</td><td>&quot;Lonestar&quot;</td><td>&quot;Amazed&quot;</td><td>&quot;4:25&quot;</td><td>&quot;1999-06-05&quot;</td><td>4</td><td>50</td></tr><tr><td>2000</td><td>&quot;Creed&quot;</td><td>&quot;Higher&quot;</td><td>&quot;5:16&quot;</td><td>&quot;1999-09-11&quot;</td><td>5</td><td>49</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (5_307, 7)\n",
       "┌──────┬──────────────┬─────────────────────────┬──────┬──────────────┬──────┬──────┐\n",
       "│ year ┆ artist       ┆ track                   ┆ time ┆ date.entered ┆ week ┆ rank │\n",
       "│ ---  ┆ ---          ┆ ---                     ┆ ---  ┆ ---          ┆ ---  ┆ ---  │\n",
       "│ i64  ┆ str          ┆ str                     ┆ str  ┆ str          ┆ i16  ┆ i32  │\n",
       "╞══════╪══════════════╪═════════════════════════╪══════╪══════════════╪══════╪══════╡\n",
       "│ 2000 ┆ 2 Pac        ┆ Baby Don't Cry (Keep... ┆ 4:22 ┆ 2000-02-26   ┆ 1    ┆ 87   │\n",
       "│ 2000 ┆ 2Ge+her      ┆ The Hardest Part Of ... ┆ 3:15 ┆ 2000-09-02   ┆ 1    ┆ 91   │\n",
       "│ 2000 ┆ 3 Doors Down ┆ Kryptonite              ┆ 3:53 ┆ 2000-04-08   ┆ 1    ┆ 81   │\n",
       "│ 2000 ┆ 3 Doors Down ┆ Loser                   ┆ 4:24 ┆ 2000-10-21   ┆ 1    ┆ 76   │\n",
       "│ 2000 ┆ 504 Boyz     ┆ Wobble Wobble           ┆ 3:35 ┆ 2000-04-15   ┆ 1    ┆ 57   │\n",
       "│ …    ┆ …            ┆ …                       ┆ …    ┆ …            ┆ …    ┆ …    │\n",
       "│ 2000 ┆ Creed        ┆ Higher                  ┆ 5:16 ┆ 1999-09-11   ┆ 3    ┆ 50   │\n",
       "│ 2000 ┆ Lonestar     ┆ Amazed                  ┆ 4:25 ┆ 1999-06-05   ┆ 3    ┆ 45   │\n",
       "│ 2000 ┆ Creed        ┆ Higher                  ┆ 5:16 ┆ 1999-09-11   ┆ 4    ┆ 50   │\n",
       "│ 2000 ┆ Lonestar     ┆ Amazed                  ┆ 4:25 ┆ 1999-06-05   ┆ 4    ┆ 50   │\n",
       "│ 2000 ┆ Creed        ┆ Higher                  ┆ 5:16 ┆ 1999-09-11   ┆ 5    ┆ 49   │\n",
       "└──────┴──────────────┴─────────────────────────┴──────┴──────────────┴──────┴──────┘"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "(\n",
    "    billboard.unpivot(\n",
    "        index=~cs.starts_with(\"wk\"), variable_name=\"week\", value_name=\"rank\"\n",
    "    )\n",
    "    # irrelevant nulls\n",
    "    .drop_nulls(subset=\"rank\").with_columns(\n",
    "        week=pl.col(\"week\").str.slice(-1).cast(pl.Int16)\n",
    "    )\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## **Many variables in column names**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (7_240, 60)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>country</th><th>iso2</th><th>iso3</th><th>year</th><th>new_sp_m014</th><th>new_sp_m1524</th><th>new_sp_m2534</th><th>new_sp_m3544</th><th>new_sp_m4554</th><th>new_sp_m5564</th><th>new_sp_m65</th><th>new_sp_f014</th><th>new_sp_f1524</th><th>new_sp_f2534</th><th>new_sp_f3544</th><th>new_sp_f4554</th><th>new_sp_f5564</th><th>new_sp_f65</th><th>new_sn_m014</th><th>new_sn_m1524</th><th>new_sn_m2534</th><th>new_sn_m3544</th><th>new_sn_m4554</th><th>new_sn_m5564</th><th>new_sn_m65</th><th>new_sn_f014</th><th>new_sn_f1524</th><th>new_sn_f2534</th><th>new_sn_f3544</th><th>new_sn_f4554</th><th>new_sn_f5564</th><th>new_sn_f65</th><th>new_ep_m014</th><th>new_ep_m1524</th><th>new_ep_m2534</th><th>new_ep_m3544</th><th>new_ep_m4554</th><th>new_ep_m5564</th><th>new_ep_m65</th><th>new_ep_f014</th><th>new_ep_f1524</th><th>new_ep_f2534</th><th>new_ep_f3544</th><th>new_ep_f4554</th><th>new_ep_f5564</th><th>new_ep_f65</th><th>newrel_m014</th><th>newrel_m1524</th><th>newrel_m2534</th><th>newrel_m3544</th><th>newrel_m4554</th><th>newrel_m5564</th><th>newrel_m65</th><th>newrel_f014</th><th>newrel_f1524</th><th>newrel_f2534</th><th>newrel_f3544</th><th>newrel_f4554</th><th>newrel_f5564</th><th>newrel_f65</th></tr><tr><td>str</td><td>str</td><td>str</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td></tr></thead><tbody><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1980</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1981</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1982</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1983</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1984</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2009</td><td>125</td><td>578</td><td>null</td><td>3471</td><td>681</td><td>293</td><td>192</td><td>180</td><td>873</td><td>null</td><td>3028</td><td>419</td><td>229</td><td>126</td><td>1560</td><td>860</td><td>null</td><td>6496</td><td>1655</td><td>882</td><td>861</td><td>1425</td><td>1334</td><td>null</td><td>7023</td><td>1551</td><td>729</td><td>514</td><td>244</td><td>266</td><td>0</td><td>1922</td><td>491</td><td>231</td><td>223</td><td>210</td><td>394</td><td>0</td><td>1944</td><td>438</td><td>182</td><td>138</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2010</td><td>150</td><td>710</td><td>2208</td><td>1682</td><td>761</td><td>350</td><td>252</td><td>173</td><td>974</td><td>2185</td><td>1283</td><td>490</td><td>265</td><td>171</td><td>1826</td><td>821</td><td>3342</td><td>3270</td><td>1545</td><td>882</td><td>864</td><td>1732</td><td>1282</td><td>4013</td><td>2851</td><td>1377</td><td>789</td><td>563</td><td>270</td><td>243</td><td>902</td><td>868</td><td>418</td><td>229</td><td>192</td><td>220</td><td>319</td><td>1058</td><td>677</td><td>338</td><td>181</td><td>146</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2011</td><td>152</td><td>784</td><td>2467</td><td>2071</td><td>780</td><td>377</td><td>278</td><td>174</td><td>1084</td><td>2161</td><td>1386</td><td>448</td><td>274</td><td>160</td><td>1364</td><td>596</td><td>2473</td><td>2813</td><td>1264</td><td>702</td><td>728</td><td>1271</td><td>947</td><td>2754</td><td>2216</td><td>962</td><td>587</td><td>495</td><td>250</td><td>195</td><td>746</td><td>796</td><td>342</td><td>172</td><td>172</td><td>209</td><td>318</td><td>802</td><td>640</td><td>284</td><td>137</td><td>129</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2012</td><td>120</td><td>783</td><td>2421</td><td>2086</td><td>796</td><td>360</td><td>271</td><td>173</td><td>939</td><td>2053</td><td>1286</td><td>483</td><td>231</td><td>161</td><td>1169</td><td>613</td><td>2302</td><td>2657</td><td>1154</td><td>708</td><td>796</td><td>1008</td><td>888</td><td>2287</td><td>1957</td><td>829</td><td>516</td><td>432</td><td>233</td><td>214</td><td>658</td><td>789</td><td>331</td><td>178</td><td>182</td><td>208</td><td>319</td><td>710</td><td>579</td><td>228</td><td>140</td><td>143</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2013</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>null</td><td>1315</td><td>1642</td><td>5331</td><td>5363</td><td>2349</td><td>1206</td><td>1208</td><td>1252</td><td>2069</td><td>4649</td><td>3526</td><td>1453</td><td>811</td><td>725</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (7_240, 60)\n",
       "┌─────────────┬──────┬──────┬──────┬───┬──────────────┬──────────────┬──────────────┬────────────┐\n",
       "│ country     ┆ iso2 ┆ iso3 ┆ year ┆ … ┆ newrel_f3544 ┆ newrel_f4554 ┆ newrel_f5564 ┆ newrel_f65 │\n",
       "│ ---         ┆ ---  ┆ ---  ┆ ---  ┆   ┆ ---          ┆ ---          ┆ ---          ┆ ---        │\n",
       "│ str         ┆ str  ┆ str  ┆ i64  ┆   ┆ i64          ┆ i64          ┆ i64          ┆ i64        │\n",
       "╞═════════════╪══════╪══════╪══════╪═══╪══════════════╪══════════════╪══════════════╪════════════╡\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1980 ┆ … ┆ null         ┆ null         ┆ null         ┆ null       │\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1981 ┆ … ┆ null         ┆ null         ┆ null         ┆ null       │\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1982 ┆ … ┆ null         ┆ null         ┆ null         ┆ null       │\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1983 ┆ … ┆ null         ┆ null         ┆ null         ┆ null       │\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1984 ┆ … ┆ null         ┆ null         ┆ null         ┆ null       │\n",
       "│ …           ┆ …    ┆ …    ┆ …    ┆ … ┆ …            ┆ …            ┆ …            ┆ …          │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2009 ┆ … ┆ null         ┆ null         ┆ null         ┆ null       │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2010 ┆ … ┆ null         ┆ null         ┆ null         ┆ null       │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2011 ┆ … ┆ null         ┆ null         ┆ null         ┆ null       │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2012 ┆ … ┆ null         ┆ null         ┆ null         ┆ null       │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2013 ┆ … ┆ 3526         ┆ 1453         ┆ 811          ┆ 725        │\n",
       "└─────────────┴──────┴──────┴──────┴───┴──────────────┴──────────────┴──────────────┴────────────┘"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "who = pl.read_csv(\"./Data_files/who.csv\", null_values=\"NA\")\n",
    "who"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "> A more challenging situation occurs when you have multiple variables crammed into the column names. For example, take the who dataset above.\n",
    ">\n",
    ">- country, iso2, iso3, and year are already variables, so they can be left as is. But the columns from new_sp_m014 to newrel_f65 encode four variables in their names:\n",
    ">\n",
    ">- the new_/new prefix indicates these are counts of new cases. This dataset only contains new cases, so we’ll ignore it here because it’s constant.\n",
    ">\n",
    ">- sp/rel/ep describe how the case was diagnosed.\n",
    ">\n",
    ">- m/f gives the gender.\n",
    ">\n",
    ">- 014/1524/2535/3544/4554/65 supplies the age range."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Sticking to the same pattern as [before](#String-data-in-column-names), we unpivot into long form; however, after unpivoting, we extract the relevant fields into new columns using Polars' [efficient string methods](https://docs.pola.rs/api/python/stable/reference/series/string.html) - for this use case a regex is a natural fit:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (405_440, 8)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>country</th><th>iso2</th><th>iso3</th><th>year</th><th>diagnosis</th><th>gender</th><th>age</th><th>count</th></tr><tr><td>str</td><td>str</td><td>str</td><td>i64</td><td>str</td><td>str</td><td>str</td><td>i64</td></tr></thead><tbody><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1980</td><td>&quot;sp&quot;</td><td>&quot;m&quot;</td><td>&quot;014&quot;</td><td>null</td></tr><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1981</td><td>&quot;sp&quot;</td><td>&quot;m&quot;</td><td>&quot;014&quot;</td><td>null</td></tr><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1982</td><td>&quot;sp&quot;</td><td>&quot;m&quot;</td><td>&quot;014&quot;</td><td>null</td></tr><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1983</td><td>&quot;sp&quot;</td><td>&quot;m&quot;</td><td>&quot;014&quot;</td><td>null</td></tr><tr><td>&quot;Afghanistan&quot;</td><td>&quot;AF&quot;</td><td>&quot;AFG&quot;</td><td>1984</td><td>&quot;sp&quot;</td><td>&quot;m&quot;</td><td>&quot;014&quot;</td><td>null</td></tr><tr><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td><td>&hellip;</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2009</td><td>&quot;rel&quot;</td><td>&quot;f&quot;</td><td>&quot;65&quot;</td><td>null</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2010</td><td>&quot;rel&quot;</td><td>&quot;f&quot;</td><td>&quot;65&quot;</td><td>null</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2011</td><td>&quot;rel&quot;</td><td>&quot;f&quot;</td><td>&quot;65&quot;</td><td>null</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2012</td><td>&quot;rel&quot;</td><td>&quot;f&quot;</td><td>&quot;65&quot;</td><td>null</td></tr><tr><td>&quot;Zimbabwe&quot;</td><td>&quot;ZW&quot;</td><td>&quot;ZWE&quot;</td><td>2013</td><td>&quot;rel&quot;</td><td>&quot;f&quot;</td><td>&quot;65&quot;</td><td>725</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (405_440, 8)\n",
       "┌─────────────┬──────┬──────┬──────┬───────────┬────────┬─────┬───────┐\n",
       "│ country     ┆ iso2 ┆ iso3 ┆ year ┆ diagnosis ┆ gender ┆ age ┆ count │\n",
       "│ ---         ┆ ---  ┆ ---  ┆ ---  ┆ ---       ┆ ---    ┆ --- ┆ ---   │\n",
       "│ str         ┆ str  ┆ str  ┆ i64  ┆ str       ┆ str    ┆ str ┆ i64   │\n",
       "╞═════════════╪══════╪══════╪══════╪═══════════╪════════╪═════╪═══════╡\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1980 ┆ sp        ┆ m      ┆ 014 ┆ null  │\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1981 ┆ sp        ┆ m      ┆ 014 ┆ null  │\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1982 ┆ sp        ┆ m      ┆ 014 ┆ null  │\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1983 ┆ sp        ┆ m      ┆ 014 ┆ null  │\n",
       "│ Afghanistan ┆ AF   ┆ AFG  ┆ 1984 ┆ sp        ┆ m      ┆ 014 ┆ null  │\n",
       "│ …           ┆ …    ┆ …    ┆ …    ┆ …         ┆ …      ┆ …   ┆ …     │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2009 ┆ rel       ┆ f      ┆ 65  ┆ null  │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2010 ┆ rel       ┆ f      ┆ 65  ┆ null  │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2011 ┆ rel       ┆ f      ┆ 65  ┆ null  │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2012 ┆ rel       ┆ f      ┆ 65  ┆ null  │\n",
       "│ Zimbabwe    ┆ ZW   ┆ ZWE  ┆ 2013 ┆ rel       ┆ f      ┆ 65  ┆ 725   │\n",
       "└─────────────┴──────┴──────┴──────┴───────────┴────────┴─────┴───────┘"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "regex = r\"new_?(?<diagnosis>.*)_(?<gender>.)(?<age>.*)\"\n",
    "expression = pl.col(\"variable\").str.extract_groups(regex)\n",
    "(\n",
    "    who.unpivot(\n",
    "        index=[\"country\", \"iso2\", \"iso3\", \"year\"],\n",
    "        value_name=\"count\",\n",
    "    )\n",
    "    .with_columns(variable=expression)\n",
    "    .unnest(\"variable\")\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "(group-related-columns)=\n",
    "## **Group related sets of columns**"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (2, 5)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>hr1</th><th>hr2</th><th>team</th><th>year1</th><th>year2</th></tr><tr><td>i64</td><td>i64</td><td>str</td><td>i64</td><td>i64</td></tr></thead><tbody><tr><td>514</td><td>545</td><td>&quot;Red Sox&quot;</td><td>2007</td><td>2008</td></tr><tr><td>573</td><td>526</td><td>&quot;Yankees&quot;</td><td>2007</td><td>2008</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (2, 5)\n",
       "┌─────┬─────┬─────────┬───────┬───────┐\n",
       "│ hr1 ┆ hr2 ┆ team    ┆ year1 ┆ year2 │\n",
       "│ --- ┆ --- ┆ ---     ┆ ---   ┆ ---   │\n",
       "│ i64 ┆ i64 ┆ str     ┆ i64   ┆ i64   │\n",
       "╞═════╪═════╪═════════╪═══════╪═══════╡\n",
       "│ 514 ┆ 545 ┆ Red Sox ┆ 2007  ┆ 2008  │\n",
       "│ 573 ┆ 526 ┆ Yankees ┆ 2007  ┆ 2008  │\n",
       "└─────┴─────┴─────────┴───────┴───────┘"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "baseball = pl.DataFrame(\n",
    "    {\n",
    "        \"hr1\": [514, 573],\n",
    "        \"hr2\": [545, 526],\n",
    "        \"team\": [\"Red Sox\", \"Yankees\"],\n",
    "        \"year1\": [2007, 2007],\n",
    "        \"year2\": [2008, 2008],\n",
    "    }\n",
    ")\n",
    "baseball"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "In the dataframe above, we wish to combine the years (`year1` and `year2`) into a single `year` column, and the hours(`hr1` and `hr2`) into a single `hour` column.\n",
    "\n",
    "For this use case, we have to do some processing before unpivoting - we create structs of the `year*` and `hr*` columns, then we unpivot:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (4, 3)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>team</th><th>hour</th><th>year</th></tr><tr><td>str</td><td>i64</td><td>i64</td></tr></thead><tbody><tr><td>&quot;Red Sox&quot;</td><td>514</td><td>2007</td></tr><tr><td>&quot;Yankees&quot;</td><td>573</td><td>2007</td></tr><tr><td>&quot;Red Sox&quot;</td><td>545</td><td>2008</td></tr><tr><td>&quot;Yankees&quot;</td><td>526</td><td>2008</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (4, 3)\n",
       "┌─────────┬──────┬──────┐\n",
       "│ team    ┆ hour ┆ year │\n",
       "│ ---     ┆ ---  ┆ ---  │\n",
       "│ str     ┆ i64  ┆ i64  │\n",
       "╞═════════╪══════╪══════╡\n",
       "│ Red Sox ┆ 514  ┆ 2007 │\n",
       "│ Yankees ┆ 573  ┆ 2007 │\n",
       "│ Red Sox ┆ 545  ┆ 2008 │\n",
       "│ Yankees ┆ 526  ┆ 2008 │\n",
       "└─────────┴──────┴──────┘"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "expression = [\n",
    "    \"team\",\n",
    "    pl.struct(hour=\"hr1\", year=\"year1\").alias(\"1\"),\n",
    "    pl.struct(hour=\"hr2\", year=\"year2\").alias(\"2\"),\n",
    "]\n",
    "baseball.select(expression).unpivot(index=\"team\").drop(\"variable\").unnest(\"value\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "The above is a variant of [multiple observations per row](#multiple-observations-per-row) which is discussed in the next section."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "(multiple-observations-per-row)=\n",
    "## **Multiple observations per row**"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "> So far, we have been working with data frames that have one observation per row, but many important pivoting problems involve multiple observations per row. You can usually recognise this case because the name of the column that you want to appear in the output is part of the column name in the input. In this section, you’ll learn how to pivot this sort of data."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (5, 5)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>family</th><th>dob_child1</th><th>dob_child2</th><th>name_child1</th><th>name_child2</th></tr><tr><td>i64</td><td>str</td><td>str</td><td>str</td><td>str</td></tr></thead><tbody><tr><td>1</td><td>&quot;1998-11-26&quot;</td><td>&quot;2000-01-29&quot;</td><td>&quot;Susan&quot;</td><td>&quot;Jose&quot;</td></tr><tr><td>2</td><td>&quot;1996-06-22&quot;</td><td>null</td><td>&quot;Mark&quot;</td><td>null</td></tr><tr><td>3</td><td>&quot;2002-07-11&quot;</td><td>&quot;2004-04-05&quot;</td><td>&quot;Sam&quot;</td><td>&quot;Seth&quot;</td></tr><tr><td>4</td><td>&quot;2004-10-10&quot;</td><td>&quot;2009-08-27&quot;</td><td>&quot;Craig&quot;</td><td>&quot;Khai&quot;</td></tr><tr><td>5</td><td>&quot;2000-12-05&quot;</td><td>&quot;2005-02-28&quot;</td><td>&quot;Parker&quot;</td><td>&quot;Gracie&quot;</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (5, 5)\n",
       "┌────────┬────────────┬────────────┬─────────────┬─────────────┐\n",
       "│ family ┆ dob_child1 ┆ dob_child2 ┆ name_child1 ┆ name_child2 │\n",
       "│ ---    ┆ ---        ┆ ---        ┆ ---         ┆ ---         │\n",
       "│ i64    ┆ str        ┆ str        ┆ str         ┆ str         │\n",
       "╞════════╪════════════╪════════════╪═════════════╪═════════════╡\n",
       "│ 1      ┆ 1998-11-26 ┆ 2000-01-29 ┆ Susan       ┆ Jose        │\n",
       "│ 2      ┆ 1996-06-22 ┆ null       ┆ Mark        ┆ null        │\n",
       "│ 3      ┆ 2002-07-11 ┆ 2004-04-05 ┆ Sam         ┆ Seth        │\n",
       "│ 4      ┆ 2004-10-10 ┆ 2009-08-27 ┆ Craig       ┆ Khai        │\n",
       "│ 5      ┆ 2000-12-05 ┆ 2005-02-28 ┆ Parker      ┆ Gracie      │\n",
       "└────────┴────────────┴────────────┴─────────────┴─────────────┘"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "household = pl.read_csv(\"./Data_files/household.csv\", null_values=\"NA\")\n",
    "household"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "> Note that we have two pieces of information (or values) for each child: their name and their dob (date of birth). These need to go into separate columns in the result. \n",
    "\n",
    "Steps involved:\n",
    "- unpivot into long form\n",
    "- string split into individual columns. \n",
    "- [pivot](https://docs.pola.rs/api/python/stable/reference/dataframe/api/polars.DataFrame.pivot.html) the dataframe, to keep `dob` and `name` as headers"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (9, 4)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>family</th><th>child</th><th>dob</th><th>name</th></tr><tr><td>i64</td><td>str</td><td>str</td><td>str</td></tr></thead><tbody><tr><td>1</td><td>&quot;child1&quot;</td><td>&quot;1998-11-26&quot;</td><td>&quot;Susan&quot;</td></tr><tr><td>2</td><td>&quot;child1&quot;</td><td>&quot;1996-06-22&quot;</td><td>&quot;Mark&quot;</td></tr><tr><td>3</td><td>&quot;child1&quot;</td><td>&quot;2002-07-11&quot;</td><td>&quot;Sam&quot;</td></tr><tr><td>4</td><td>&quot;child1&quot;</td><td>&quot;2004-10-10&quot;</td><td>&quot;Craig&quot;</td></tr><tr><td>5</td><td>&quot;child1&quot;</td><td>&quot;2000-12-05&quot;</td><td>&quot;Parker&quot;</td></tr><tr><td>1</td><td>&quot;child2&quot;</td><td>&quot;2000-01-29&quot;</td><td>&quot;Jose&quot;</td></tr><tr><td>3</td><td>&quot;child2&quot;</td><td>&quot;2004-04-05&quot;</td><td>&quot;Seth&quot;</td></tr><tr><td>4</td><td>&quot;child2&quot;</td><td>&quot;2009-08-27&quot;</td><td>&quot;Khai&quot;</td></tr><tr><td>5</td><td>&quot;child2&quot;</td><td>&quot;2005-02-28&quot;</td><td>&quot;Gracie&quot;</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (9, 4)\n",
       "┌────────┬────────┬────────────┬────────┐\n",
       "│ family ┆ child  ┆ dob        ┆ name   │\n",
       "│ ---    ┆ ---    ┆ ---        ┆ ---    │\n",
       "│ i64    ┆ str    ┆ str        ┆ str    │\n",
       "╞════════╪════════╪════════════╪════════╡\n",
       "│ 1      ┆ child1 ┆ 1998-11-26 ┆ Susan  │\n",
       "│ 2      ┆ child1 ┆ 1996-06-22 ┆ Mark   │\n",
       "│ 3      ┆ child1 ┆ 2002-07-11 ┆ Sam    │\n",
       "│ 4      ┆ child1 ┆ 2004-10-10 ┆ Craig  │\n",
       "│ 5      ┆ child1 ┆ 2000-12-05 ┆ Parker │\n",
       "│ 1      ┆ child2 ┆ 2000-01-29 ┆ Jose   │\n",
       "│ 3      ┆ child2 ┆ 2004-04-05 ┆ Seth   │\n",
       "│ 4      ┆ child2 ┆ 2009-08-27 ┆ Khai   │\n",
       "│ 5      ┆ child2 ┆ 2005-02-28 ┆ Gracie │\n",
       "└────────┴────────┴────────────┴────────┘"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "expression = pl.col(\"variable\").str.split(\"_\")\n",
    "expression = expression.list.to_struct(fields=[\"header\", \"child\"])\n",
    "(\n",
    "    household.unpivot(index=\"family\")\n",
    "    .drop_nulls(\"value\")\n",
    "    .with_columns(variable=expression)\n",
    "    .unnest(\"variable\")\n",
    "    .pivot(index=[\"family\", \"child\"], on=\"header\", values=\"value\")\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "In the household data above, we had just one header to retain from the column names; what if we had [multiple](https://stackoverflow.com/q/64107566/7175713)?"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (3, 9)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>Sony | TV | Model | value</th><th>Sony | TV | Quantity | value</th><th>Sony | TV | Max-quant | value</th><th>Panasonic | TV | Model | value</th><th>Panasonic | TV | Quantity | value</th><th>Panasonic | TV | Max-quant | value</th><th>Sanyo | Radio | Model | value</th><th>Sanyo | Radio | Quantity | value</th><th>Sanyo | Radio | Max-quant | value</th></tr><tr><td>str</td><td>i64</td><td>i64</td><td>str</td><td>i64</td><td>i64</td><td>str</td><td>i64</td><td>i64</td></tr></thead><tbody><tr><td>&quot;A222&quot;</td><td>5</td><td>10</td><td>&quot;T232&quot;</td><td>1</td><td>10</td><td>&quot;S111&quot;</td><td>4</td><td>9</td></tr><tr><td>&quot;A234&quot;</td><td>5</td><td>9</td><td>&quot;S3424&quot;</td><td>5</td><td>12</td><td>&quot;S1s1&quot;</td><td>2</td><td>9</td></tr><tr><td>&quot;A4345&quot;</td><td>4</td><td>9</td><td>&quot;X3421&quot;</td><td>1</td><td>11</td><td>&quot;S1s2&quot;</td><td>4</td><td>10</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (3, 9)\n",
       "┌───────────┬───────────┬───────────┬───────────┬───┬───────────┬───────────┬───────────┬──────────┐\n",
       "│ Sony | TV ┆ Sony | TV ┆ Sony | TV ┆ Panasonic ┆ … ┆ Panasonic ┆ Sanyo |   ┆ Sanyo |   ┆ Sanyo |  │\n",
       "│ | Model | ┆ |         ┆ |         ┆ | TV |    ┆   ┆ | TV |    ┆ Radio |   ┆ Radio |   ┆ Radio |  │\n",
       "│ value     ┆ Quantity  ┆ Max-quant ┆ Model |   ┆   ┆ Max-quant ┆ Model |   ┆ Quantity  ┆ Max-quan │\n",
       "│ ---       ┆ | value   ┆ | value   ┆ value     ┆   ┆ | v…      ┆ value     ┆ | val…    ┆ t | va…  │\n",
       "│ str       ┆ ---       ┆ ---       ┆ ---       ┆   ┆ ---       ┆ ---       ┆ ---       ┆ ---      │\n",
       "│           ┆ i64       ┆ i64       ┆ str       ┆   ┆ i64       ┆ str       ┆ i64       ┆ i64      │\n",
       "╞═══════════╪═══════════╪═══════════╪═══════════╪═══╪═══════════╪═══════════╪═══════════╪══════════╡\n",
       "│ A222      ┆ 5         ┆ 10        ┆ T232      ┆ … ┆ 10        ┆ S111      ┆ 4         ┆ 9        │\n",
       "│ A234      ┆ 5         ┆ 9         ┆ S3424     ┆ … ┆ 12        ┆ S1s1      ┆ 2         ┆ 9        │\n",
       "│ A4345     ┆ 4         ┆ 9         ┆ X3421     ┆ … ┆ 11        ┆ S1s2      ┆ 4         ┆ 10       │\n",
       "└───────────┴───────────┴───────────┴───────────┴───┴───────────┴───────────┴───────────┴──────────┘"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "manufacturer = pl.DataFrame(\n",
    "    {\n",
    "        \"Sony | TV | Model | value\": [\"A222\", \"A234\", \"A4345\"],\n",
    "        \"Sony | TV | Quantity | value\": [5, 5, 4],\n",
    "        \"Sony | TV | Max-quant | value\": [10, 9, 9],\n",
    "        \"Panasonic | TV | Model | value\": [\"T232\", \"S3424\", \"X3421\"],\n",
    "        \"Panasonic | TV | Quantity | value\": [1, 5, 1],\n",
    "        \"Panasonic | TV | Max-quant | value\": [10, 12, 11],\n",
    "        \"Sanyo | Radio | Model | value\": [\"S111\", \"S1s1\", \"S1s2\"],\n",
    "        \"Sanyo | Radio | Quantity | value\": [4, 2, 4],\n",
    "        \"Sanyo | Radio | Max-quant | value\": [9, 9, 10],\n",
    "    }\n",
    ")\n",
    "\n",
    "manufacturer"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Again, we stick to the same pattern as with the `household` reshaping - unpivot into long form, split into individual columns, and finally pivot the relevant column:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (9, 5)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>Manufacturer</th><th>Device</th><th>Model</th><th>Quantity</th><th>Max-quant</th></tr><tr><td>str</td><td>str</td><td>str</td><td>i16</td><td>i16</td></tr></thead><tbody><tr><td>&quot;Sony&quot;</td><td>&quot;TV&quot;</td><td>&quot;A222&quot;</td><td>5</td><td>10</td></tr><tr><td>&quot;Sony&quot;</td><td>&quot;TV&quot;</td><td>&quot;A234&quot;</td><td>5</td><td>9</td></tr><tr><td>&quot;Sony&quot;</td><td>&quot;TV&quot;</td><td>&quot;A4345&quot;</td><td>4</td><td>9</td></tr><tr><td>&quot;Panasonic&quot;</td><td>&quot;TV&quot;</td><td>&quot;T232&quot;</td><td>1</td><td>10</td></tr><tr><td>&quot;Panasonic&quot;</td><td>&quot;TV&quot;</td><td>&quot;S3424&quot;</td><td>5</td><td>12</td></tr><tr><td>&quot;Panasonic&quot;</td><td>&quot;TV&quot;</td><td>&quot;X3421&quot;</td><td>1</td><td>11</td></tr><tr><td>&quot;Sanyo&quot;</td><td>&quot;Radio&quot;</td><td>&quot;S111&quot;</td><td>4</td><td>9</td></tr><tr><td>&quot;Sanyo&quot;</td><td>&quot;Radio&quot;</td><td>&quot;S1s1&quot;</td><td>2</td><td>9</td></tr><tr><td>&quot;Sanyo&quot;</td><td>&quot;Radio&quot;</td><td>&quot;S1s2&quot;</td><td>4</td><td>10</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (9, 5)\n",
       "┌──────────────┬────────┬───────┬──────────┬───────────┐\n",
       "│ Manufacturer ┆ Device ┆ Model ┆ Quantity ┆ Max-quant │\n",
       "│ ---          ┆ ---    ┆ ---   ┆ ---      ┆ ---       │\n",
       "│ str          ┆ str    ┆ str   ┆ i16      ┆ i16       │\n",
       "╞══════════════╪════════╪═══════╪══════════╪═══════════╡\n",
       "│ Sony         ┆ TV     ┆ A222  ┆ 5        ┆ 10        │\n",
       "│ Sony         ┆ TV     ┆ A234  ┆ 5        ┆ 9         │\n",
       "│ Sony         ┆ TV     ┆ A4345 ┆ 4        ┆ 9         │\n",
       "│ Panasonic    ┆ TV     ┆ T232  ┆ 1        ┆ 10        │\n",
       "│ Panasonic    ┆ TV     ┆ S3424 ┆ 5        ┆ 12        │\n",
       "│ Panasonic    ┆ TV     ┆ X3421 ┆ 1        ┆ 11        │\n",
       "│ Sanyo        ┆ Radio  ┆ S111  ┆ 4        ┆ 9         │\n",
       "│ Sanyo        ┆ Radio  ┆ S1s1  ┆ 2        ┆ 9         │\n",
       "│ Sanyo        ┆ Radio  ┆ S1s2  ┆ 4        ┆ 10        │\n",
       "└──────────────┴────────┴───────┴──────────┴───────────┘"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "expression = pl.col(\"variable\").str.split(\"|\")\n",
    "expression = expression.list.to_struct(\n",
    "    fields=[\"Manufacturer\", \"Device\", \"header\", \"counts\"]\n",
    ")\n",
    "(\n",
    "    manufacturer.unpivot(index=None)\n",
    "    .with_columns(variable=expression)\n",
    "    .unnest(\"variable\")\n",
    "    .with_columns(cs.exclude(\"value\").str.strip_chars())\n",
    "    .with_row_index(name=\"index\")\n",
    "    # ensure the pivoting operation does not encounter duplicate entries\n",
    "    .with_columns(pl.cum_count(\"index\").over(\"Manufacturer\", \"Device\", \"header\"))\n",
    "    .pivot(index=[\"index\", \"Manufacturer\", \"Device\"], on=\"header\", values=\"value\")\n",
    "    .drop(\"index\")\n",
    "    .with_columns(cs.starts_with(\"Q\", \"Max\").as_expr().cast(pl.Int16))\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "What if our header is actually composed of different parts of a column name? This is best explained with an example:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (1, 5)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>x_1_mean</th><th>x_2_mean</th><th>y_1_mean</th><th>y_2_mean</th><th>unit</th></tr><tr><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td></tr></thead><tbody><tr><td>10</td><td>20</td><td>30</td><td>40</td><td>50</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (1, 5)\n",
       "┌──────────┬──────────┬──────────┬──────────┬──────┐\n",
       "│ x_1_mean ┆ x_2_mean ┆ y_1_mean ┆ y_2_mean ┆ unit │\n",
       "│ ---      ┆ ---      ┆ ---      ┆ ---      ┆ ---  │\n",
       "│ i64      ┆ i64      ┆ i64      ┆ i64      ┆ i64  │\n",
       "╞══════════╪══════════╪══════════╪══════════╪══════╡\n",
       "│ 10       ┆ 20       ┆ 30       ┆ 40       ┆ 50   │\n",
       "└──────────┴──────────┴──────────┴──────────┴──────┘"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df_mean = pl.DataFrame(\n",
    "    {\n",
    "        \"x_1_mean\": [10],\n",
    "        \"x_2_mean\": [20],\n",
    "        \"y_1_mean\": [30],\n",
    "        \"y_2_mean\": [40],\n",
    "        \"unit\": [50],\n",
    "    }\n",
    ")\n",
    "\n",
    "df_mean"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "For the dataframe above, we wish to lump similar columns together - specifically, we want to lump the x* columns into one, same goes for the y* columns.\n",
    "\n",
    "Steps:\n",
    "- unpivot into long form\n",
    "- split string and unnest into individucal columns\n",
    "- combine the relevant columns into a single header column\n",
    "- pivot the dataframe to get the desired output"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (2, 4)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>num</th><th>unit</th><th>xmean</th><th>ymean</th></tr><tr><td>i8</td><td>i64</td><td>i64</td><td>i64</td></tr></thead><tbody><tr><td>1</td><td>50</td><td>10</td><td>30</td></tr><tr><td>2</td><td>50</td><td>20</td><td>40</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (2, 4)\n",
       "┌─────┬──────┬───────┬───────┐\n",
       "│ num ┆ unit ┆ xmean ┆ ymean │\n",
       "│ --- ┆ ---  ┆ ---   ┆ ---   │\n",
       "│ i8  ┆ i64  ┆ i64   ┆ i64   │\n",
       "╞═════╪══════╪═══════╪═══════╡\n",
       "│ 1   ┆ 50   ┆ 10    ┆ 30    │\n",
       "│ 2   ┆ 50   ┆ 20    ┆ 40    │\n",
       "└─────┴──────┴───────┴───────┘"
      ]
     },
     "execution_count": 16,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "out = df_mean.unpivot(index=\"unit\")\n",
    "expression = pl.col(\"variable\").str.split(\"_\")\n",
    "expression = expression.list.to_struct(fields=[\"letter\", \"num\", \"agg\"])\n",
    "out = out.with_columns(variable=expression).unnest(\"variable\")\n",
    "expression = pl.concat_str(\"letter\", \"agg\").alias(\"header\")\n",
    "(\n",
    "    out.select(cs.exclude(\"letter\", \"agg\"), expression)\n",
    "    .pivot(index=[\"num\", \"unit\"], on=\"header\", values=\"value\")\n",
    "    .cast({\"num\": pl.Int8})\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "What if we want multiple header columns and multiple value columns? Let's have a look at this [scenario](https://stackoverflow.com/q/51519101/7175713):"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (3, 8)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>City</th><th>State</th><th>Name</th><th>Mango</th><th>Orange</th><th>Watermelon</th><th>Gin</th><th>Vodka</th></tr><tr><td>str</td><td>str</td><td>str</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td><td>i64</td></tr></thead><tbody><tr><td>&quot;Houston&quot;</td><td>&quot;Texas&quot;</td><td>&quot;Aria&quot;</td><td>4</td><td>10</td><td>40</td><td>16</td><td>20</td></tr><tr><td>&quot;Austin&quot;</td><td>&quot;Texas&quot;</td><td>&quot;Penelope&quot;</td><td>10</td><td>8</td><td>99</td><td>200</td><td>33</td></tr><tr><td>&quot;Hoover&quot;</td><td>&quot;Alabama&quot;</td><td>&quot;Niko&quot;</td><td>90</td><td>14</td><td>43</td><td>34</td><td>18</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (3, 8)\n",
       "┌─────────┬─────────┬──────────┬───────┬────────┬────────────┬─────┬───────┐\n",
       "│ City    ┆ State   ┆ Name     ┆ Mango ┆ Orange ┆ Watermelon ┆ Gin ┆ Vodka │\n",
       "│ ---     ┆ ---     ┆ ---      ┆ ---   ┆ ---    ┆ ---        ┆ --- ┆ ---   │\n",
       "│ str     ┆ str     ┆ str      ┆ i64   ┆ i64    ┆ i64        ┆ i64 ┆ i64   │\n",
       "╞═════════╪═════════╪══════════╪═══════╪════════╪════════════╪═════╪═══════╡\n",
       "│ Houston ┆ Texas   ┆ Aria     ┆ 4     ┆ 10     ┆ 40         ┆ 16  ┆ 20    │\n",
       "│ Austin  ┆ Texas   ┆ Penelope ┆ 10    ┆ 8      ┆ 99         ┆ 200 ┆ 33    │\n",
       "│ Hoover  ┆ Alabama ┆ Niko     ┆ 90    ┆ 14     ┆ 43         ┆ 34  ┆ 18    │\n",
       "└─────────┴─────────┴──────────┴───────┴────────┴────────────┴─────┴───────┘"
      ]
     },
     "execution_count": 17,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df = pl.DataFrame(\n",
    "    {\n",
    "        \"City\": [\"Houston\", \"Austin\", \"Hoover\"],\n",
    "        \"State\": [\"Texas\", \"Texas\", \"Alabama\"],\n",
    "        \"Name\": [\"Aria\", \"Penelope\", \"Niko\"],\n",
    "        \"Mango\": [4, 10, 90],\n",
    "        \"Orange\": [10, 8, 14],\n",
    "        \"Watermelon\": [40, 99, 43],\n",
    "        \"Gin\": [16, 200, 34],\n",
    "        \"Vodka\": [20, 33, 18],\n",
    "    },\n",
    ")\n",
    "\n",
    "df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "The desired output is below:\n",
    "\n",
    "```\n",
    "      City    State       Fruit  Pounds  Drink  Ounces\n",
    "0  Houston    Texas       Mango       4    Gin    16.0\n",
    "1   Austin    Texas       Mango      10    Gin   200.0\n",
    "2   Hoover  Alabama       Mango      90    Gin    34.0\n",
    "3  Houston    Texas      Orange      10  Vodka    20.0\n",
    "4   Austin    Texas      Orange       8  Vodka    33.0\n",
    "5   Hoover  Alabama      Orange      14  Vodka    18.0\n",
    "6  Houston    Texas  Watermelon      40    nan     NaN\n",
    "7   Austin    Texas  Watermelon      99    nan     NaN\n",
    "8   Hoover  Alabama  Watermelon      43    nan     NaN\n",
    "```"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "````{margin}\n",
    "```{note}\n",
    "This is not necessarily a tidy approach\n",
    "```\n",
    "````\n",
    "From the above expected output, the goal is to pair the Fruits(headers) with Drinks(values), in separate columns. How can we achieve this in Polars?\n",
    "\n",
    "We need to create a pairing between the fruits and the drinks :\n",
    "```\n",
    "('Mango', 'Gin'), ('Orange', 'Vodka'), ('Watermelon', None)\n",
    "```\n",
    "\n",
    "We can reuse an idea from [earlier](#group-related-columns), by pairing the relevant columns, using structs:"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div><style>\n",
       ".dataframe > thead > tr,\n",
       ".dataframe > tbody > tr {\n",
       "  text-align: right;\n",
       "  white-space: pre-wrap;\n",
       "}\n",
       "</style>\n",
       "<small>shape: (9, 6)</small><table border=\"1\" class=\"dataframe\"><thead><tr><th>City</th><th>State</th><th>Fruit</th><th>Drink</th><th>Pounds</th><th>Ounces</th></tr><tr><td>str</td><td>str</td><td>str</td><td>str</td><td>i64</td><td>i64</td></tr></thead><tbody><tr><td>&quot;Houston&quot;</td><td>&quot;Texas&quot;</td><td>&quot;Mango&quot;</td><td>&quot;Gin&quot;</td><td>4</td><td>16</td></tr><tr><td>&quot;Austin&quot;</td><td>&quot;Texas&quot;</td><td>&quot;Mango&quot;</td><td>&quot;Gin&quot;</td><td>10</td><td>200</td></tr><tr><td>&quot;Hoover&quot;</td><td>&quot;Alabama&quot;</td><td>&quot;Mango&quot;</td><td>&quot;Gin&quot;</td><td>90</td><td>34</td></tr><tr><td>&quot;Houston&quot;</td><td>&quot;Texas&quot;</td><td>&quot;Orange&quot;</td><td>&quot;Vodka&quot;</td><td>10</td><td>20</td></tr><tr><td>&quot;Austin&quot;</td><td>&quot;Texas&quot;</td><td>&quot;Orange&quot;</td><td>&quot;Vodka&quot;</td><td>8</td><td>33</td></tr><tr><td>&quot;Hoover&quot;</td><td>&quot;Alabama&quot;</td><td>&quot;Orange&quot;</td><td>&quot;Vodka&quot;</td><td>14</td><td>18</td></tr><tr><td>&quot;Houston&quot;</td><td>&quot;Texas&quot;</td><td>&quot;Watermelon&quot;</td><td>null</td><td>40</td><td>null</td></tr><tr><td>&quot;Austin&quot;</td><td>&quot;Texas&quot;</td><td>&quot;Watermelon&quot;</td><td>null</td><td>99</td><td>null</td></tr><tr><td>&quot;Hoover&quot;</td><td>&quot;Alabama&quot;</td><td>&quot;Watermelon&quot;</td><td>null</td><td>43</td><td>null</td></tr></tbody></table></div>"
      ],
      "text/plain": [
       "shape: (9, 6)\n",
       "┌─────────┬─────────┬────────────┬───────┬────────┬────────┐\n",
       "│ City    ┆ State   ┆ Fruit      ┆ Drink ┆ Pounds ┆ Ounces │\n",
       "│ ---     ┆ ---     ┆ ---        ┆ ---   ┆ ---    ┆ ---    │\n",
       "│ str     ┆ str     ┆ str        ┆ str   ┆ i64    ┆ i64    │\n",
       "╞═════════╪═════════╪════════════╪═══════╪════════╪════════╡\n",
       "│ Houston ┆ Texas   ┆ Mango      ┆ Gin   ┆ 4      ┆ 16     │\n",
       "│ Austin  ┆ Texas   ┆ Mango      ┆ Gin   ┆ 10     ┆ 200    │\n",
       "│ Hoover  ┆ Alabama ┆ Mango      ┆ Gin   ┆ 90     ┆ 34     │\n",
       "│ Houston ┆ Texas   ┆ Orange     ┆ Vodka ┆ 10     ┆ 20     │\n",
       "│ Austin  ┆ Texas   ┆ Orange     ┆ Vodka ┆ 8      ┆ 33     │\n",
       "│ Hoover  ┆ Alabama ┆ Orange     ┆ Vodka ┆ 14     ┆ 18     │\n",
       "│ Houston ┆ Texas   ┆ Watermelon ┆ null  ┆ 40     ┆ null   │\n",
       "│ Austin  ┆ Texas   ┆ Watermelon ┆ null  ┆ 99     ┆ null   │\n",
       "│ Hoover  ┆ Alabama ┆ Watermelon ┆ null  ┆ 43     ┆ null   │\n",
       "└─────────┴─────────┴────────────┴───────┴────────┴────────┘"
      ]
     },
     "execution_count": 18,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "index = [\"City\", \"State\"]\n",
    "expression = [\n",
    "    pl.struct(Pounds=\"Mango\", Ounces=\"Gin\").alias(\"Mango|Gin\"),\n",
    "    pl.struct(Pounds=\"Orange\", Ounces=\"Vodka\").alias(\"Orange|Vodka\"),\n",
    "    pl.struct(Pounds=\"Watermelon\").alias(\"Watermelon\"),\n",
    "]\n",
    "(\n",
    "    df.select(index + expression)\n",
    "    .unpivot(index=index)\n",
    "    .unnest(\"value\")\n",
    "    .with_columns(\n",
    "        variable=pl.col(\"variable\")\n",
    "        .str.split(\"|\")\n",
    "        .list.to_struct(fields=[\"Fruit\", \"Drink\"])\n",
    "    )\n",
    "    .unnest(\"variable\")\n",
    ")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Note the steps:\n",
    "\n",
    "- create the structs to pair relevant columns - preprocessing\n",
    "- unpivot\n",
    "- unnest - post processing\n",
    "- string splitting - post processing\n",
    "- unnest - post processing\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-07-30T10:57:18.265994Z",
     "iopub.status.busy": "2020-07-30T10:57:18.265751Z",
     "iopub.status.idle": "2020-07-30T10:57:18.283104Z",
     "shell.execute_reply": "2020-07-30T10:57:18.280684Z",
     "shell.execute_reply.started": "2020-07-30T10:57:18.265970Z"
    }
   },
   "source": [
    "## **Summary**\n",
    "\n",
    "This blog post shows various ways to reshape data into long form, in Polars. There are scenarios however, where we may need to tweak our approach to significantly improve performance. In another [blog post](Reshape-Data-in-Polars-Wide-to_Long-Part-II.ipynb), we'll see how to make this reshaping more efficient for such conditions."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Comments\n",
    "<script src=\"https://utteranc.es/client.js\"\n",
    "        repo=\"samukweku/data-wrangling-blog\"\n",
    "        issue-term=\"title\"\n",
    "        theme=\"github-light\"\n",
    "        crossorigin=\"anonymous\"\n",
    "        async>\n",
    "</script>\n"
   ]
  }
 ],
 "metadata": {
  "jupytext": {
   "formats": "ipynb,md"
  },
  "kernelspec": {
   "display_name": "blogger",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.14"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}