{
 "cells": [
  {
   "attachments": {},
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Replicating .SD in Python Datatable"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## **.SD - Subset of Data**"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "I will be using [Jose Morales](https://twitter.com/jmrlsz) excellent [post](https://rpubs.com/josemz/SDbf) to show how .SD's functionality can be replicated in  python's [datatable](https://datatable.readthedocs.io/en/latest/index.html). Not all functions can be replicated; R [data.table](https://github.com/Rdatatable/data.table) has a whole lot more functions and features that are not yet implemented in [datatable](https://datatable.readthedocs.io/en/latest/index.html).\n",
    "<br> "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style type='text/css'>\n",
       ".datatable table.frame { margin-bottom: 0; }\n",
       ".datatable table.frame thead { border-bottom: none; }\n",
       ".datatable table.frame tr.coltypes td {  color: #FFFFFF;  line-height: 6px;  padding: 0 0.5em;}\n",
       ".datatable .bool    { background: #DDDD99; }\n",
       ".datatable .object  { background: #565656; }\n",
       ".datatable .int     { background: #5D9E5D; }\n",
       ".datatable .float   { background: #4040CC; }\n",
       ".datatable .str     { background: #CC4040; }\n",
       ".datatable .time    { background: #40CC40; }\n",
       ".datatable .row_index {  background: var(--jp-border-color3);  border-right: 1px solid var(--jp-border-color0);  color: var(--jp-ui-font-color3);  font-size: 9px;}\n",
       ".datatable .frame tbody td { text-align: left; }\n",
       ".datatable .frame tr.coltypes .row_index {  background: var(--jp-border-color0);}\n",
       ".datatable th:nth-child(2) { padding-left: 12px; }\n",
       ".datatable .hellipsis {  color: var(--jp-cell-editor-border-color);}\n",
       ".datatable .vellipsis {  background: var(--jp-layout-color0);  color: var(--jp-cell-editor-border-color);}\n",
       ".datatable .na {  color: var(--jp-cell-editor-border-color);  font-size: 80%;}\n",
       ".datatable .sp {  opacity: 0.25;}\n",
       ".datatable .footer { font-size: 9px; }\n",
       ".datatable .frame_dimensions {  background: var(--jp-border-color3);  border-top: 1px solid var(--jp-border-color0);  color: var(--jp-ui-font-color3);  display: inline-block;  opacity: 0.6;  padding: 1px 10px 1px 5px;}\n",
       "</style>\n"
      ],
      "text/plain": [
       "<IPython.core.display.HTML object>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "from datatable import dt, by, sort,  f, fread"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'1.1.0'"
      ]
     },
     "execution_count": 2,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "dt.__version__"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>sepal_length</th><th>sepal_width</th><th>petal_length</th><th>petal_width</th><th>species</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='str' title='str32'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>5.1</td><td>3.5</td><td>1.4</td><td>0.2</td><td>setosa</td></tr>\n",
       "    <tr><td class='row_index'>1</td><td>4.9</td><td>3</td><td>1.4</td><td>0.2</td><td>setosa</td></tr>\n",
       "    <tr><td class='row_index'>2</td><td>4.7</td><td>3.2</td><td>1.3</td><td>0.2</td><td>setosa</td></tr>\n",
       "    <tr><td class='row_index'>3</td><td>4.6</td><td>3.1</td><td>1.5</td><td>0.2</td><td>setosa</td></tr>\n",
       "    <tr><td class='row_index'>4</td><td>5</td><td>3.6</td><td>1.4</td><td>0.2</td><td>setosa</td></tr>\n",
       "    <tr><td class='row_index'>5</td><td>5.4</td><td>3.9</td><td>1.7</td><td>0.4</td><td>setosa</td></tr>\n",
       "    <tr><td class='row_index'>6</td><td>4.6</td><td>3.4</td><td>1.4</td><td>0.3</td><td>setosa</td></tr>\n",
       "    <tr><td class='row_index'>7</td><td>5</td><td>3.4</td><td>1.5</td><td>0.2</td><td>setosa</td></tr>\n",
       "    <tr><td class='row_index'>8</td><td>4.4</td><td>2.9</td><td>1.4</td><td>0.2</td><td>setosa</td></tr>\n",
       "    <tr><td class='row_index'>9</td><td>4.9</td><td>3.1</td><td>1.5</td><td>0.1</td><td>setosa</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>10 rows &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa538392510 10x5>"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "DT = fread('Data_files/iris.csv')\n",
    "DT.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "####  Number of unique observations per column"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>sepal_length</th><th>sepal_width</th><th>petal_length</th><th>petal_width</th><th>species</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='int' title='int64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='int' title='int64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='int' title='int64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='int' title='int64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='int' title='int64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>35</td><td>23</td><td>43</td><td>22</td><td>3</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>1 row &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa538392c30 1x5>"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[, lapply(.SD, uniqueN)] --> Rdatatable\n",
    "\n",
    "DT.nunique()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Mean of all columns by `species`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>species</th><th>sepal_length</th><th>sepal_width</th><th>petal_length</th><th>petal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='str' title='str32'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>setosa</td><td>5.006</td><td>3.428</td><td>1.462</td><td>0.246</td></tr>\n",
       "    <tr><td class='row_index'>1</td><td>versicolor</td><td>5.936</td><td>2.77</td><td>4.26</td><td>1.326</td></tr>\n",
       "    <tr><td class='row_index'>2</td><td>virginica</td><td>6.588</td><td>2.974</td><td>5.552</td><td>2.026</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>3 rows &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa5383974e0 3x5>"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[, lapply(.SD, mean), by = species] --> Rdatatable\n",
    "\n",
    "DT[:, f[:].mean(), by('species')]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### __Filtering__"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### First two observations by species"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>species</th><th>sepal_length</th><th>sepal_width</th><th>petal_length</th><th>petal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='str' title='str32'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>setosa</td><td>5.1</td><td>3.5</td><td>1.4</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>1</td><td>setosa</td><td>4.9</td><td>3</td><td>1.4</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>2</td><td>versicolor</td><td>7</td><td>3.2</td><td>4.7</td><td>1.4</td></tr>\n",
       "    <tr><td class='row_index'>3</td><td>versicolor</td><td>6.4</td><td>3.2</td><td>4.5</td><td>1.5</td></tr>\n",
       "    <tr><td class='row_index'>4</td><td>virginica</td><td>6.3</td><td>3.3</td><td>6</td><td>2.5</td></tr>\n",
       "    <tr><td class='row_index'>5</td><td>virginica</td><td>5.8</td><td>2.7</td><td>5.1</td><td>1.9</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>6 rows &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa5383920f0 6x5>"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[, .SD[1:2], by = species]\n",
    "\n",
    "DT[:2, :, by('species')]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "In [datatable](https://datatable.readthedocs.io/en/latest/index.html), rows are selected in the `i` section after the grouping, unlike in R's [data.table](https://github.com/Rdatatable/data.table), where rows are selected in `i` before grouping, and rows selected in the `.SD` after grouping."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Last two observations by `species`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>species</th><th>sepal_length</th><th>sepal_width</th><th>petal_length</th><th>petal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='str' title='str32'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>setosa</td><td>5.3</td><td>3.7</td><td>1.5</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>1</td><td>setosa</td><td>5</td><td>3.3</td><td>1.4</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>2</td><td>versicolor</td><td>5.1</td><td>2.5</td><td>3</td><td>1.1</td></tr>\n",
       "    <tr><td class='row_index'>3</td><td>versicolor</td><td>5.7</td><td>2.8</td><td>4.1</td><td>1.3</td></tr>\n",
       "    <tr><td class='row_index'>4</td><td>virginica</td><td>6.2</td><td>3.4</td><td>5.4</td><td>2.3</td></tr>\n",
       "    <tr><td class='row_index'>5</td><td>virginica</td><td>5.9</td><td>3</td><td>5.1</td><td>1.8</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>6 rows &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa538392f00 6x5>"
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[, tail(.SD, 2), by = species] \n",
    "\n",
    "DT[-2:, :, by('species')]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-08-10T09:32:46.775190Z",
     "iopub.status.busy": "2020-08-10T09:32:46.774933Z",
     "iopub.status.idle": "2020-08-10T09:32:46.779722Z",
     "shell.execute_reply": "2020-08-10T09:32:46.778946Z",
     "shell.execute_reply.started": "2020-08-10T09:32:46.775157Z"
    }
   },
   "source": [
    "Again, the rows are selected after grouping by using Python's negative index slicing."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Select the top two sorted by `sepal length` in descending order"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>species</th><th>sepal_length</th><th>sepal_width</th><th>petal_length</th><th>petal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='str' title='str32'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>setosa</td><td>5.8</td><td>4</td><td>1.2</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>1</td><td>setosa</td><td>5.7</td><td>4.4</td><td>1.5</td><td>0.4</td></tr>\n",
       "    <tr><td class='row_index'>2</td><td>versicolor</td><td>7</td><td>3.2</td><td>4.7</td><td>1.4</td></tr>\n",
       "    <tr><td class='row_index'>3</td><td>versicolor</td><td>6.9</td><td>3.1</td><td>4.9</td><td>1.5</td></tr>\n",
       "    <tr><td class='row_index'>4</td><td>virginica</td><td>7.9</td><td>3.8</td><td>6.4</td><td>2</td></tr>\n",
       "    <tr><td class='row_index'>5</td><td>virginica</td><td>7.7</td><td>3.8</td><td>6.7</td><td>2.2</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>6 rows &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa5383a1d80 6x5>"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[order(-sepal_length), head(.SD, 2), by = species] \n",
    "\n",
    "DT[:2, :, by('species'), sort(-f.sepal_length)]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "In [datatable](https://datatable.readthedocs.io/en/latest/index.html), the [sort](https://datatable.readthedocs.io/en/latest/api/dt/sort.html#) function replicates the `order` function in R's [data.table](https://github.com/Rdatatable/data.table). Note the `-` symbol before the sepal_length *f-expression*; this instructs the dataframe to sort in descending order."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Select the top two sorted by the difference between the `sepal length` and `sepal width`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>species</th><th>sepal_length</th><th>sepal_width</th><th>petal_length</th><th>petal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='str' title='str32'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>setosa</td><td>4.6</td><td>3.6</td><td>1</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>1</td><td>setosa</td><td>5.2</td><td>4.1</td><td>1.5</td><td>0.1</td></tr>\n",
       "    <tr><td class='row_index'>2</td><td>versicolor</td><td>5.4</td><td>3</td><td>4.5</td><td>1.5</td></tr>\n",
       "    <tr><td class='row_index'>3</td><td>versicolor</td><td>5.2</td><td>2.7</td><td>3.9</td><td>1.4</td></tr>\n",
       "    <tr><td class='row_index'>4</td><td>virginica</td><td>4.9</td><td>2.5</td><td>4.5</td><td>1.7</td></tr>\n",
       "    <tr><td class='row_index'>5</td><td>virginica</td><td>5.6</td><td>2.8</td><td>4.9</td><td>2</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>6 rows &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa538339510 6x5>"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[order(sepal_length - sepal_width), head(.SD, 2), by = species] \n",
    "\n",
    "DT[:2, :, by('species'), sort(f.sepal_length - f.sepal_width)]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "Just like in R's [data.table](https://github.com/Rdatatable/data.table), boolean expressions can be passed to the [sort](https://datatable.readthedocs.io/en/latest/api/dt/sort.html#) function."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-08-10T09:39:44.509104Z",
     "iopub.status.busy": "2020-08-10T09:39:44.508762Z",
     "iopub.status.idle": "2020-08-10T09:39:44.516955Z",
     "shell.execute_reply": "2020-08-10T09:39:44.516055Z",
     "shell.execute_reply.started": "2020-08-10T09:39:44.509066Z"
    }
   },
   "source": [
    "#### Filter observations above the mean of `sepal_length` by species"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>species</th><th>sepal_length</th><th>sepal_width</th><th>petal_length</th><th>petal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='str' title='str32'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>setosa</td><td>5.1</td><td>3.5</td><td>1.4</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>1</td><td>setosa</td><td>5.4</td><td>3.9</td><td>1.7</td><td>0.4</td></tr>\n",
       "    <tr><td class='row_index'>2</td><td>setosa</td><td>5.4</td><td>3.7</td><td>1.5</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>3</td><td>setosa</td><td>5.8</td><td>4</td><td>1.2</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>4</td><td>setosa</td><td>5.7</td><td>4.4</td><td>1.5</td><td>0.4</td></tr>\n",
       "    <tr><td class='row_index'>5</td><td>setosa</td><td>5.4</td><td>3.9</td><td>1.3</td><td>0.4</td></tr>\n",
       "    <tr><td class='row_index'>6</td><td>setosa</td><td>5.1</td><td>3.5</td><td>1.4</td><td>0.3</td></tr>\n",
       "    <tr><td class='row_index'>7</td><td>setosa</td><td>5.7</td><td>3.8</td><td>1.7</td><td>0.3</td></tr>\n",
       "    <tr><td class='row_index'>8</td><td>setosa</td><td>5.1</td><td>3.8</td><td>1.5</td><td>0.3</td></tr>\n",
       "    <tr><td class='row_index'>9</td><td>setosa</td><td>5.4</td><td>3.4</td><td>1.7</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>10</td><td>setosa</td><td>5.1</td><td>3.7</td><td>1.5</td><td>0.4</td></tr>\n",
       "    <tr><td class='row_index'>11</td><td>setosa</td><td>5.1</td><td>3.3</td><td>1.7</td><td>0.5</td></tr>\n",
       "    <tr><td class='row_index'>12</td><td>setosa</td><td>5.2</td><td>3.5</td><td>1.5</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>13</td><td>setosa</td><td>5.2</td><td>3.4</td><td>1.4</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>14</td><td>setosa</td><td>5.4</td><td>3.4</td><td>1.5</td><td>0.4</td></tr>\n",
       "    <tr><td class='row_index'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td></tr>\n",
       "    <tr><td class='row_index'>63</td><td>virginica</td><td>6.7</td><td>3.1</td><td>5.6</td><td>2.4</td></tr>\n",
       "    <tr><td class='row_index'>64</td><td>virginica</td><td>6.9</td><td>3.1</td><td>5.1</td><td>2.3</td></tr>\n",
       "    <tr><td class='row_index'>65</td><td>virginica</td><td>6.8</td><td>3.2</td><td>5.9</td><td>2.3</td></tr>\n",
       "    <tr><td class='row_index'>66</td><td>virginica</td><td>6.7</td><td>3.3</td><td>5.7</td><td>2.5</td></tr>\n",
       "    <tr><td class='row_index'>67</td><td>virginica</td><td>6.7</td><td>3</td><td>5.2</td><td>2.3</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>68 rows &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa538339060 68x5>"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[, .SD[sepal_length > mean(sepal_length)], by = species] \n",
    "DT[:, [f[:], (f.sepal_length > f.sepal_length.mean()).alias('temp')], by('species')][f.temp==1, :-1]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-08-10T09:43:21.190855Z",
     "iopub.status.busy": "2020-08-10T09:43:21.190636Z",
     "iopub.status.idle": "2020-08-10T09:43:21.201057Z",
     "shell.execute_reply": "2020-08-10T09:43:21.200305Z",
     "shell.execute_reply.started": "2020-08-10T09:43:21.190833Z"
    }
   },
   "source": [
    "Unlike in R's [data.table](https://github.com/Rdatatable/data.table), boolean expressions can not be applied within the `i` section, in the presence of `by`. The next best thing is to break it down into two steps - create a temporary column to hold the boolean value, and then filter on that column."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-08-10T09:45:04.539605Z",
     "iopub.status.busy": "2020-08-10T09:45:04.539188Z",
     "iopub.status.idle": "2020-08-10T09:45:04.544671Z",
     "shell.execute_reply": "2020-08-10T09:45:04.543872Z",
     "shell.execute_reply.started": "2020-08-10T09:45:04.539559Z"
    }
   },
   "source": [
    "#### Filter rows with group size greater than 10 "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>species</th><th>petal_width</th><th>sepal_length</th><th>sepal_width</th><th>petal_length</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='str' title='str32'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>setosa</td><td>0.2</td><td>5.1</td><td>3.5</td><td>1.4</td></tr>\n",
       "    <tr><td class='row_index'>1</td><td>setosa</td><td>0.2</td><td>4.9</td><td>3</td><td>1.4</td></tr>\n",
       "    <tr><td class='row_index'>2</td><td>setosa</td><td>0.2</td><td>4.7</td><td>3.2</td><td>1.3</td></tr>\n",
       "    <tr><td class='row_index'>3</td><td>setosa</td><td>0.2</td><td>4.6</td><td>3.1</td><td>1.5</td></tr>\n",
       "    <tr><td class='row_index'>4</td><td>setosa</td><td>0.2</td><td>5</td><td>3.6</td><td>1.4</td></tr>\n",
       "    <tr><td class='row_index'>5</td><td>setosa</td><td>0.2</td><td>5</td><td>3.4</td><td>1.5</td></tr>\n",
       "    <tr><td class='row_index'>6</td><td>setosa</td><td>0.2</td><td>4.4</td><td>2.9</td><td>1.4</td></tr>\n",
       "    <tr><td class='row_index'>7</td><td>setosa</td><td>0.2</td><td>5.4</td><td>3.7</td><td>1.5</td></tr>\n",
       "    <tr><td class='row_index'>8</td><td>setosa</td><td>0.2</td><td>4.8</td><td>3.4</td><td>1.6</td></tr>\n",
       "    <tr><td class='row_index'>9</td><td>setosa</td><td>0.2</td><td>5.8</td><td>4</td><td>1.2</td></tr>\n",
       "    <tr><td class='row_index'>10</td><td>setosa</td><td>0.2</td><td>5.4</td><td>3.4</td><td>1.7</td></tr>\n",
       "    <tr><td class='row_index'>11</td><td>setosa</td><td>0.2</td><td>4.6</td><td>3.6</td><td>1</td></tr>\n",
       "    <tr><td class='row_index'>12</td><td>setosa</td><td>0.2</td><td>4.8</td><td>3.4</td><td>1.9</td></tr>\n",
       "    <tr><td class='row_index'>13</td><td>setosa</td><td>0.2</td><td>5</td><td>3</td><td>1.6</td></tr>\n",
       "    <tr><td class='row_index'>14</td><td>setosa</td><td>0.2</td><td>5.2</td><td>3.5</td><td>1.5</td></tr>\n",
       "    <tr><td class='row_index'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td><td class='hellipsis'>&#x22EE;</td></tr>\n",
       "    <tr><td class='row_index'>48</td><td>virginica</td><td>1.8</td><td>6.2</td><td>2.8</td><td>4.8</td></tr>\n",
       "    <tr><td class='row_index'>49</td><td>virginica</td><td>1.8</td><td>6.1</td><td>3</td><td>4.9</td></tr>\n",
       "    <tr><td class='row_index'>50</td><td>virginica</td><td>1.8</td><td>6.4</td><td>3.1</td><td>5.5</td></tr>\n",
       "    <tr><td class='row_index'>51</td><td>virginica</td><td>1.8</td><td>6</td><td>3</td><td>4.8</td></tr>\n",
       "    <tr><td class='row_index'>52</td><td>virginica</td><td>1.8</td><td>5.9</td><td>3</td><td>5.1</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>53 rows &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa5383395a0 53x5>"
      ]
     },
     "execution_count": 11,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[, .SD[.N > 10], keyby = .(species, petal_width)] \n",
    "DT[:, [f[:], (dt.count()>10).alias('temp')], by('species', 'petal_width')][f.temp==1, :-1]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-08-10T09:46:03.123002Z",
     "iopub.status.busy": "2020-08-10T09:46:03.122700Z",
     "iopub.status.idle": "2020-08-10T09:46:03.131610Z",
     "shell.execute_reply": "2020-08-10T09:46:03.130801Z",
     "shell.execute_reply.started": "2020-08-10T09:46:03.122970Z"
    }
   },
   "source": [
    "#### Get the row with the max petal_length by species."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>species</th><th>sepal_length</th><th>sepal_width</th><th>petal_length</th><th>petal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='str' title='str32'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>setosa</td><td>4.8</td><td>3.4</td><td>1.9</td><td>0.2</td></tr>\n",
       "    <tr><td class='row_index'>1</td><td>versicolor</td><td>6</td><td>2.7</td><td>5.1</td><td>1.6</td></tr>\n",
       "    <tr><td class='row_index'>2</td><td>virginica</td><td>7.7</td><td>2.6</td><td>6.9</td><td>2.3</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>3 rows &times; 5 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa538339150 3x5>"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[, .SD[which.max(petal_length)], by = species] OR \n",
    "# DT[, .SD[petal_length == max(petal_length)], by = species]  \n",
    "\n",
    "# get rid of temp column\n",
    "\n",
    "DT[0, :, by('species'), sort(-f.petal_length)]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-08-10T09:43:21.190855Z",
     "iopub.status.busy": "2020-08-10T09:43:21.190636Z",
     "iopub.status.idle": "2020-08-10T09:43:21.201057Z",
     "shell.execute_reply": "2020-08-10T09:43:21.200305Z",
     "shell.execute_reply.started": "2020-08-10T09:43:21.190833Z"
    }
   },
   "source": [
    "In the above code, we take advantage of the fact that sorting is done within each group; this allows us to pick the first row per group when `petal_length` is sorted in descending order."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### __.SDCols__"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Including columns in `.SD`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>sepal_length</th><th>sepal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>5.84333</td><td>3.05733</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>1 row &times; 2 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa5383a1fc0 1x2>"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# col_idx <- grep(\"^sepal\", names(DT)) --> filter for the specicfic columns\n",
    "# DT[, lapply(.SD, mean), .SDcols = col_idx]\n",
    "\n",
    "# filter for the specific columns with a list comprehension\n",
    "names = [name for name in DT.names\n",
    "         if name.startswith('sepal')]\n",
    "\n",
    "DT[:, f[names].mean()]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "#### Removing columns from `.SD`"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>sepal_length</th><th>sepal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>5.84333</td><td>3.05733</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>1 row &times; 2 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa5383a1780 1x2>"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# col_idx <- grep(\"^(petal|species)\", names(DT))\n",
    "# DT[, lapply(.SD, mean), .SDcols = -col_idx] --> exclusion occurs within .SDcols\n",
    "\n",
    "# here, exclusion occurs within the list comprehension\n",
    "names = [name for name in DT.names \n",
    "         if not name.startswith(('petal','species'))] \n",
    "\n",
    "DT[:, f[names].mean()]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-08-10T09:54:47.180961Z",
     "iopub.status.busy": "2020-08-10T09:54:47.180667Z",
     "iopub.status.idle": "2020-08-10T09:54:47.194089Z",
     "shell.execute_reply": "2020-08-10T09:54:47.193220Z",
     "shell.execute_reply.started": "2020-08-10T09:54:47.180935Z"
    }
   },
   "source": [
    "#### Column ranges"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div class='datatable'>\n",
       "  <table class='frame'>\n",
       "  <thead>\n",
       "    <tr class='colnames'><td class='row_index'></td><th>sepal_length</th><th>sepal_width</th></tr>\n",
       "    <tr class='coltypes'><td class='row_index'></td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td><td class='float' title='float64'>&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;&#x25AA;</td></tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr><td class='row_index'>0</td><td>5.84333</td><td>3.05733</td></tr>\n",
       "  </tbody>\n",
       "  </table>\n",
       "  <div class='footer'>\n",
       "    <div class='frame_dimensions'>1 row &times; 2 columns</div>\n",
       "  </div>\n",
       "</div>\n"
      ],
      "text/plain": [
       "<Frame#7fa5383395d0 1x2>"
      ]
     },
     "execution_count": 15,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# DT[, lapply(.SD, mean), .SDcols = sepal_length:sepal_width]\n",
    "\n",
    "DT[:, f['sepal_length':'sepal_width'].mean()]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-08-10T09:56:18.579374Z",
     "iopub.status.busy": "2020-08-10T09:56:18.578943Z",
     "iopub.status.idle": "2020-08-10T09:56:18.583241Z",
     "shell.execute_reply": "2020-08-10T09:56:18.582596Z",
     "shell.execute_reply.started": "2020-08-10T09:56:18.579328Z"
    }
   },
   "source": [
    "### __Summary__"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "execution": {
     "iopub.execute_input": "2020-08-10T09:58:00.848013Z",
     "iopub.status.busy": "2020-08-10T09:58:00.847759Z",
     "iopub.status.idle": "2020-08-10T09:58:00.862752Z",
     "shell.execute_reply": "2020-08-10T09:58:00.860433Z",
     "shell.execute_reply.started": "2020-08-10T09:58:00.847991Z"
    }
   },
   "source": [
    "We've seen how to replicate `.SD` in [datatable](https://datatable.readthedocs.io/en/latest/index.html). There are other functionalities in `.SD` that are not presently possible in Python's [datatable](https://datatable.readthedocs.io/en/latest/index.html). It is possible that in the future, `.SD` will be implemented to allow for custom aggregation functions. That would be truly awesome, as it would allow [numpy](https://numpy.org/doc/stable/index.html) functions and functions from other Python libraries into [datatable](https://datatable.readthedocs.io/en/latest/index.html)."
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Comments\n",
    "<script src=\"https://utteranc.es/client.js\"\n",
    "        repo=\"samukweku/data-wrangling-blog\"\n",
    "        issue-term=\"title\"\n",
    "        theme=\"github-light\"\n",
    "        crossorigin=\"anonymous\"\n",
    "        async>\n",
    "</script>"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.9.18"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}