REF: remove sort from Categorical.factorize

pandas-dev · jreback · Mar 15, 2018 · Feb 23, 2018 · Feb 28, 2018 · Mar 6, 2018
commit a6bc40594ac706198fcc44057bd99e7869a76f38
diff --git a/pandas/core/algorithms.py b/pandas/core/algorithms.py
@@ -507,7 +507,7 @@ def factorize(values, sort=False, order=None, na_sentinel=-1, size_hint=None):
 
     if is_categorical_dtype(values):
         values = getattr(values, '_values', values)
-        labels, uniques = values.factorize(sort=sort)
+        labels, uniques = values.factorize()
         dtype = original.dtype
     else:
         values, dtype, _ = _ensure_data(values)
@@ -516,8 +516,14 @@ def factorize(values, sort=False, order=None, na_sentinel=-1, size_hint=None):
                                            na_sentinel=na_sentinel,
                                            size_hint=size_hint)
 
-        if sort and len(uniques) > 0:
-            from pandas.core.sorting import safe_sort
+    if sort and len(uniques) > 0:
+        from pandas.core.sorting import safe_sort
+        try:
+            order = uniques.argsort()
+            labels = take_1d(order, labels, fill_value=na_sentinel)
+            uniques = uniques.take(order)
+        except TypeError:
+            # Mixed types, where uniques.argsort fails.
             uniques, labels = safe_sort(uniques, labels,
                                         na_sentinel=na_sentinel,
                                         assume_unique=True)

diff --git a/pandas/core/arrays/categorical.py b/pandas/core/arrays/categorical.py
@@ -2069,7 +2069,7 @@ def unique(self):
             take_codes = sorted(take_codes)
         return cat.set_categories(cat.categories.take(take_codes))
 
-    def factorize(self, sort=False, na_sentinel=-1):
+    def factorize(self, na_sentinel=-1):
         """Encode the Categorical as an enumerated type.
 
         Parameters
@@ -2110,7 +2110,7 @@ def factorize(self, sort=False, na_sentinel=-1):
         [a, b]
         Categories (2, object): [a, b]
         """
-        from pandas.core.algorithms import _factorize_array, take_1d
+        from pandas.core.algorithms import _factorize_array
 
         codes = self.codes.astype('int64')
         codes[codes == -1] = iNaT
@@ -2121,10 +2121,6 @@ def factorize(self, sort=False, na_sentinel=-1):
         uniques = self._constructor(self.categories.take(uniques),
                                     categories=self.categories,
                                     ordered=self.ordered)
-        if sort:
-            order = uniques.argsort()
-            labels = take_1d(order, labels, fill_value=na_sentinel)
-            uniques = uniques.take(order)
         return labels, uniques
 
     def equals(self, other):