열에서 Pandas 고유 값 가져 오기 및 정렬

Manav Narula 2023년1월30일
  1. unique메서드를 사용하여 Pandas DataFrame 열에서 고유 한 값 가져 오기
  2. drop_duplicates 메소드를 사용하여 Pandas DataFrame 열에서 고유 값 가져 오기
  3. Pandas DataFrame에서 열 정렬
열에서 Pandas 고유 값 가져 오기 및 정렬

이 기사에서는 Pandas DataFrame 열에서 고유 한 값을 가져 오는 방법을 소개합니다.

예를 들어 개인과 직업으로 구성된 DataFrame이 있고 총 직업 수를 알고 싶다고 가정합니다. 이 경우 많은 사람들이 동일한 직업을 가질 수 있기 때문에 총 행 수를 사용하여 총 고유 직업을 결정할 수 없습니다. 이러한 상황에서는 Pandas 라이브러리에서 제공하는unique()drop_duplicates()함수를 사용할 수 있습니다.

데이터를 시각화하고 이해하는 데 도움이 될 수 있으므로 DataFrame을 정렬하는 방법을 아는 것도 중요합니다. sorted()sort_values()함수가이를 달성하는 데 도움이 될 수 있습니다.

이 자습서에서는 다음 DataFrame을 정렬하고 제거합니다.

import pandas as pd
import numpy as np

df = pd.DataFrame({"A": [7, 1, 5, 4, 2, 1, 4, 4, 8], "B": [1, 2, 8, 5, 3, 4, 2, 6, 8]})

print(df)

출력:

   A  B
0  7  1
1  1  2
2  5  8
3  4  5
4  2  3
5  1  4
6  4  2
7  4  6
8  8  8

unique메서드를 사용하여 Pandas DataFrame 열에서 고유 한 값 가져 오기

Pandas Series의unique()메서드는 DataFrame의 단일 열을 처리하고 열의 모든 고유 요소를 반환 할 때 사용됩니다. unique()함수를 사용한 최종 출력은 배열입니다.

예:

import pandas as pd
import numpy as np

df = pd.DataFrame({"A": [7, 1, 5, 4, 2, 1, 4, 4, 8], "B": [1, 2, 8, 5, 3, 4, 2, 6, 8]})

print(df["A"].unique())
print(type(df["A"].unique()))

출력:

[7 1 5 4 2 8]
numpy.ndarray

drop_duplicates 메소드를 사용하여 Pandas DataFrame 열에서 고유 값 가져 오기

drop_duplicates()는 DataFrame 또는 하위 집합에 적용 할 수 있으며 DataFrame 객체의 유형을 유지합니다. 또한 중복 값을 제거하기 위해 방대한 데이터 세트를 처리 할 때 더 빠른 옵션으로 간주됩니다.

예:

import pandas as pd
import numpy as np

df = pd.DataFrame({"A": [7, 1, 5, 4, 2, 1, 4, 4, 8], "B": [1, 2, 8, 5, 3, 4, 2, 6, 8]})

print(df.drop_duplicates(subset="A"))
print(type(df.drop_duplicates(subset="A")))

출력:

   A  B
0  7  1
1  1  2
2  5  8
3  4  5
4  2  3
8  8  8
pandas.core.frame.DataFrame

Pandas DataFrame에서 열 정렬

sorted()메소드를 사용하여 열을 정렬 할 수 있지만 최종 결과를 목록 유형 객체로 변환합니다. reversed매개 변수를 True로 설정하여 열 값을 내림차순으로 정렬 할 수도 있습니다.

다음 예에서는 열을 오름차순으로 정렬하고 중복 값을 제거합니다.

import pandas as pd
import numpy as np

df = pd.DataFrame({"A": [7, 1, 5, 4, 2, 1, 4, 4, 8], "B": [1, 2, 8, 5, 3, 4, 2, 6, 8]})

df_new = df.drop_duplicates(subset="A")

print(sorted(df_new["A"]))
print(type(sorted(df_new["A"])))

출력:

[1, 2, 4, 5, 7, 8]
list

sort_values()는 DataFrame을 정렬하는 또 다른 유연한 옵션입니다. 여기서는by 매개 변수를 사용하여 정렬 할 열을 지정하고ascending 매개 변수를 사용하여 순서가 오름차순인지 내림차순인지 지정할 수 있습니다. 객체 유형을 Pandas DataFrame으로 유지합니다.

다음 예에서는 열을 내림차순으로 정렬하고 중복 값을 제거합니다.

import pandas as pd
import numpy as np

df = pd.DataFrame({"A": [7, 1, 5, 4, 2, 1, 4, 4, 8], "B": [1, 2, 8, 5, 3, 4, 2, 6, 8]})

df_new = df.drop_duplicates(subset="A")

print(df_new.sort_values(by="A", ascending=False))
type(df_new.sort_values(by="A"))

출력:

   A  B
8  8  8
0  7  1
2  5  8
3  4  5
4  2  3
1  1  2
pandas.core.frame.DataFrame
작가: Manav Narula
Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn

관련 문장 - Pandas DataFrame