팬더 프로파일링

Zeeshan Afridi 2024년2월15일
  1. Python에서 Pandas 프로파일링
  2. Python에서 Pandas 프로파일링 사용
  3. 결론
팬더 프로파일링

Pandas는 고성능 데이터 분석 도구를 제공하는 Python 라이브러리입니다. 이러한 도구 중 하나는 데이터에 대한 보고서를 빠르고 효율적으로 생성할 수 있는 pandas_profiling입니다.

다양한 형식(HTML, MarkdownPDF)으로 결과를 출력하는 기능을 포함하여 매우 사용자 친화적인 다양한 기능을 제공합니다. 예를 들어 둘 이상의 변수 간의 상관 관계를 조사하는 데 사용할 수 있습니다.

Python에서 Pandas 프로파일링

Pandas Profiling은 데이터 프레임 개체를 빠르고 쉽게 분석하는 Python 라이브러리입니다. Pandas 데이터 프레임과 함께 작동하도록 설계되었으며 데이터 분석 및 조작을 보다 쉽게 해주는 다양한 기능을 제공합니다.

여기에는 요약 통계, 상관 행렬 및 null 값 개수를 비롯한 많은 기본 제공 진단 기능이 포함됩니다. 또한 데이터 프레임 개체를 시각화하는 편리한 방법을 제공하고 많은 내보내기 옵션을 포함합니다.

특히 데이터에 대한 느낌을 얻고 잠재적인 문제를 식별하는 빠르고 쉬운 방법을 제공하므로 새 데이터 세트를 탐색할 때 유용합니다. 또한 여러 데이터 프레임을 비교하여 구조와 내용이 어떻게 다른지 확인할 수 있습니다.

통사론:

pandas_profiling.ProfileReport(df, **kwargs)

Python에서 Pandas 프로파일링 사용

Pandas Profiling은 탐색적 데이터 분석을 위한 훌륭한 도구입니다. 이를 통해 데이터에 대한 요약 통계 및 시각화를 신속하게 생성할 수 있습니다.

숫자 및 범주 데이터를 조사하는 데 사용되며 데이터의 패턴과 관계를 식별하고 잠재적인 문제를 강조하는 데 도움이 됩니다. 또한 누락된 값이나 잘못된 데이터 유형과 같은 잠재적인 데이터 문제를 식별하는 데 도움이 됩니다.

전반적으로 Pandas Profiling은 모든 데이터 분석가 또는 과학자에게도 유용합니다. Pandas 프로파일링을 사용하려면 라이브러리를 가져오고 데이터 프레임을 프로파일러에 전달하십시오.

Pandas 프로파일링을 사용하기 전에 로컬 시스템에 설치되어 있는지 확인하십시오. 설치하려면 다음 명령을 사용할 수 있습니다.

pip install pandas-profiling

그런 다음 ProfileReport() 메서드를 호출하여 프로파일러에서 생성된 보고서를 볼 수 있습니다.

# importing libraries
import pandas as pd
import pandas_profiling as pp

# creating a dictionary
dictionary = {
    "ID": {0: 24, 2: 43, 4: 12, 3: 13, 4: 68, 5: 89, 6: 90, 7: 56, 8: 35},
    "Name": {
        0: "Ram",
        1: "Deep",
        2: "Yash",
        3: "Aman",
        4: "Arjun",
        5: "Aditya",
        6: "Divya",
        7: "Chelsea",
        8: "Aish",
    },
    "Marks": {0: 90, 1: 97, 2: 45, 3: 78, 4: 56, 5: 76, 6: 100, 7: 87, 8: 81},
    "Grade": {0: "B", 1: "A", 2: "F", 3: "C", 4: "E", 5: "C", 6: "D", 7: "B", 8: "B"},
}

# forming dataframe and printing
data = pd.DataFrame(dictionary)
print(data)

# forming ProfileReport and save
# as output.html file
profile = pp.ProfileReport(data)
profile.to_file("output.html")

출력:

Pandas 프로파일링

결론

Pandas Profiling은 빠르고 쉬운 데이터 프레임 분석을 제공하는 오픈 소스 Python 라이브러리입니다. 탐색적 데이터 분석에 유용하며 데이터를 더 잘 이해하는 데 도움이 될 수 있습니다.

데이터의 패턴을 빠르게 식별하고 데이터의 구조, 분포 및 관계에 대한 통찰력을 제공하는 Python 라이브러리입니다.

주로 데이터 탐색 및 이상값, 누락된 값 및 중복 행과 같은 문제를 식별하는 데 사용됩니다.

Zeeshan Afridi avatar Zeeshan Afridi avatar

Zeeshan is a detail oriented software engineer that helps companies and individuals make their lives and easier with software solutions.

LinkedIn