Python 및 Pandas를 사용하여 XLSX 파일 읽기
Vaibhav Vaibhav
2021년12월4일
Pandas는 데이터를 효율적으로 처리하고 해당 데이터에 대한 작업을 쉽게 수행하며 모든 종류의 플롯과 그래프로 분석하는 데 도움이 되는 매우 강력하고 최적화된 라이브러리입니다. 병합, 연결 및 재구성과 같은 일반적인 작업은 팬더를 사용하여 매우 쉽게 수행할 수 있습니다.
Pandas는 또한 파일 읽기 및 파일 내부의 데이터를 배열 및 DataFrames
와 같은 다양한 객체에 저장하는 것을 지원합니다. 그러한 파일 중 하나는 .xlsx
입니다. .xlsx
파일은 압축되고 XML 기반인 Microsoft Excel Open XML 형식 스프레드시트 파일입니다. 이 기사에서는 팬더를 사용하여 .xlsx
파일을 읽는 방법에 대해 설명합니다.
Python에서 pandas
를 사용하여 .xlsx
파일 읽기
pandas
를 사용하여 .xlsx
파일을 읽으려면 read_excel()
함수를 사용할 수 있습니다. 이 함수는 엑셀 파일을 pandas Dataframe
으로 읽어들입니다. 그리고 이 함수를 사용하여 xlsx
, xls
, xlsm
, xlsb
, odf
, ods
및 odt
파일을 읽을 수 있습니다. Excel 파일은 여러 시트를 포함할 수 있으므로 이 기능은 단일 및 여러 시트를 읽을 수 있습니다.
read_excel()
함수에는 몇 가지 매개변수가 있습니다. 우리는 몇 가지 주요 사항에 대해 논의할 것입니다.
io
: 이 매개변수는str
,bytes
,ExcelFile
,xlrd.Book
,path object
또는file-like object
일 수 있습니다. 본질적으로 읽어야 하는 것은 파일 또는 개체입니다. 문자열 형식의 유효한 파일 경로를 이 매개변수에 전달할 수도 있습니다.sheet_name
: 이 매개변수는str
,int
,list
또는None
일 수 있습니다. 기본값은0
입니다. Excel 파일은 시트로 구성되어 있으므로 읽을 시트를 한 장 또는 여러 장으로 지정할 수 있습니다. 정수 인덱스(2
,0
,[1, 3, 7]
)뿐만 아니라 문자열 이름을 사용하여 시트(Sheet1
,Sheet3
,["Sheet4", "Sheet5", "Sheet8"]
).header
: Excel 파일의 헤더로 간주되어야 하는 행입니다. 첫 번째 행은 일반적으로 헤더이고 0부터 시작하는 인덱싱을 고려하기 때문에 기본값은0
입니다. 헤더가 없으면None
으로 설정합니다.이름
: Excel 파일에서 읽고 싶은 열을 지정할 수 있습니다. 열 이름 목록을 허용합니다. 기본값은없음
입니다. 열 이름은 헤더 내부에 있으므로 파일에 하나가 있어야 합니다. 그렇지 않으면header = None
을 설정하십시오.
이제 이 함수를 사용하여 .xlxs
파일을 읽는 방법을 살펴보겠습니다. 다음 코드를 참조하십시오.
file_name = "my_file.xlsx" # File name
sheet_name = 3 # 4th sheet
header = 1 # The header is the 2nd row
df = pd.read_excel(file_name=file_name, sheet_name=sheet_name, header=header)
print(df.head()) # Prints first 5 rows from the top along with the header
print(df.tail()) # Prints first 5 rows from the bottom along with the header
작가: Vaibhav Vaibhav