- 3
- 이니스프리
- 조회 수 1512
안녕하세요?
스포어 회원님들께서도 다들 업무에서 MS 엑셀을 많이 활용하실 것 같은데요.
엑셀을 자동화하면 업무가 크게 수월해지는 경우가 많겠죠 ^^
그래서 20번대 강좌에서는 파이썬에서 엑셀 파일을 직접 읽고 쓸 수 있는 모듈인 OpenPyXL에 대해 다뤄보고자 합니다.
OpenPyXL 이외에도 파이썬에서 엑셀을 조작하는 여러 모듈이 있지만, 이 모듈은 (1) xlsx 형식을 지원하며 (2) 읽기와 쓰기가 동시에 가능하고 (3) 퍼포먼스도 그럭저럭 괜찮은 편이라는 점에서 가장 무난하다고 생각됩니다.
엑셀 매크로를 사용해보지 않으신 분들은 다소 생소하실 수도 있지만, 나름대로 직관적인 접근방법을 갖고 있다고 생각합니다.
그럼 문서 - 시트 - 셀 순서대로 접근하는 방법을 살펴보겠습니다.
1. 엑셀 문서 열기
import openpyxl wb = openpyxl.load_workbook('filename.xlsx')
openpyxl.load_workbook() 함수는 파일 이름을 전달받고, workbook 유형의 데이터값을 반환합니다.
2. 통합문서에서 시트 열기
import openpyxl wb = openpyxl.load_workbook('filename.xlsx') sheet = wb.get_sheet_by_name('sheet1')
workbook 객체에서 get_sheet_by_name() 메서드를 호출하면 시트를 얻을 수 있습니다.
(이 메서드는 depreciated될 예정이며 앞으로는 wb['sheet1'] 형태로 사용하면 됩니다.)
한편 get_active_sheet() 메서드를 호출하면 활성시트를 바로 얻을 수 있습니다.
(이 메서드는 depreciated될 예정이며 앞으로는 .active 메서드를 사용하면 됩니다.)
3. 시트에서 셀의 값을 얻기
import openpyxl wb = openpyxl.load_workbook('filename.xlsx') sheet = wb.get_sheet_by_name('sheet1') value = sheet['A1'].value
cell 객체는 .value 속성을 가지며, 이 속성은 해당 셀에 저장된 값을 지닙니다.
.value 속성은 문자열, 날짜시간, 정수 등 타입을 그대로 반환하다는 점에서 매우 강력합니다 ㄷㄷ
한편 행열이 길어지면 알파벳을 사용하기 어렵기 때문에, sheet.cell(row=28, column=32)과 같은 방식으로 알파벳 대신 정수를 사용할 수 있습니다.
여기에서 row와 column의 값은 0이 아니라 1에서부터 시작한다는 점을 주의하세요!
아울러 sheet.get_highest_row(), sheet.get_highest_column()을 활용하여 행열의 크기를 알면, 이를 for 문과 range() 함수에 활용할 수 있습니다!
(현재 최신버전에서는 sheet.max_row, sheet.max_column으로 대체되었습니다.)
4. 시트에서 행열을 얻기
import openpyxl wb = openpyxl.load_workbook('filename.xlsx') sheet = wb.get_sheet_by_name('sheet1') data = list(sheet['A1':'E5'])
특정 영역의 셀 객체들을 얻기 위하여 엑셀 매크로와 유사한 방식의 표현도 가능합니다.
아울러 sheet.columns[5], sheet.rows[10] 이런 방법으로 엑셀의 특정 행 또는 열 전체를 클릭한 것과 마찬가지의 결과를 얻을 수 있습니다!
지금까지 문서 - 시트 - 셀의 순서대로 접근을 하여 데이터를 얻는 방법에 대해 살펴보았습니다.
다음 강좌에서는 문서를 저장하고 셀의 값을 쓰는 방법에 대해 살펴보겠습니다.