파이썬으로 HWP·HWPX 파일 읽기와 텍스트 추출하기
한국의 공공기관, 대학, 법원, 그리고 대부분의 기업은 HWP(한글 워드
프로세서, 한컴오피스의 .hwp·.hwpx 형식)로 문서를 주고받습니다. 그런데
python-docx, pdfplumber, unstructured 같은 도구는 HWP를 읽지 못하고,
읽을 수 있는 pyhwpx는 윈도우 + 한컴 설치 + COM이 필요해 리눅스 서버나
CI, 컨테이너에서는 쓸 수 없습니다.
이 글에서는 hwpkit으로 .hwp와
.hwpx를 순수 파이썬으로 읽고, 텍스트를 추출하고, 편집하는 방법을
정리합니다. 한컴이나 윈도우 없이 어디서든 동작합니다.