
최근 서비스를 개발하면서 큰 벽에 부딪혔습니다. 이미지 속 텍스트를 추출하는 기능이 필수였는데, 기존 OCR 도구들의 성능이 너무나 절망적이었기 때문입니다. 그러다 우연히 중국의 지푸 AI에서 공개한 GLM-OCR 모델을 접하게 되었습니다. 비싼 API 비용과 낮은 인식률이라는 두 가지 문제를 한 번에 해결해 준 이 모델은 제 프로젝트의 구세주나 다름없었습니다.
1. 기존 OCR의 한계와 GLM-OCR의 등장 배경
제가 직접 서비스를 기획하면서 가장 골치 아팠던 부분은 바로 문서 인식률이었습니다. 보통 우리가 아는 테서랙트 같은 엔진이나 가벼운 시각 언어 모델들은 글자를 단순히 읽어내는 수준에는 도달했지만, 복잡한 표나 서식을 만나면 결과물이 엉망이 되기 일쑤였습니다. 제 경험상 이런 문제 때문에 결국 비싼 상용 API를 써야 하나 심각하게 고민하던 찰나에 이 모델을 알게 되었습니다. GLM-OCR 시리즈는 오픈소스로 공개되었음에도 불구하고 상용 모델에 버금가는 강력한 성능을 자랑합니다.
이 모델은 단순히 텍스트만 읽는 것이 아니라 100만 토큰이라는 거대한 컨텍스트 윈도우를 활용해 방대한 데이터를 한 번에 처리하는 능력을 갖추고 있습니다. 시장에서는 메타의 라마3 모델과 비교하곤 하는데, 실제로 써보니 특정 벤치마크에서는 그 이상의 퍼포먼스를 보여주기도 했습니다. 특히 100억 파라미터 이하의 경량 모델임에도 불구하고, GPT-4o 같은 최상위 모델이 수행하는 멀티모달 기능을 내 컴퓨터인 로컬 환경에서 구현할 수 있다는 점이 가장 큰 충격이었습니다. 오픈소스로 풀렸다는 소식을 듣고 바로 테스트해 보지 않을 수 없었습니다.
2. 단순 인식을 넘어선 구조적 이해와 코딩 변환 능력
제가 이 모델을 직접 구동해 보고 가장 놀랐던 점은 바로 문서의 구조를 완벽하게 이해한다는 것입니다. 기존에 제가 시도했던 다른 OCR 프로젝트들은 영수증이나 복잡한 문서를 넣으면 글자 순서가 뒤죽박죽 섞여서 데이터를 가공하는 데에만 엄청난 시간이 걸렸습니다. 하지만 GLM-OCR는 표, 제목, 본문, 각주 등의 형식을 그대로 유지하면서 마크다운 형태로 깔끔하게 변환해 줍니다. 이미지를 엑셀 형식으로 바꿔달라는 복합적인 요청도 매끄럽게 수행하는 것을 보고 감탄을 금치 못했습니다.
심지어 웹사이트 스크린샷을 입력하고 이와 똑같은 웹페이지를 만들 수 있는 HTML과 CSS 코드를 짜달라고 했을 때도 놀라운 결과를 보여줍니다. 이는 단순히 글자를 읽는 것을 넘어 시각적 요소의 배치와 공간을 이해하는 능력이 탁월하기 때문입니다. 이미지 내에서 특정 사물이 어디에 있는지 좌표를 정확히 짚어내는 객체 탐지 기능까지 갖추고 있어 활용도가 무궁무진합니다. 다른 OCR로 서비스를 만들어보다가 제 상황 속에서는 너무 성능이 안 나와서 찾아보니 GLM-OCR이 그렇게 성능이 좋고 가볍기까지 하다는 것을 알게 되었습니다.
3. 로컬 환경 구축을 위한 현실적인 가이드와 전망
아무리 좋은 모델이라도 내 컴퓨터에서 돌아가지 않으면 그림의 떡입니다. 하지만 이 모델은 9B라는 사이즈 덕분에 접근성이 매우 좋습니다. 원래대로라면 20GB 이상의 VRAM이 필요해서 고가의 장비가 있어야 하지만, 4비트 양자화 기술을 적용하면 이야기가 달라집니다. 제가 가진 일반 소비자용 그래픽카드인 RTX 3060이나 4060 수준에서도 메모리 부족 없이 충분히 구동이 가능해집니다. 파이썬과 허깅페이스 라이브러리를 조금만 다룰 줄 안다면 누구나 집에서 고성능 OCR 서버를 구축할 수 있는 시대가 온 것입니다.
물론 중국에서 만든 모델이라 한국어 처리에 대한 우려가 있을 수 있습니다. 하지만 제가 직접 써봤는데 한국어 인식률이나 답변의 자연스러움이 기대 이상이었습니다. 간혹 환각 현상이 있거나 아주 흐릿한 손글씨는 놓치기도 하지만, 이는 모든 거대 언어 모델이 가진 공통적인 한계일 뿐입니다. 상업적 이용을 위해서는 라이선스 확인이 필요하겠지만, 연구나 개인적인 서비스 개발 목적으로는 이만한 대안을 찾기 어렵습니다. 오픈소스로 풀어줘서 정말 좋은 것 같습니다.
결국 GLM-OCR는 현존하는 오픈소스 비전 모델 중에서 성능과 비용의 균형을 가장 잘 맞춘 모델이라고 확신합니다. 저처럼 개발 과정에서 OCR 성능 때문에 막막함을 느꼈던 분들이라면 당장 로컬 환경에 이 모델을 올려보시기를 권해드립니다. API 비용 걱정 없이 무제한으로 문서를 분석하고 구조화할 수 있는 자유는 개발자에게 정말 큰 무기입니다. 강력한 도구를 손에 쥐게 된 만큼, 이제는 상상력을 발휘해 어떤 혁신적인 서비스를 만들지 고민하는 즐거운 일만 남았습니다.