안녕하세요, 해시스크래퍼의 지니에요 :)

데이터를 정기적으로 수집할 때 신경써야 하는 것들은 무엇이 있을까요?

IP차단, 서버 사용비, 사이트 장애/업데이트에 따른 추가 개발비용 등이 있겠죠.

장기로 데이터 수집하시는 분들은 저런 유지보수관리가 얼마나 번거롭고 의외로 많은 비용이 소요되는지 잘 아십니다.

그래서 무료로 유지보수관리 해드린다 말씀드리면 어떻게 무료로 제공할 수 있는지 많이 물어보세요.

'저희는 인건비와 서버비용을 절감시키는 크롤링 기술을 보유하고 있습니다' 라고 간단하게 설명드리자니 성의 없고..

그런데 크롤링 기술이라는게 간단하게 설명하기 참 복잡해서 이렇게 글로 대신 하고자 합니다. :)


기술에 대해 설명드리기 전에 이 영상 한번 보시고 포스팅 글 보시면 금방 이해 되세요!

크롤링 기술1 : 지능형 패턴 분석 알고리즘

웹 사이트는 사람 얼굴처럼 콘텐츠, 구조가 모두 다르죠

크롤링 작업을 수행하기 전에 웹 사이트 구조를 분석하고 크롤러가 작업할 수 있도록 설정을 해놓습니다.

하지만 사이트에 장애가 생기거나 업데이트를 하게 되면 웹 구조가 바뀌기 때문에 웹 분석도 다시 해야하죠. (다시 개발해야 된단 얘기 ㅠㅠ)

저희는 이 작업을 사람이 하지 않습니다.

'지능형 패턴 분석 알고리즘' 으로 지능형 봇이 실시간 웹을 분석해서 특성을 인식하고 패턴을 추출 합니다.

지능형 패턴분석 알고리즘으로 웹을 자동 분석하는 똑똑한 봇

왼쪽 빨간색 박스에 대한 데이터를 수집하고자 설정해놓았는데 타겟 웹 사이트 소스 코드가 변경되거나 장애가 생기면,

지능형 봇이 자동으로 웹 패턴을 다시 분석하고 설정을 조정하여 크롤링 작업을 수행합니다.

이런 작업은 대용량 데이터 세트 또는 정기적인 데이터 수집이 필요한 경우에 빛을 발합니다.

데이터가 작으면 문제가 되지 않지만 수백 만개의 데이터를 한꺼번에 크롤링 할 때 에러가 나면 그게 다 인건비 ㅠㅠ

저희는 이런 작업을 '지능형 패턴분석 알고리즘' 으로 대체하고 있어서 무료로 유지보수관리가 가능 하답니다.

심지어 이 봇은 인간이 하는 것처럼 행동을 하기도 합니다.

대부분의 웹 사이트는 크롤링 봇의 접근을 차단하기 때문에 IP주소와 빈도요청 잦은 페이지 수를 확인하여 봇과 사람을 구별해요.

이런 차단을 피하고자 인간 행동을 모방해서 임의의 행동을 추가로 함으로써 웹 사이트의 봇 차단을 막습니다.

똑똑한 지능형 알고리즘과 봇 덕분에 저희 개발자는 데이터의 속도와 퀄리티에 더 신경을 쓸 수 있어요 :D

크롤링 기술2 : 지능형 패스툴 & 자동코드생성기

요새 잘 찾아보면 홈페이지 디자인, 이메일, PPT 템플릿이 많이 있습니다.

직접 개발하거나 제작하지 않아도 적은 시간으로 뚝딱 만드는 시대에요.

코드 개발도 템플릿 혹은 개발툴이 있으면 얼마나 좋을까요?

저희는 있어요 ;) 헤헷

'지능형 패스툴'' 자동코드생성기 ' 만 있으면 초보 개발자도 금방 개발할 수 있습니다.

1번 : 알고리즘 적용 전 기본 코드입니다.

2번 : 원하는 타겟의 데이터를 클릭&드래그 만으로 슥 긁어요. 한 개만 긁어도 되요. 귀찮으니깐요

3번 : 그럼 '지능형 패스툴'이 페이지 내 동일 패턴의 데이터를 모두 찾아냅니다. 파란색으로 설정됐어요.

4번 : 데이터를 드래그만 했을 뿐인데 2-3번 작업이 소스코드로 자동 생성되었습니다. 크롤링 봇 개발 완료!

'지능형 패스툴'과 '자동코드생성기' 만 있으면 주니어 개발자도 쉽게 크롤링 봇을 단 몇 분만에 개발할 수 있어요.

프로그램을 100% 자동 생성함에 따라 개발자에 따른 의존도를 절대적으로 줄여 데이터 품질은 높이고 안정적으로 수집이 가능합니다.

고객의 추가적인 요구사항을 빠르고 정확하게 반영할 수 있고 유지보수도 편리 합니다.

특히, 가장 중요한 인건비(개발비)가 절약되어 저렴한 비용에 서비스 해드릴 수 있다는 점이 가장 큰 강점 이죠.

우리 통장 지켜주는 미묘♥ 돈 아껴쓰래요

클릭&드래그로 쉽게 데이터를 지정하여 코드를 생성시키는' 지능형 패스툴 기술' 에 관련해서는 특허를 보유하고 있습니다. :D

(나중에 특허 내는 방법에 대해서 포스팅 해드릴게요. 29일 만에 특허등록이 완료됐어요ㅎㅎ자랑자랑)


기술 내용을 쓰다보니 너무 내용이 길어지네요.

'유지보수비용 0원 가능하게 한 크롤링 기술2' 편에서 이어서 설명드릴게요!