안녕하세요, 지니에요 :)

1편에 이어서 크롤링 기술 2편 포스팅 시작합니다!

크롤링 기술3 : 클라우드의 가상화

이 기술을 설명하기 위해서는 '클라우드 컴퓨팅'과 '가상화'에 대한 설명이 조금 필요합니다.

기본적인 입문 지식인 '클라우드는 무엇인가' 에 대한 이야기를 쉽게 포스팅한 글을 공유합니다.

컴알못 이신 분들! 아래 글 읽고 오시면 더 이해하기 쉬워요 :)

https://medium.com/@developer.kuu/kuu-gcp-study-1-ef9e254d8fc8

간단하게 요약하자면, 클라우드 컴퓨팅은 '물리적인 장비 없이 IT 서비스를 구현하는 것' 입니다.

서버 및 네트워크 장비 등을 설치/운용/관리 하지 않아도 인터넷을 통해 이용할 수 있어요.

트래픽이 갑작스럽게 발생되어도 서버 사용비가 시간 단위로 계산되기 때문에 컴퓨팅 자원(비용) 낭비를 막을 수 있습니다.

그리고 확장성도 좋아 대용량 데이터를 수집하기에도 용이해서 저희 같은 크롤링 업체가 이용하면 좋습니다.

하지만 소수의 일부 업체만 클라우드 서비스를 이용하고 있어요. 왜 일까요?

결국 비용 때문입니다. (비용 때문에 클라우드를 선택했는데 비용 때문에 클라우드를 버려야 하는..ㅠㅠ)

클라우드에 많은 용량을 저장하고 다시 읽어 들이려면 엄청난 네트워크 대역폭이 필요한데 그 비용이 꽤 많이 듭니다.

회사 내 IT자원 규모가 커진다면 내부 클라우드 이용하는 것이 비용 절감에 더 좋겠죠.

명수옹이 돈드는거 하지 말랬어요

그래서 저희가 찾아낸 방법이 바로 '클라우드의 가상화' 입니다.

'가상화' 는 들어봤어도 '클라우드의 가상화'는 생소하신 분들을 위해 설명충 등장 (두둥)

가상화(Virtulaization)는 하드웨어 장치에서 기능을 분리하는 기술입니다.

마치, 하나의 장치를 여러 개처럼 동작시키거나 반대로 여러 개의 장치를 묶어 마치 하나의 장치인 것처럼 제공하죠.

가상화의 기본개념 (출처 : 클라우드 가상화 기술의 변화, 소프트웨어정책연구소)

해시스크래퍼는 다양한 컴퓨팅 자원들에 가상화 기술을 적용시켰습니다.

클라우드 서비스인 AWS(Amazon Web Service), GCP(Google Cloud Platform)와 IDC(Ineternet Data Center) 외 자체적으로 보유한 하드웨어에 가상화 기술을 적용시켜 동시에 구동될 수 있도록 했어요!

AWS, GCP, IDC, 물리적인 HW 등 서로 다른 종류의 컴퓨팅 자원이 해시스크래퍼의 서버관리시스템에 의해 가상화 기술이 적용되어 다수의 가상머신들이 수집 목적과 상황에 따라 통합관리되어 작업을 수행 합니다.

그림으로 표현하자면 아래 그림과 같습니다.

다양한 컴퓨팅 자원들을 가상화시킨 구조

위와 같이 가상화 환경이 구성되면 수집할 목적과 데이터의 양에 따라 컴퓨팅 자원을 신속히 전환하거나, 동시에 진행될 수 있습니다.

가상화된 AWS와 IDC 를 사용하여 데이터를 수집하다가 GCP와 해시스크래퍼 HW 로 전환시켜 수집할 수 있고,

AWS의 IP가 차단되어 수집이 불가능할 시, 프록시 서버를 사용하여 AWS를 IDC 로 전환시켜 보낼 수도 있어요.

(가끔 특정 클라우드 서비스 IP를 차단하는 사이트가 있거든요. 그런 상황에 대비하여 해시스크래퍼는 다양한 컴퓨팅 자원을 보유하고 있습니다)

이렇게 상황에 맞는 가장 저렴하고 최적의 방법을 찾아 데이터를 수집할 수 있기 때문에 유지보수 하는데 큰 비용이 들지 않습니다.

다소 복잡하고 어렵지만 '클라우드 가상화' 서버운용기술은 고객님의 비용을 절약할 수 있는 핵심 기술이랍니다 :D

크롤링 기술4 : 머신러닝 기술

요새 머신러닝 핫하죠.

크롤링에도 머신러닝 기술이 많이 적용된답니다.

저희가 주로 사용하는 머신러닝 기술은 자연어처리, 이미지 분석 등이 있는데

이러한 기술을 사용하여 데이터의 질, 정확도, 속도를 높여줍니다.

알기 쉽게 예시를 들어볼게요.

쇼핑몰에서 상품평 꼭 확인하시고 구매하시죠?

그래서 많은 쇼핑몰 대표님들이 쇼핑몰 상품평을 수집하여 분석하기를 원하십니다. 상품평 좋은 제품만 판매하고 싶거든요.

그런데 대표님들 너무 바쁘십니다. 언제 일일이 다 수집해서 분석합니까. 그런 노가다성 일들은 저희가 하는거죠 :D

자연어처리 기술이 적용되어 분석된 댓글

위 그림처럼 댓글을 잘개 쪼개 한땀한땀 분석하는 것을 자연어처리 라고 합니다.

제품에 대한 긍/부정률을 확인할 수도 있고 제품의 특성을 알 수 있어요.

원하는 특성이 있다면 그 특성을 기준으로 분석해서 제품 별로 점수화시킬 수도 있구요.

그렇게 점수화 시키면 한 눈에 어떤 제품의 디자인 평이 가장 좋은지, 가격 대비 만족도가 높은 상품이 무엇인지 쉽게 알 수 있습니다.

이런 정보가 많이 쌓여 알고리즘까지 만들어내면 판매량까지 예측할 수 있겠죠?

(실제 S모 기업고객님은 판매예측을 위해 수 많은 데이터를 수집하고 분석하셨어요)

간혹 내가 팔고 있는 제품이 다른 곳에서도 판매가 되는지, 그렇다면 얼마에 어떻게 파악하고 싶은 고객님도 계셨습니다.

그럴 경우엔 이미지 분석 기술이 들어갑니다. 이미지가 갖고 있는 특성에 가중치를 두고 유사한 이미지일 경우 동일 제품이라고 판단하는거죠.

동일/유사 이미지를 찾아내는 이미지 분석 기술

내가 찾고 있는 옷의 색깔, 형태 등을 분석해서 일정 이상의 %가 나오면 동일 또는 유사 이미지로 판단합니다.

이런 이미지 분석을 통해 유사한 제품을 찾거나, 스타일이 비슷한 제품을 찾아 추천해주는 서비스를 만들 수 있어요.

인공지능, 머신러닝 기술을 적용한 데이터 수집/분석은 정확한 정보에 근거한 의사결정이 가능하게 하여 시간의 효율성을 높이고 비용을 절감할 수 있습니다. 때문에 각국의, 많은 기업들이 달려들어 인공지능, 머신러닝 기술을 적용시켜 데이터 분석을 하고 싶어합니다.

단! 비용이 매우 비싸다는 점..그렇지만 해시스크래퍼는 머신러닝 기술을 저렴하게 제공합니다.

왜 때문이죠?! 라 물으신다면..

앞서 말씀 드린 4가지 크롤링 기술로 인건비, 서버비 절감이 가능하기 때문에 저렴하게 제공이 가능하다.. 말씀드릴 수 있겠습니다.

돈 애껴서 이런데 씁니다. 흐믓


이제까지 해시스크래퍼의 크롤링 기술에 대해서 설명 드렸습니다.

무료 유지보수가 가능한 이유! 이해가 되셨는지 모르겠습니다.

설명충으로 빙의해서 열심히 썼는데 이해가 안되신다면 댓글 달아주세요. 제가 직접! 방문하여 설명드리겠습니다 :)

해시스크래퍼의 미션은 ' 언제 어디서든 누구나 간편하게 요청하여 쉽게 데이터를 활용하기 위한 서비스'를 제공하는 것 입니다.

최소한의 비용과 노력으로 데이터를 활용하여 고객님의 매출향상에 도움이 되고자 하는 것을 목표로 하고 있기 때문에

데이터의 수집 원가를 낮추기 위한 기술개발과 서비스 제공을 최우선의 가치로 삼고 있습니다.

해시스크래퍼가 그 가치를 얼마나 잘 지키는지 지켜봐주세요 :D (관심받는거 좋아해요 헤헷)