본문 바로가기

작업/검색엔진3

웹로그에 남은 Googlebot 등의 HTTP User-agent 정리 ※ 이 글은 루미넌스 - TechNote 에서 퍼왔습니다. ----------------------------------------------- 웹로봇, RSS리더, 웹 브라우저 등의 웹문서를 로드하는 프로그램은 몇개의 RFC 표준에 의해 User-agent를 HTTP Request Header에 적도록 되어 있다. 권고사항이므로 꼭 지키지는 않으며, 지킬 의무도 없긴 하다. 하지만 간혹 웹서버 설정에 의해 특정 User-agent에 대해서 또는 특정 User-agent에게만 별도의 웹페이지를 전송하도록 만들어진 사이트도 있기 때문에 가급적 고유의 User-agent(이하 UA)값을 적어서 Request한다. 내 블로그 웹서버에서 남긴 HTTP로그를 분석해서 몇가지 자주 들르는 UA값을 소개해 본다. 순.. 2009. 8. 9.
구글 페이지랭크..로직을 교정하는 중일까? ※ 이 글은 루미넌스 - TechNote 에서 퍼왔습니다. ----------------------------------------------- 내 블로그 내의 각 URL들의 구글 페이키랭크 값이 최근 바뀌었다. 이미 널리 알려졌다시피, 구글은 검색결과 페이지를 보여줄때 어떤 기준에 의한 정렬(ordering)을 하는 대신, 모든 인덱스된 페이지의 랭크값을 미리 계산해 두고 이 값이 높은 수서대로 보여준다. 그래서 웹페이지가 구글 페이지랭크값으로 얼마를 할당받는가는 검색 결과 노출 순서와 직결되는 마케팅 영역에서 아주 중요하게 여겨진다. 오죽하면 검색엔진 최적화 프로젝트 같은것도 하겠나.. 근데 이런 페이지랭크를 산출하기 위한 정확한 로직은 공개된 바가 없다. 아무리 집요하게 물어봐도 안가르쳐준단다. 구.. 2009. 8. 9.
K크롤러의 구조 http://www.kristalinfo.com/K-Lab/kcrawler/ 2008. 8. 4.