안녕하세요 크롤링 관련해서 응답데이터가 자꾸 깨져서 오는 문제가 있어 질문을 올려봅니다.
본래 파이썬으로 하다가 갑자기 c#으로 하게될 일이 생겨서 지금 c#으로 크롤링해보고 있는데요…
문제는 페이지요청 시 오는 html데이터가 전부 깨져서 온다는 겁니다…
응답을 받는 부분은 아래 처럼 되어있습니다.
var html = (string)null;
var doc = new HtmlAgilityPack.HtmlDocument();
using (HttpWebResponse resp = (HttpWebResponse)request.GetResponse())
{
HttpStatusCode status = resp.StatusCode;
string characterSet = resp.CharacterSet;
Stream respStream = resp.GetResponseStream();
using (StreamReader sr = new StreamReader(respStream, Encoding.GetEncoding("euc-kr")))
{
html = sr.ReadToEnd();
doc.LoadHtml(html);
}
}
charset이 잘못되었나 싶어서 없이도 해보고 euc-kr도 해보고 UTF-8도 해봤는데 모두 깨져서 오네요…
참고로 저기 characterSet 값은 UTF-8로 나옵니다.
피들러로 헤더랑 쿠키 체크해서 최대한 채워넣어줬는데 파이썬에선 잘보이는데 c#에서만 깨지네요
혹시 어디를 좀 체크해봐야할 지 조언 좀 부탁드립니다…