02/02/2010

Dùng HtmlAgilityPack bóc tách nội dung trang web với c#

 HtmlAgilityPack là thư viện rất rất mạnh

bạn có thể bóc tách nội dung 1 trang web (1url) bất kỳ rất rất dễ nhé

Đoạn code sau làm ví dụ:
======================================

string url = "https://www.tuandev.com/2010/01/su-dung-task-trong-c.html";

HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack.HtmlWeb();

HtmlAgilityPack.HtmlDocument htmlDoc = web.Load(url);

//tới đây bạn có 1 htmlDoc hoàn chỉnh rồi

//bạn có thể lấy nội dung trong từng style class như sau

//bằng cách chọn nhiều node SelectNodes hoặc 1 node SelectSingleNode

                var title = htmlDoc.DocumentNode.SelectNodes("//h3[contains(@class, 'post-title')]");

                if(title == null)

                {

                    //do somethings

                }

else{

    //do somethings

}

[Happy coding]

Không có nhận xét nào:

Đăng nhận xét

Đăng ký tên miền, hosting, máy chủ, thiết kế lập trình website theo yêu cầu

 Chính thức trở thành đơn vị cung cấp dịch vụ đăng ký tên miền quốc tế, tên miền Việt Nam hosting, máy chủ, cloud hosting, cloud server, ema...