C#编写HttpClient爬虫程序示例-369IT编程

admin管理员组
文章数量:1031685

C#编写HttpClient爬虫程序示例

要写一个使用C#和HttpClient的爬虫程序。首先，我需要了解HttpClient的基本用法。HttpClient是用来发送HTTP请求和接收响应的类，对吧？我记得在C#中使用它的时候需要注意一些事情，比如最好使用单例实例，而不是频繁创建和销毁，这样可以避免端口耗尽的问题。

以下是使用C#和HttpClient编写的爬虫程序示例，包含详细注释和扩展说明：

代码语言：javascript代码运行次数：0运行复制

using System;
using System.Net.Http;
using System.Threading.Tasks;
using HtmlAgilityPack; // 需要安装NuGet包

class WebCrawler
{
    private static readonly HttpClient _httpClient = new HttpClient();

    static async Task Main(string[] args)
    {
        // 配置HTTP客户端
        _httpClient.DefaultRequestHeaders.UserAgent.ParseAdd("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36");
        _httpClient.Timeout = TimeSpan.FromSeconds(30);

        try
        {
            string url = ";;
            
            // 发送HTTP GET请求
            HttpResponseMessage response = await _httpClient.GetAsync(url);
            response.EnsureSuccessStatusCode(); // 检查状态码

            // 读取响应内容
            string htmlContent = await response.Content.ReadAsStringAsync();
            
            // 解析HTML内容
            var htmlDoc = new HtmlDocument();
            htmlDoc.LoadHtml(htmlContent);

            // 示例：提取所有链接
            foreach (HtmlNode link in htmlDoc.DocumentNode.SelectNodes("//a[@href]"))
            {
                string hrefValue = link.GetAttributeValue("href", string.Empty);
                Console.WriteLine($"发现链接: {hrefValue}");
            }

            // 示例：提取页面标题
            string pageTitle = htmlDoc.DocumentNode.SelectSingleNode("//title")?.InnerText;
            Console.WriteLine($"页面标题: {pageTitle}");
        }
        catch (HttpRequestException ex)
        {
            Console.WriteLine($"HTTP请求失败: {ex.Message}");
        }
        catch (TaskCanceledException ex)
        {
            Console.WriteLine($"请求超时: {ex.Message}");
        }
        catch (Exception ex)
        {
            Console.WriteLine($"发生错误: {ex.Message}");
        }
    }
}

关键组件说明

HttpClient配置
- 单例模式：避免短时间创建多个实例导致端口耗尽
- 用户代理：模拟浏览器行为避免被屏蔽
- 超时设置：30秒请求超时限制
HTML解析
- 使用HtmlAgilityPack（需通过NuGet安装）
- XPath查询语法提取特定元素
异常处理
- 专用HTTP异常处理
- 超时单独处理
- 通用异常捕获

扩展增强建议

代理支持 var handler = new HttpClientHandler { Proxy = new WebProxy("http://proxy-server:8080"), UseProxy = true }; var client = new HttpClient(handler);
请求限速 await Task.Delay(TimeSpan.FromSeconds(2)); // 每次请求间隔
Cookie管理 var cookieContainer = new CookieContainer(); var handler = new HttpClientHandler { CookieContainer = cookieContainer };
内容过滤 if (hrefValue.EndsWith(".pdf")) // 过滤PDF文件

注意事项

法律合规
- 遵守目标网站的robots.txt协议
- 尊重版权和隐私条款
性能优化
- 使用HttpClientFactory（ASP.NET Core环境）
- 并行请求控制
反爬对策
- 随机化请求间隔
- 使用代理池轮换
- 处理验证码（需要额外服务）

安装HtmlAgilityPack：

代码语言：javascript代码运行次数：0运行复制

dotnet add package HtmlAgilityPack

注意：C# 7.1+ 支持异步Main方法，需在.csproj中添加： <PropertyGroup> <LangVersion>latest</LangVersion> </PropertyGroup>

这个爬虫框架可根据具体需求扩展更多功能，建议在实际使用中遵守目标网站的服务条款和相关法律法规。

C#编写HttpClient爬虫程序示例

以下是使用C#和HttpClient编写的爬虫程序示例，包含详细注释和扩展说明：

代码语言：javascript代码运行次数：0运行复制

using System;
using System.Net.Http;
using System.Threading.Tasks;
using HtmlAgilityPack; // 需要安装NuGet包

class WebCrawler
{
    private static readonly HttpClient _httpClient = new HttpClient();

    static async Task Main(string[] args)
    {
        // 配置HTTP客户端
        _httpClient.DefaultRequestHeaders.UserAgent.ParseAdd("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36");
        _httpClient.Timeout = TimeSpan.FromSeconds(30);

        try
        {
            string url = ";;
            
            // 发送HTTP GET请求
            HttpResponseMessage response = await _httpClient.GetAsync(url);
            response.EnsureSuccessStatusCode(); // 检查状态码

            // 读取响应内容
            string htmlContent = await response.Content.ReadAsStringAsync();
            
            // 解析HTML内容
            var htmlDoc = new HtmlDocument();
            htmlDoc.LoadHtml(htmlContent);

            // 示例：提取所有链接
            foreach (HtmlNode link in htmlDoc.DocumentNode.SelectNodes("//a[@href]"))
            {
                string hrefValue = link.GetAttributeValue("href", string.Empty);
                Console.WriteLine($"发现链接: {hrefValue}");
            }

            // 示例：提取页面标题
            string pageTitle = htmlDoc.DocumentNode.SelectSingleNode("//title")?.InnerText;
            Console.WriteLine($"页面标题: {pageTitle}");
        }
        catch (HttpRequestException ex)
        {
            Console.WriteLine($"HTTP请求失败: {ex.Message}");
        }
        catch (TaskCanceledException ex)
        {
            Console.WriteLine($"请求超时: {ex.Message}");
        }
        catch (Exception ex)
        {
            Console.WriteLine($"发生错误: {ex.Message}");
        }
    }
}

关键组件说明

HttpClient配置
- 单例模式：避免短时间创建多个实例导致端口耗尽
- 用户代理：模拟浏览器行为避免被屏蔽
- 超时设置：30秒请求超时限制
HTML解析
- 使用HtmlAgilityPack（需通过NuGet安装）
- XPath查询语法提取特定元素
异常处理
- 专用HTTP异常处理
- 超时单独处理
- 通用异常捕获

扩展增强建议

代理支持 var handler = new HttpClientHandler { Proxy = new WebProxy("http://proxy-server:8080"), UseProxy = true }; var client = new HttpClient(handler);
请求限速 await Task.Delay(TimeSpan.FromSeconds(2)); // 每次请求间隔
Cookie管理 var cookieContainer = new CookieContainer(); var handler = new HttpClientHandler { CookieContainer = cookieContainer };
内容过滤 if (hrefValue.EndsWith(".pdf")) // 过滤PDF文件

注意事项

法律合规
- 遵守目标网站的robots.txt协议
- 尊重版权和隐私条款
性能优化
- 使用HttpClientFactory（ASP.NET Core环境）
- 并行请求控制
反爬对策
- 随机化请求间隔
- 使用代理池轮换
- 处理验证码（需要额外服务）

安装HtmlAgilityPack：

代码语言：javascript代码运行次数：0运行复制

dotnet add package HtmlAgilityPack

注意：C# 7.1+ 支持异步Main方法，需在.csproj中添加： <PropertyGroup> <LangVersion>latest</LangVersion> </PropertyGroup>

这个爬虫框架可根据具体需求扩展更多功能，建议在实际使用中遵守目标网站的服务条款和相关法律法规。

本文标签： C编写HttpClient爬虫程序示例

版权声明：本文标题：C#编写HttpClient爬虫程序示例内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://it.en369.cn/jiaocheng/1747875606a2221188.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

369IT编程

C#编写HttpClient爬虫程序示例

C#编写HttpClient爬虫程序示例

关键组件说明

扩展增强建议

注意事项

C#编写HttpClient爬虫程序示例

关键组件说明

扩展增强建议

注意事项

更多相关文章

C#编写HttpClient爬虫程序示例

发表评论

推荐文章

《不定参数与不定宏参数：C++程序员必须掌握的灵活编程技巧》

Manus爆火，我发现平替开源项目OpenManus带你玩转AI智能体开发,无需邀请码！

与终端同居日记：Linux指令の进阶撩拨手册

Linux服务器安装部署最新稳定版本mongoDB社区版

前端：js根据CheckBox获得选中行的具体某些列内容(批量操作传多条数据)

热门文章

plugin: rewrite rules are lost when WP updates

nats v2.11.3全新上线！MQTT支持增强、JetStream性能优化、关键BUG修复，构建高效可信消息中间件新时代

多线程编程精要：从用户线程到线程池的效能进化论

MongoDB “升级项目” 大型连续剧(2)

字符串系列一＞二进制求和

ITSM运营：为服务请求管理改进赋能

为你的健康和时尚量身定制：可穿戴设备个性化定制的技术探索

算法训练之动态规划（五）——简单多状态问题

比云存储更安全？自建宝塔FTP实现企业级远程文件管理全攻略

数据结构 : 数组链表二叉排序树增删改查的时间复杂度解析

最新文章

在开发中，缓存的必要性

单细胞实战之Roe、Augur、miloR——入门到进阶(中级篇4）

【愚公系列】《高效使用DeepSeek》035

【愚公系列】《高效使用DeepSeek》036

Python入门修炼：开启你在大数据世界的第一个脚本

程序员刚毕业，先去大厂镀金还是先去小厂攒经验？

万象2008清空boss账户密码

【Tools】GitBook简明教程

oracle exadata celldisk 闪存盘受损导致性能下降

SDUT 2138 图结构练习——BFSDFS——判断可达性

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow