C#编程之采集网页类
白羽 2018-07-10 来源 :网络 阅读 1401 评论 0

摘要:本文将带你了解C#编程之采集网页类,希望本文对大家学C#/.Net有所帮助。


采集网页内容的c#类,可以像火车头一样指定目标字符串前面的字符和后面的字符,自动截取到目标字符串,测试效果不错:

using System.IO;using System.Net;using System.Text;using System;using System.Text.RegularExpressions;using System.Collections.Generic;

 

namespace testtaobao {

    public class caiji

    {

        #region 获取网页内容

        /// <summary>

        /// 获取网页内容

        /// </summary>

        /// <param name="url">网址</param>

        /// <param name="code">网页编码例如GB2312</param>

        /// <returns>网页源码</returns>

        public string gethtml(string url,string code){

            string strResult;

            try

            {

                HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);

                //声明一个HttpWebRequest请求   

                request.Timeout = 30000;

                //设置连接超时时间   

                request.Headers.Set("Pragma", "no-cache");

                HttpWebResponse response = (HttpWebResponse)request.GetResponse();

                Stream streamReceive = response.GetResponseStream();

                Encoding encoding = Encoding.GetEncoding(code);

                StreamReader streamReader = new StreamReader(streamReceive, encoding);

                strResult = streamReader.ReadToEnd();

                return strResult;

            }

            catch (Exception ex)

            {

                throw ex;

            }

        }

        #endregion

        #region 替换换行符

        /// <summary>

        /// 替换掉网页源码里面的换行符,方便匹配

        /// </summary>

        /// <param name="HtmlCode">html代码</param>

        /// <returns>去除换行符后的字符串</returns>

        public string ReplaceEnter(string HtmlCode)

        {

            string s = "";

            if (HtmlCode == null || HtmlCode == "")

                s = "";

            else

                s = HtmlCode.Replace("\"", "");

            s = s.Replace("\r\n", "");

            return s;

        }

        #endregion

        #region 执行正则提取出值

        /// <summary>

        /// 执行正则提取出值

        /// </summary>

        /// <param name="RegexString">正则表达式</param>

        /// <param name="RemoteStr">HtmlCode源代码</param>

        /// <returns></returns>

        public MatchCollection GetRegValue(string RegexString, string RemoteStr)

        {

            Regex r = new Regex(RegexString,RegexOptions.Multiline);            

            MatchCollection matches = r.Matches(RemoteStr);

            return matches;

            

        }

        #endregion

 

 

        #region 获取目标字符串

        /// <summary>

        /// 获取目标字符串

        /// </summary>

        /// <param name="fstr">目标字符串前面的字串</param>

        /// <param name="estr">目标字符串后面的字串</param>

        /// <param name="scstr">源字符串</param>

        /// <returns>匹配到的字符串数组</returns>

        public List<string> getstr(string fstr, string estr, string scstr) {

            //StringBuilder stb = new StringBuilder();

            string regstr = fstr + @".*?" + estr;

            List<string> rlist = new List<string>();

            MatchCollection match = GetRegValue(regstr, scstr);

            

            for (int i = 0; i < match.Count; i++)

            {

                string tpstr = match[i].ToString();

                tpstr = tpstr.Replace(fstr, "");

                tpstr = tpstr.Replace(estr, "");

                rlist.Add(tpstr);

            }

            return rlist;

        }

        #endregion

    }

}

 

 


以上就介绍了C#.NET的相关知识,希望对C#.NET有兴趣的朋友有所帮助。了解更多内容,请关注职坐标编程语言C#.NET频道!


本文由 @白羽 发布于职坐标。未经许可,禁止转载。
喜欢 | 0 不喜欢 | 0
看完这篇文章有何感觉?已经有0人表态,0%的人喜欢 快给朋友分享吧~
评论(0)
后参与评论

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场 匹配合适岗位
验证码手机号,获得海同独家IT培训资料
选择就业方向:
人工智能物联网
大数据开发/分析
人工智能Python
Java全栈开发
WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了,明天再试试吧!

提交

我们会在第一时间安排职业规划师联系您!

您也可以联系我们的职业规划师咨询:

小职老师的微信号:z_zhizuobiao
小职老师的微信号:z_zhizuobiao

版权所有 职坐标-一站式IT培训就业服务领导者 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
 沪公网安备 31011502005948号    

©2015 www.zhizuobiao.com All Rights Reserved

208小时内训课程