Go语言网络爬虫条目处理管道

Go语言网络爬虫条目处理管道,第1张

概述条目处理管道的接口拥有额外的 ItemProcessors、Send、FailFast 和 SetFailFast 方法,因此其实现类型 myPipeline 的基本结构是这样的: //条目处理管道的实现类型type myPipeline struct { //组件基础实例 条目处理管道的接口拥有额外的 itemprocessors、Send、FailFast 和 SetFailFast 方法,因此其实现类型 myPipeline 的基本结构是这样的:
//条目处理管道的实现类型type myPipeline struct {    //组件基础实例    stub.ModuleInternal    //条目处理器的列表    itemprocessors []module.ProcessItem    //处理是否需要快速失败    failFast bool}
代码包 gopcp.v2/chapter6/webcrawler/module/local/pipeline 是存放该类型的位置,其中 New 函数与 analyzer 包中的 New 函数在参数声明列表和参数检查方式方面都很类似,这里就省略不讲了。相关代码包的代码大家可以在网盘(链接:https://pan.baidu.com/s/1yzWHnK1t2jLDIcTPFMLPCA 提取码:slm5)中下载。

除此之外,分析器中有 http 响应解析函数的列表,而条目处理管道中有条目处理函数(以下简称处理函数)的列表。因此,后者的 Send 方法与前者的 Analyze 方法在实现流程方面也大体一致。只不过由于条目处理管道存在对快速失败的设定,所以在流程细节上它们仍有不同。

另外,还要注意,条目处理管道需要让条目依次经过那几个处理函数的加工。也就是说,第一个处理函数的处理结果要作为第二个处理函数的参数,第二个处理函数的处理结果要作为第三个处理函数的参数,以此类推。这是由条目处理管道的设计决定的,也是“管道” 一词要表达的含义。

相比之下,分析器中的解析函数对 http 响应的解析是相互独立的。下面是 Send 方法的代码片段,体现了上述不同:
func (pipeline *myPipeline) Send(item.module.Item) []error {    //省略部分代码    var errs []error    //省略部分代码    var currentItem = item    for _,processor := range pipeline.itemprocessors {        processedItem,err := processor(currentItem)        if err != nil {            errs = append(errs,err)            if pipeline.failFast {                break            }        }        if processedItem != nil {            currentltem = processedItem        }    }    //省略部分代码    return errs}
itemprocessors、FailFast和SetFailFast方法的实现都非常简单,在此略过。

至此,我已经讲解了组件相关接口的绝大部分实现,同时阐述了一些我在 Go语言程序编写和软件设计方面的经验,也展示了一些编码技巧。 总结

以上是内存溢出为你收集整理的Go语言网络爬虫条目处理管道全部内容,希望文章能够帮你解决Go语言网络爬虫条目处理管道所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://www.54852.com/langs/1271166.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-06-08
下一篇2022-06-08

发表评论

登录后才能评论

评论列表(0条)

    保存