Gitee 官方博客
  • 产品动态
  • 企业案例
  • 项目推荐
  • 关于开源
  • 发现更多
  • 回到 Gitee
  • 产品动态
  • 企业案例
  • 项目推荐
  • 关于开源
  • 发现更多
  • 回到 Gitee

那些优秀的网络爬虫工具介绍 | 码云周刊第 16 期

Gitee
7 年前发布在 项目推荐

1、项目名称:项目强力 Java 爬虫  Spiderman

项目简介:Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。

主要特点:

  • 微内核+插件式架构、灵活、可扩展性强
  • 无需编写程序代码即可完成数据抽取
  • 多线程保证性能

项目地址:l-weiwei/spiderman

 

2、项目名称:便于二次开发的爬虫框架  webmagic

那些优秀的网络爬虫工具介绍 | 码云周刊第 16 期-Gitee 官方博客

项目简介:webmagic 是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

主要特点:

  • 简单的核心,灵活性高。
  • 用于HTML提取的简单API。
  • 使用POJO进行注释来自定义抓取工具,无需配置。
  • 多线程和分发支持。
  • 易于集成

项目地址:flashsword20/webmagic

 

3、项目名称:分布式爬虫系统 YayCrawler

那些优秀的网络爬虫工具介绍 | 码云周刊第 16 期-Gitee 官方博客

项目简介:分布式爬虫系统,简单使用,高级配置。可扩展,减轻开发量,能docker化,适应各种急切需求核心框架:WebMagic, Spring Boot ,MongoDB, ActiveMQ ,Spring + Quartz,Spring Jpa , Druid,Redis, Ehcache ,SLF4J、Log4j2, Bootstrap + Jquery 等。

项目地址:YayCrawler

 

4、项目名称:Go语言实现的高性能爬虫  DenseSpider

项目简介:Go语言实现的高性能爬虫,基于go_spider开发。实现了单机并发采集,深度遍历,自定义深度层级等特性。

基本结构:

  • Spider模块(主控)
  • Downloader模块(下载器)
  • PageProcesser模块(页面分析)
  • History(Url采集历史记录)
  • Scheduler模块(任务队列)
  • Pipeline模块(结果输出)

主要Feature:

  • 基于Go语言的并发采集
  • 页面下载、分析、持久化模块化,可自定义扩展
  • 采集日志记录(Mongodb支持)
  • 页面数据自定义存储(Mysql、Mongodb)
  • 深度遍历,同时可自定义深度层次
  • Xpath解析

项目地址:congqian/DenseSpider

 

5、项目名称:Node.js 的爬虫系统  neocrawler

项目简介:NEOCrawler(中文名:牛咖),是nodejs、redis、phantomjs实现的爬虫系统。代码完全开源,适合用于垂直领域的数据采集和爬虫二次开发。

特点:

  • 支持web界面方式的摘取规则配置(css selector & regex);
  • 包含无界面的浏览器引擎(phantomjs),支持js产生内容的抓取;
  • 用http代理路由的方式防止抓取并发量过大的情况下被对方屏蔽;
  • nodejs none-block 异步环境下的抓取性能比较高;
  • 中央调度器负责网址的调度(同一时间片内一定数量的抓取任务中根据网站的权重来决定派发任务量;
  • 支持多种抓取实例并存,定制摘取引擎和存储方式。

整体架构:

那些优秀的网络爬虫工具介绍 | 码云周刊第 16 期-Gitee 官方博客

项目地址:dreamidea/neocrawler

 

6、项目名称:人脸识别爬虫  FaceSpider

那些优秀的网络爬虫工具介绍 | 码云周刊第 16 期-Gitee 官方博客

项目简介:使用openCV结合网络爬虫编写的人脸识别爬虫,基于opencv246编写能够根据设置的线程数及深度针对指定目标URL的图片进行爬取。

项目地址:Luciferearth/FaceSpider

 

7、项目名称:全球最大成人网站PornHub爬虫 PornHubBot

项目简介:全球最大成人网站PornHub爬虫 (Scrapy、MongoDB) 一天500w的数据。该项目旨在研究Scrapy Spider框架和MongoDB数据库,不能用于商业或其他个人意图。:)

项目地址:xiyouMc/pornhubbot

 

Copyright@OSChina.NET

制版编辑:Zico丨

本页刊发内容未经书面许可禁止转载及使用

公众号、报刊等转载请联系授权

欢迎转发朋友圈,投稿:chenyang@oschina.cn

关注码云官方微信公众号:码云Gitee

查看更多有趣的开源项目资讯,请前往:码云开源项目广场

都没闲着!Java 实现 URL 编解码技术 | 码云周刊第 15 期
上一篇
技术创新,基于 React Native 的开源项目 | 码云周刊第 17 期
下一篇
近期文章
  • 启航 AI 新航道!Gitee 双十一与你共享智能新未来
  • 《中国DevOps现状调查报告(2023)》发布,Gitee 领跑国产平台
  • 研运一体化之下,Gitee 如何精准赋能银行实施大规模敏捷
  • 对数字「祛魅」,中大型规模企业如何进行有效的研发效能度量?
  • 从混乱到卓越,Gitee Code 如何治好 IT 部门的精神内耗
  • 科技赋能,Gitee 助力国家海关总署实现重大业务改革
  • 科大讯飞选择Gitee旗舰版,完成研发协作平台国产化替代
  • 用脑图做测试用例,高效到家了!
  • 信创驶入快车道,中国赛宝实验室选择 Gitee 搭建高效研发协作平台
  • 金融人怎么写出安全可靠的代码?知名证券企业这样做
相关文章
我们让 ChatGPT 写了一篇开源项目推荐
从 DevOps 到 XOps 的优质开源项目精选
优秀PHP开源项目集合
热门开源Web开发框架推荐
关于我们

Gitee(gitee.com)是 OSCHINA.NET 推出的代码托管·协作开发平台,支持 Git 和 SVN,提供免费的私有仓库托管。目前已有超过 1200 万的开发者选择 Gitee。

品牌内容
开源软件 GVP计划 Gitee 封面人物 CopyCat 代码克隆检测
友情链接
开源中国 Gitee Gitee 高校版 Gitee 企业版
Copyright © 2013-2025 Gitee 官方博客. Designed by nicetheme.
  • 产品动态
  • 企业案例
  • 项目推荐
  • 关于开源
  • 发现更多
  • 回到 Gitee
热门搜索
  • Gitee
  • gitee 企业版
  • 码云
  • 开源项目
  • 码云Gitee
  • GVP
  • Git
  • 开源
  • 码云企业版
  • 码云周刊
  • 码云 gitee
  • DevOps
  • gitee企业版
  • 内源
  • 内部开源
  • innersource
  • 小程序
  • 企业版
Gitee
安全、稳定、高效的云端软件开发协作平台。
Top