×

用户登录


忘记密码 | 立即注册

×

找回登录密码


×

找回密码

×

用户注册


服务条款

已有账号?

服务条款

犀牛代理用户注册协议

  1. 1.您确认:您在使用本服务之前,已经充分阅读、理解并接受本服务条款的全部内容,您应当是具备完全民事权利能力和完全民事行为能力的自然人、法人或其他组织;
  2. 2.用户应保证在注册时提供的资料均真实、完整、无误;
  3. 3.不得利用本软件发表、传送、传播、储存违反国家法律、危害国家安全、祖国统一、社会稳定的内容,或任何不当的、侮辱诽谤的、淫秽的、暴力的及任何违反国家法律法规政策的内容;
  4. 4.不得利用本软件进行任何危害计算机网络安全的行为,包括但不限于:使用未经许可的数据或进入未经许可的服务器/帐户; 未经允许进入公众计算机网络或者他人计算机系统并删除、修改、增加存储信息;未经许可,企图探查、扫描、测试本软件系统或网络的弱点或其它实施破坏网络安全的行为; 企图干涉、破坏本软件系统或网站的正常运行,故意传播恶意程序或病毒以及其他破坏干扰正常网络信息服务的行为;伪造TCP/IP数据包名称或部分名称;
  5. 5.在完成注册或激活流程时,您应当按照法律法规要求,按相应页面的提示准确提供并及时更新您的资料,以使之真实、及时,完整和准确。 如有合理理由怀疑您提供的资料错误、不实、过时或不完整的,犀牛代理有权向您发出询问及/或要求改正的通知,并有权直接做出删除相应资料的处理,直至中止、终止对您提供部分或全部服务。 犀牛代理对此不承担任何责任,您将承担因此产生的任何直接或间接损失及不利后果。
  6. 6.为保障服务器的稳定和给用户一个良好的网络环境,请勿迅雷下载,在线视频等大流量操作,否则我们有权在不通知情况下禁用帐号;
  7. 7.系统可能因下列状况无法正常运作,使您无法使用各项互联网服务时,犀牛代理不承担损害赔偿责任,该状况包括但不限于: 犀牛代理在系统停机维护期间;电信设备出现故障不能进行数据传输的;因台风、地震、海啸、洪水、停电、战争、恐怖袭击等不可抗力之因素,造成犀牛代理系统障碍不能执行业务的; 由于黑客攻击、电信部门技术调整或故障、网站升级、银行方面的问题等原因而造成的服务中断或者延迟。
  8. 8.除第三方产品或服务外,本网站上所有内容,包括但不限于著作、图片、档案、资讯、资料、架构、页面设计,均由犀牛代理关联企业依法拥有其知识产权,包括但不限于商标权、专利权、著作权、商业秘密等。 非经犀牛代理或犀牛代理关联企业书面同意,任何人不得擅自使用、修改、复制、公开传播、改变、散布、发行或公开发表本网站上程序或内容; 尊重知识产权是您应尽的义务,如有违反,您应承担损害赔偿责任。
  9. 9.使用本软件必须遵守国家有关法律和政策等,维护国家利益,保护国家安全,并遵守本协议,对于用户违法或违反本协议的使用而引起的一切责任,由用户负全部责任,一概与犀牛代理动态无关,导致犀牛代理IP 加速损失的,犀牛代理有权要求用户赔偿,并有权立即停止向其提供服务,保留相关记录,保留配合司法机关追究法律责任的权利;
  10. 10.您理解并同意,犀牛代理可依据自行判断,通过网页公告、电子邮件、手机短信或常规的信件传送等方式向您发出通知,且犀牛代理可以信赖您所提供的联系信息是完整、准确且当前有效的;上述通知于发送之日视为已送达收件人。

除非本服务条款另有约定或犀牛代理与您另行签订的协议明确规定了通知方式,您发送给犀牛代理的通知,应当通过犀牛代理对外正式公布的通信地址、传真号码、电子邮件地址等联系信息进行送达。 若犀牛代理发现使用本网服务存在进行如上任意一项行为时,本网站将立即停止其使用权,并保留相关信息以追求各项法律相关责任的权利。

为您提供相关的解决办法

以下基本常见问题,如有使用问题请反馈联系我们!

当前位置:新闻资讯

如何维护一个1000 IP的免费代理池

2018-12-14

本文关键词:购买IP代理,http代理,ip代理 

购买一套房子,分析目前房价的数据,抓链家的数据分析下房价, 爬到一半遇到了验证码. 正常得步骤是每天把链家在售的二手房数据都抓一遍, 然后按照时间序列分析. 链家线上在交 易的二手房数据大概有30000余套, 而一天只有86400秒, 也就是最慢3s也要访问一个页面. 测试 按照这种频率, 大概访问100个页面就会被封了, 而且封锁的时间还不短, 至少在12小时左右. 如果想要 每天快速的爬一些数据, 必须得搞定验证码.
链家封锁是按照IP封禁的, 简单的添加上cookies并没有什么效果. 要破解IP封禁, 自然地想法是加上代 理就好了. 在公司里代码各种工具都很成熟, 有现成的代理池可用, 自己要爬些数据的时候发现原来什么 都需要自己做. 那就自己做个代理池吧.
需要付费的方法
直接购买ip代理,购买的代理ip的价格大概是每天几块到几十块不等, 不同的ip代理商价格不同, 一个月大概需要100多快. 如果包月使用的话,看你怎么买,买什么样子得
穷人的方法
这些卖代理的网站往往都提供了一些免费代理在首页来吸引流量, 少则几十, 多则几百, 初步测试了几个还算能用. 既然直接买来代理也还需要验证, 那还不如直接抓取他们网站上提供的免费代理了. 验证后入库, 用的时候直接选取一个用就好了. 如果代理库里有1000个左右的可用IP, 那还是能解决不少问题的. 代理的一些基础知识。但是免费得稳定性稍微差了一点,用还是可以用得。
ip代理的一些基础知识
某网站的代理列表:
一般来说, http代理用的比较多, socks代理似乎很少使用. 其中好多代理服务器只支持http代理. 比如 https://www.baidu.com 就只能使用https代理访问, 而不能使用http代理. 上图中给出了这些代理的类型, 然而实际测试发现, 这些类型好多都是不准的. 还有响应时间等数据也和服务器有关, 并不能直接使用上面的数据. 所以我们的思路是只要地址和端口, 其他的数据都自己验证.
架构设计
存储
我们把抓到的代理存到mysql中, 具体的表设计如下:
抓取和验证
代理的获取分为两个线程, 一个线程使用爬虫不断扫描已知的代理的网站, 获得代理的地址, 验证后入库. 另一个线程扫描库里的代理, 验证是否依然可用.
接口
代理服务对外主要提供一个接口, get_proxy. 需要使用代理的程序每次调用这个接口获得一个可用代理使用. 每次尽量选取使用次数最少但是存活时间最长的代理.
实现
之前写过一个简单的按照配置文件抓取网页的小爬虫(https://github.com/yifeikong/minicrawler). 这下终于派上用场了. 把每个网页抽取代理的xpath配好, 之后就等着在数据库看数据就好了 ^_^
使用 django 简单实现了一个后台, 大概是这样的:
经过测试, 一般代理的存活时间往往在十几分钟左右, 但是这些代理网站的更新时间一般也在十几分钟, 而且由于找到了大概几十个网站, 扫一遍并验证花费的时间可能在几个小时左右. 所以维持一个可用代理在1k左右的代理库是不成问题的.
get_proxy 的接口如下:

支付方式

  • 微信支付
  • 支付宝支付

售后服务

  • 技术支持QQ:337292404
  • 投诉建议QQ:337292407

商务合作

关注微信公众号

优惠多多

声明:本站资源仅限用来计算机技术学习及大数据抓取、爬虫研究等合法行为。 利用本站资源从事任何违反中国法律法规的行为,由此引起的一切后果与本站无关。

枣庄联宇商贸有限公司版权所有