注册
|
登录
发帖
热搜
活动
交友
discuz
论坛
BBS
翼度工具
翼度网址导航
开发工具
Linux命令速查
网页设计配色表
在线制作icon
颜色代码选取器
翼度科技
»
论坛
›
编程开发
›
python
›
查看内容
返回列表
发新帖
如何有效管理爬虫流量?
润扬
润扬
当前离线
积分
24
8
主题
8
帖子
24
积分
新手上路
新手上路, 积分 24, 距离下一级还需 26 积分
新手上路, 积分 24, 距离下一级还需 26 积分
积分
24
发消息
显示全部楼层
本文分享自天翼云开发者社区《
如何有效管理爬虫流量?
》,作者:刘****海
据国际知名金融广告服务平台提供商Dianomi的报告《2018 Robot traffic report》的数据,在互联网上人类流量仅仅占了48.2%,也就是说,一个页面的10000个点击里面,大约5100个来自机器人。在航旅票务等行业,热门数据接口中甚至有超过95% 的流量是来自爬虫。如何有效管理爬虫流量,是当下业务安全面临的问题。
最早“诞生”的好爬虫
常见的善意Bot有百度爬虫、谷歌爬虫、必应爬虫等搜索引擎类爬虫,此类爬虫经常被企业用于提高站点在搜索引擎内的自然排名,使得站点在各大搜索引擎中的排名能够提高,进一步通过搜索引擎来进行引流为企业增加业务流量。
恶意爬虫带来的业务安全风险
大量“变异”的爬虫很快充斥网络,通过模拟正常用户活动和行为,大肆进行数据窃取、资源占用、薅羊毛等违法违规操作,导致从数据到业务、金钱,方方面面的安全风险
恶意爬虫特征
恶意BOT在AI技术的加持下已“进化”成智能化网络机器人给个人用户、商业平台带来巨大危害,它通常有以下几个“DNA”:
1.高并发
利用云端基础设施或者IDC机器集群,形成极高的并发访问能力
2.速度快
可在短时间内形成超量的访问,在一夜之间薅走百亿规模的羊毛
3.全天候
可以7*24*365的工作,秒杀一切996,甚至为了逃避侦测,经常昼伏夜出、凌晨作案
4.自动化
可在完全无人看守和干预的情况下,模拟大部分人类行为并完成恶意任务,从拖库撞库、登录测试,到图片验证码破解、薅羊毛等所有任务都可以执行
5.智能化
AI技术加持,拥有超高“智慧”
如何有效防护恶意爬虫
1.威胁情报库
依托网络安全经验和大数据情报,精准识别拨号池IP、IDC机房IP、恶意扫描工具IP等多种维度的爬虫威胁情报规则,方便您在全域名或指定路径下设置阻断恶意爬虫的访问请求
2.人机交互验证
用对人类不可见的挑战机制,在不影响用户体验的基础上,要求客户端证明其支持存储 Cookie 和执行 JavaScript,从而识别出爬虫和正常用户
3.威胁分析
收集线上日志数据,输入异常分析检测模块中,根据已定规则进行多维度、上下文分析,输出异常客户端信息。
来源:
https://www.cnblogs.com/developer-tianyiyun/p/17485546.html
免责声明:由于采集信息均来自互联网,如果侵犯了您的权益,请联系我们【E-Mail:cb@itdo.tech】 我们会及时删除侵权内容,谢谢合作!
上一篇:
Python 自动化测试的配置层实现方式对标与落地
下一篇:
内网环境下批量安装python库
发表于 2023-6-16 19:33:05
举报
回复
使用道具
分享
返回列表
发新帖
本版积分规则
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
快速回复
快速回复
返回顶部
返回顶部
返回列表
返回列表