被坏爬虫薅羊毛,双重应对策略让电商恶意爬虫比例降至不足1/3|创新场景
创始人
2024-08-05 15:22:49
0

场景描述

受巨大的商业利益驱动,爬虫现象普遍存在于各行各业,如高科技与金融、旅游与酒店、数字媒体、电子商务、社交媒体等。其中,电商领域的爬虫现象显著高于其他行业。

善意的爬虫如搜索引擎,它们为信息流通与检索提供了便利,有助于提升企业的网络可见度和营收;中性的爬虫则涉及了许多提供“爬虫即服务”的公司,如Web scraping bots、BrightData等,它们旨在帮助用户进行信息收集与聚合,从事市场调研、竞品分析等非恶意活动,但这类工具也许会被不当使用与滥用;有害的爬虫也就是“坏爬虫”,可能从事撞库攻击、库存抓取等恶意行为,不仅威胁到用户的账户安全,也会严重损害企业利益与安全

撞库攻击:利用从暗网等非法渠道获取的庞大用户名和密码列表,通过自动化程序尝试登录其他网站,以寻找可复用的凭证。一旦用户账户被非法入侵,企业信誉和资产都可能受到波及。

“库存抓取”机器人:专门紧盯新品或限量版商品,一旦发现便迅速抢购一空,再转而在自己的平台上高价销售,不仅扰乱了市场秩序,也严重损害了企业的合法权益和利润,更是对电商生态产生潜在威胁。

那么,在实际应用中,不法分子是如何利用爬虫技术从电商领域获利的呢?钛媒体App了解到,爬虫玩转了“全网最低价”策略,首先是广泛搜集各销售网站数据,包括产品价格、库存等关键信息;通过对比分析,找出价格最优、优惠力度最大的电商平台。基于这些信息,转而在另一个平台上开设自己的店铺,以准新或全新未开封的产品进行转售,利用价格优势实现盈利。甚至还可能利用脚本抢占库存、购买促销商品后转售牟利,给电商生态带来潜在威胁。

值得注意的是,随着技术的进步,融入了AI和机器学习技术的爬虫服务也日益智能化,它们能自动从多个数据源抓取内容,通过预设的逻辑进行数据抽取与分析,这种一站式解决方案无疑是把双刃剑。尤其对电商网站的所有者来说,爬虫技术演进后,其隐蔽性越来越强,特别是采用“无头浏览器”等技术的爬虫已经能模拟人类访问行为,使得传统安全手段难以有效识别与拦截。此外,不断泛滥的爬虫还会不断变化,一次防御过后,下一次还可能会出现变种,这对企业构成了巨大的挑战。

解决方案

点击报名参与创新场景50的评选

Akamai北亚区技术总监刘烨告诉钛媒体App,面对日趋复杂的网络爬虫,企业的应对策略应分而治之,以确保好的爬虫能够正常访问,而对坏的爬虫进行处理。这就要求,首先要能够识别爬虫,其次,针对不同类型的爬虫再采取相应的应对措施。

识别的核心,即如何分析行为并利用数据库查看特征。具体来看有两种方法:第一种方法是通过观察足够多的请求,建立一个大型数据库,用于记录并分析请求的特征。如果请求来自恶意爬虫,则需要识别其来源和特征。第二种方法是判断数据库之外的请求是人还是爬虫,需要分析其行为,以确定是否可能影响企业敏感信息或对电商网站造成不利影响

针对识别出的坏爬虫,下一步则是考虑采取什么样的应对方法。刘烨表示:“通常我们提到的应对措施是针对其它产品,如应用防火墙(WAF),其主要模式是‘报警’和‘阻止’。然而处理爬虫时,通常不是简单地阻拦或禁止,而是管理它们。一旦识别出爬虫,即使是恶意爬虫,也应该采取不同的处理方式。”

处理爬虫的方法可以有多种不同选择。例如,可以选择不禁止它,但不做任何响应,让它误以为连接仍在进行;或者是给它提供虚假信息,例如在它抓取价格时返回给它一个虚假的价格;当然也可以选择直接禁止它。以上措施一般是根据实际情况进行动态调整。

具体到Akamai的做法,其提出了双重应对策略。首先,在边缘网络层面,利用预定义的访问异常特征和协议指纹来快速识别并限制恶意爬虫。其次,通过深入分析访问行为(如鼠标移动轨迹、键盘敲击模式)和设备指纹,结合机器学习模型,进一步细化识别精度,确保对潜在威胁的精准打击。

同时,面对AI加持下不断变化的爬虫,企业和安全厂商也应采取更多自动化策略。当出现新的攻击类型时,不需要人为干预,策略引擎能够自动部署新的策略,有针对性地阻止这些新攻击。这是应对快速变化的攻击类型和产品演进的重要措施。

成效

关于电商场景中可能遇到的爬虫问题,包含三个具体例子,分别针对爬虫识别、被动成本、“撞库”威胁

第一个例子是对电商网站高风险爬虫的识别管理。通过一周的监测,Akamai判断出某客户电商网站的人类访问、高风险爬虫、中风险爬虫、善意爬虫类型,识别出使用高级脚本的恶意爬虫比例高达97%,进行爬虫管理后,这一比例降至不到1/3,有效禁掉了大部分高风险爬虫。

第二个案例是针对爬虫带来的被动成本威胁。当企业短信接口被爬虫触发时,频繁的短信发送导致了成本损失。通过爬虫管理平台能够识别并处理这类爬虫,从而降低费用损失。

第三个案例涉及“撞库”类型的爬虫。企业在日志中发现大量“访问不成功”的信息,这则是明显的撞库请求。通过有效过滤来提升账户安全,确保业务安全。(本文首发钛媒体APP 作者 | 贾雨微)

「关于创新场景50」

场景不是案例,它更加精准、也更加抽象。数字化就是创新场景的不断叠加和迭代。

在此背景下,钛媒体重磅推出「创新场景50」评选,每年遴选并解读50个全行业与业务深度融合的创新性场景及其解决方案,并在钛媒体年度ITValue Summit 数字价值年会上隆重颁奖、深度交流。

目前场景正在征集中,更精准的解读、更广泛的曝光、更强大的品牌势能,欢迎你提出问题,更欢迎你留下解决的方法和工具。点击这里投递更多场景信息

点击进入2024 ITValue Summit数字价值年会,了解更多信息。

相关内容

热门资讯

慎用≠拒绝!激素在白癜风治疗里... “慎用”与“拒绝”看似相近,实则相差甚远。在白癜风调理中,激素并非洪水猛兽,其重要性体现在特定病情阶...
美团为何收购叮咚买菜?50亿落... 2026年即时零售赛道的第一把火,烧向了生鲜买菜平台。2月5日,美团突然出手,以约7.7亿美元的对价...
千问官宣:免单卡延长至2月28... 每经编辑|段炼 2月6日,千问正式上线“春节30亿免单”活动,发放奶茶免单卡,引发全网热潮。 用户...
特斯拉据称正在美布局多州建厂 ... 财联社2月6日讯(编辑 赵昊)最新消息显示,特斯拉正在评估美国多个选址,准备扩大公司的太阳能电池制造...
2026金属包装提价&... 今天分享的是:2026金属包装提价&出海齐头并进,龙头盈利改善可期 报告共计:25页 金属包装行业迎...
上海市人大代表谢吉华:建议临港... 上证报中国证券网讯(记者 宋薇萍)“与货物贸易领域已经成熟运行的‘国际贸易单一窗口’相比,技术贸易领...
年味渐浓 各地消费市场活力足人... 央视网消息(新闻联播):春节临近,年味渐浓。各地通过打造多元场景激发消费热情,市场活力足、人气旺。 ...
中国央行黄金储备"十... 2月7日,中国央行数据显示,中国1月末黄金储备报7419万盎司,12月末为7415万盎司,为连续第1...
融资路演PPT设计:数据驱动下... 对于至关重要的融资路演、招标或产品发布,我们提供的是经过系统化打磨的“视觉武器”——融资路演PPT设...
原创 A... 定焦One(dingjiaoone)原创 作者 | 张墨 编辑 | 阮梅 2026年春节临近,互联网...
中国德国商会:对美国失去信心,... 【文/观察者网 阮佳琪】 特朗普政策反复无常,搅得一众美国盟友鸡飞狗跳,更令外国企业对美投资心生忌...
美道指首次突破50000点大关... 受英伟达股价大涨推动,美股道琼斯指数周五收盘历史性突破五万点,标准普尔500指数和纳斯达克指数也显著...
消息人士称,SpaceX推迟火... 来源:中原网 消息人士称,SpaceX已告知投资者将优先考虑登月,之后再尝试火星之旅。 Space...
央行等8部门联合发文,明确虚拟... 文/ 刘佳 据央行官微消息,近日,中国人民银行、国家发展改革委、工业和信息化部、公安部、市场监管总局...
壹网壹创拟收购联世传奇 加速引... 来源:证券时报e公司 2月6日晚间,壹网壹创(300792)披露收购预案,拟通过收购北京联世传奇网络...
十部门联合印发《指南》——为低... 近日,国家市场监督管理总局等十部门联合印发《低空经济标准体系建设指南(2025年版)》(以下简称《指...
马斯克态度反转:SpaceX ... 北京时间 2 月 7 日,据《华尔街日报》报道,SpaceX 已推迟原计划于今年进行的火星任务,转而...
政策利好!事关服务消费,多部门... 来源:中国证券报-中证网 2月6日,国新办举行国务院政策例行吹风会,介绍《加快培育服务消费新增长点工...
AI智能写作工具怎么用?帮你快... 凌晨三点,我又对着空白文档发呆了。这周第五篇,一个字都憋不出来。 真的,做内容快把自己做废了。 AI...
2026宿迁(上海)产业与资本... (速新闻记者 马爽)2月6日下午,2026宿迁(上海)产业与资本对接暨产业基金发布会在上海举行。本次...