51期香港正版挂牌彩图

您的位置: 主页 > 51期香港正版挂牌彩图 >

公式规律网“爬虫”背后的灰色大生意

发布时间:2019-11-03

  随着近期一系列事件爆发,一个庞大而隐秘的生意浮出水面,让我们看到了大数据并不美妙的另一面。

  10月21日,杭州警方发布公告确认了51信用卡委托外包催收公司涉嫌寻衅滋事等犯罪行为。该公司利用爬虫不正当窃取用户数据、滥用用户信息进行暴利催收等一系列问题也浮出水面。此前,51信用卡旗下的51人品贷等APP就曾因未经用户同意收集个人信息而被工信部点名批评。

  但更为可怕的是,51信用卡并非孤例,今年以来,特别是最近两个月,已经有多家大数据公司、征信公司和拥有此类业务的互联网金融公司被查。监管风暴来临,“玩火现形”的51信用卡不是第一家,显然也不会是最后一家。

  而在刚刚结束的乌镇第六届世界互联网大会上,“网络空间数据法律保护”也成为一个重要议题,来自全球的政府官员、学界专家和领军企业代表,就“数据安全、个人信息保护与网络法治”和“数据治理的法治化”等议题,充分发表交流了各自的意见看法,以加强数据风险防范,构建安全可信的数字世界。

  汽车刚刚诞生之时,曾经有人起诉到法院,要求取缔汽车的上路权,因为它速度太快,若撞上行人后果不堪设想,而且有马车就够用了。当然,这并没有改变“汽车时代”的到来。但人们确实制定了一系列的法律和规则,并教育每一个驾驶和乘坐汽车的人,这样才能既享受汽车带来的新世界,又尽量避免它可能造成的伤害。

  大数据或许就是我们这个时代刚刚上路的“汽车”,我们在憧憬着其美好未来和无限魅力的同时,也到了要为其制定规则的时刻。否则,它真的会“伤人”,而且危害可能要远大于我们的想象。全社会需要共同制定一套完善规则,而每个人可能都需要一本大数据“驾照”。

  “大数据行业都快没了。”一位大数据行业的业内人士在朋友圈调侃。这虽然是句玩笑,但一方面反映了近期政策的收紧和监管的加强;另一方面也透露出,过去这个行业的问题到底有多么的严重。

  今年9月,天翼征信、杭州存信数据、新颜科技、魔蝎科技等多家大数据公司被查,还有几十家公司已经被列入调查名单,其中不乏估值高达几十亿元的明星独角兽企业。这些公司被调查的重要原因就是利用爬虫技术过度收集、非法窃取和贩卖个人数据信息。记者还发现,已经有不少大数据公司干脆停止了爬虫业务,有些甚至连团队都解散了。

  此前,“大数据行业第一股”数据堂(831428.OC)员工贩卖公民信息案轰动全国,这家公司在过去8个月内,日均传输公民个人信息超过1.3亿条,累计传输数据压缩后达4000GB左右。之后,又有巧达科技被爆出贩卖8亿份个人简历……

  “这是国内大数据行业诞生以来,从未有过的行业地震。行业消失倒不可能,但大洗牌是肯定的了。”上述业内人士告诉《中国经济周刊》。但这并不仅仅是一次大数据行业的地震,作为产业链中的“能源行业”,大数据行业发生的变化可能带来影响,或许要比我们想象中要深远得多。

  这位业内人士甚至对记者立誓断言:“真要查,没有一家的数据是百分百‘白’的。”

  实际上,大数据行业从诞生以来就一直处在“野蛮生长”的状态,作为一个新兴行业,制度的健全和监管的完善尚需时日,但行业发展已经远远跑在了前面,夹杂着灰色的“创新”层出不穷,尤其是在离钱最近、诱惑最多的互金领域。

  有人认为,中国互联网行业,尤其是中国金融科技和人工智能的发展速度之所以能够弯道超车欧美,正是得益于丰富大数据的“供养”。业内一直有个比喻:大数据是“石油”,算法算力是“发动机”。欧美造“发动机”的水平很高,但无奈作为燃料的“石油”不太够,因此只能跑跑停停;而中国虽然算法算力上还有差距,但丰富的大数据资源能够在“发动机”性能落后的情况下,也能够持续跑、跑得远。

  然而,这丰富的数据资源,一方面来自中国拥有全球最为庞大的“数字化”人群,但另一方面则是因为大量灰色地带数据的存在,这些是在国内的隐私保护、数据安全体系等尚不完善的情况下,用牺牲个人隐私换来的。

  用户适度分享自己的数据,确实可以获得更便捷、更低成本、体验更好的服务,而互联网公司也会因此不断迭代算法,创新产品,获得更快的发展。但是,这个“适度”的边界如何界定?红线应该划在哪里?如何平衡保护隐私、控制风险和产业发展、鼓励创新的关系?……太多的重要疑问待解。

  数据的源头是爬虫。网络爬虫(Spider),简单来说就是一个自动抓取网络数据的程序,比如搜索引擎大量使用的就是这种技术。爬虫技术的难度并不高,技术本身也没有好坏善恶的分别,而是要看技术使用者是如何去使用:什么数据可以“爬”,什么数据不该“爬”,并且是不是在用户知情和同意的情况下去“爬”,“爬”到的数据有没有很好地加密以防止被窃取……

  很多互联网公司会设置反爬虫机制,防止外部爬虫窃取到重要信息,但终究道高一尺、魔高一丈,近期就有美国第七大商业银行“第一资本”、英国航空公司、万豪酒店集团、华住集团等不少国内外大型公司出现客户信息泄露事件,就连Facebook都没能逃过。

  而用户也确实可以通过安装使用各类安全产品和应用,防止个人信息泄露,但常常防不胜防。现实的情况是,对于很多用户来说,他们既没有个人数据隐私的保护意识,也没有相应的安全能力,个人数据简直就是在“裸奔”,甚至还会因为一些公司的“小恩小惠”,而主动分享数据。

  大数据行业长期游走在灰色地带,很多数据的来源并不“清白”,这早已不是秘密。只是大多数人并无意识,或者为了利益选择了无视,这也使得越过红线者越来越多。

  中消协的两份报告很能说明问题。去年8月,中消协发布的《APP个人信息泄露情况调查报告》显示,超八成受访者曾遭遇个人信息泄露,主要原因就是APP经营者未经授权收集个人信息和故意泄露信息。

  而另外一份去年11月发布的《100款APP个人信息收集与隐私政策测评报告》更加触目惊心,被评测的100款APP中,竟然有多达91款的APP存在过度收集用户个人信息的问题,典型方式包括隐蔽收集用户信息、误导用户同意,强制授权、过度索权,超出用户心理预期获取个人信息,账号注销困难等。

  APP违规收集个人信息已经引起监管方的重视。今年1月,中央网信办、工信部、公安部、市场监管总局四部门联合发布公告,宣布开展为期一年的APP违法违规收集使用个人信息专项治理,并委托成立了APP专项治理工作组。目前APP专项治理工作组已经收到近9000条举报信息(经过工作组核实和初步验证的有效举报量),涉及2000多款APP,整改问题多达800余个。

  今年7月,工信部启动了针对电信和互联网行业提升网络数据安全保护能力的专项行动,要求在2019年10月底前完成全部基础电信企业(含专业公司)、50家重点互联网企业以及200款主流APP数据安全检查。

  在制度层面,中央网信办也已陆续起草《数据安全管理办法》《个人信息出境安全评估办法》《移动互联网应用(APP)收集个人信息基本规范》等系列制度文件,目前已经在公开征求意见。

  大数据行业的形成,最初主要的行业需求是广告的精准投放,通过对用户进行大数据分析,对用户进行“画像”,找出用户的行为特征和需求偏好,信息资讯平台、电商平台等都是基于大数据进行个性化推荐,不仅提升用户的使用体验,也能够帮助商家提高广告的触达效果和转化率。

  而随着互联网金融的兴起,用户数据分析开始作为征信使用,帮助金融机构找到适合的有需求的贷款人,也能降低贷款的坏账率。从推广告到放贷款,这个应用场景显然比过去需要的数据颗粒度更细,信息更全面,也更接近用户的隐私。

  以已经被查的几家公司为例,魔蝎科技的数据调用达到数亿级别,服务了超过2000家银行、保险机构、消费金融、互联网金融客户。而数据堂在8个月时间内,日均传输公民个人信息1.3亿余条,数据量特别巨大。

  巧达科技被查封后,警方发现,该公司非法获取了2.2亿自然人的简历信息,还有超过10亿份通讯录,并且掌握着与此相关的社会关系、组织关系、家庭关系数据。巧达科技曾自称拥有超过8亿自然人的认知数据,也就是说有超过一半的中国人,信息都在巧达科技的数据库里。

  这些数据都是正当获得并被正当使用?理论上和现实中都很难。而且更为可怕的是,细颗粒度的隐私信息一旦泄露,造成的危害,可不仅仅是多了骚扰电话、推销短信和诈骗电话那么简单。近期频发的暴力催收、套路贷、砍头息等也大多与数据隐私泄露有关。因此,个人信息的泄露不仅仅会危害个人人身财产安全,甚至会危害公共安全。

  比如,一些网贷公司通过爬虫窃取或者购买用户的个人信息,并分析其消费能力、家庭准确住址和社会关系,然后披着现金贷的外衣实施诈骗,让受害者掉入高额利息的圈套,不还款就进行暴力催收。

  一些大数据公司会为网贷公司提供“定位”服务,贷款人就算跑到天涯海角、更名改姓都会被找到。找不到你,也能找到你的家人亲属朋友,进行恐吓威胁,逼迫你偿还高额的贷款利息。此前已经出现过数起大学生深陷“套路贷”,几千元贷款滚成了百万元,最后因不堪承受催收公司的骚扰侮辱和恐吓威胁而自杀的案件。

  即使数据来源合理合规,近年来,在大数据画像的使用过程中,也出现了一些“伦理问题”,比如“大数据杀熟”“同房不同价”“看人发红包”等等,都备受争议。本是用来精准服务你的方法,被用来精准地“欺负”你,最懂你的人,伤你也是最深。

  由于金融机构和互金平台获得的收益远高于广告行业,因此,为其服务的大数据公司也收入更高,这使得这类数据越来越贵。在利益面前,就有人开始动了歪主意,甚至黑灰产也盯上了这诱人的数据生意。

  据记者了解,一些中小型银行和金融机构,特别是一些互联网金融公司,自身并没有积累足够的用户数据,因此只能通过魔蝎科技这样的第三方数据公司提供征信和风控服务,而这些数据公司的数据来源是黑是白,他们并不清楚,或者也不想清楚。

  一些大数据公司不仅会开发支付宝爬虫、微信爬虫、运营商爬虫等,从拥有丰富用户数据的大平台“扒数据”,也会通过恶意SDK向用户手机植入爬虫,窃取用户数据。尤其是生物信息一旦泄露,危害极大。因为姓名、手机号、银行卡、密码等信息一旦泄露,都可以即时更改,但指纹、虹膜、人脸数据等都是无法更改的,被窃取后隐患无穷。

  不仅中国,数据隐私的问题已经是一个全球性问题,反应比较激烈的是文化上更重视个人隐私的欧洲。

  去年5月26日,欧盟《通用数据保护条例》(GDPR)正式开始实施。这部被称为“史上最严格数据隐私保护条例”实施一年多以来,开出了数张天价罚单,引起全球震动。最为重要的是GDPR还设置了“长臂管辖”机制,即GDPR不仅与欧盟的公司有关,只要你的客户或用户中有欧盟国家公民,并且处理他们的数据,GDPR就有权对你的数据行为进行处罚,而且罚金非常高。

  GDPR对于没有保护好数据而导致数据泄露等的,处以1000 万欧元或者上一年度全球营业收入的2%,两者取其高;自主泄露侵犯用户数据的,处以最高2000万欧元或者企业上一年度全球营业收入的4%,两者取其高。

  “GDPR带来了全球隐私保护立法的热潮,并成功提升了社会各领域对于数据保护的重视。但对于企业来说,合规成本的增加是最为直接的影响。”一直关注GDPR的中国互联网协会研究中心秘书长、北京师范大学刑事法律科学研究院吴沈括教授告诉《中国经济周刊》。

  但自推出起,外界对于GDPR就争议不断,很多人斥责它“阻碍”科技创新。吴沈括也表示,GDPR可能损及互联网成熟业态、新兴产业和经济创新。“GPDR实施后,这一预测逐渐得以证实。”他说。

  吴沈括认为,GDPR推出的原因复杂,并不仅仅只是出于数据隐私保护的目的。“实际上,GDPR的出台,欧盟内部经历了前所未见的游说博弈过程,这也反映了GDPR本身并非纯粹的个人数据规范,而是深层次融合了国际政治博弈、产业经济竞争以及社会文化扩张等诸多元素的复杂综合体。”他说。

  “GDPR实施以后,对从事全球业务的公司,尤其是互联网公司带来了很大震动,因为互联网本身是全球互通的,你很难避免有欧洲的用户使用你的产品。”麒麟合盛网络技术有限公司(APUS)法务总监吴映京告诉《中国经济周刊》。

  APUS创建于2014年,国内用户可能并不熟知。但其实这家主要为安卓智能手机用户提供一个轻量级操作系统和桌面入口服务的公司,是中国移动互联网公司“出海”最具代表性的公司之一。目前,APUS全球已经有用户超过14亿,覆盖全球200余个国家和地区。

  欧洲市场是APUS的重要市场,对于APUS这样将AI和大数据作为核心战略的互联网公司,欧洲GDPR的实施对于公司发展的影响非常大。APUS因此专门成立了针对GDPR的研究团队。

  吴映京没有透露APUS为GDPR合规所投入的具体成本数字。但据美国专业机构的调查数据,68%的美国企业预计将花费100万到1000万美元来满足GDPR的要求,另有9%的企业预计花费超过1000万美元。

  “GDPR合规工作需要投入额外的资源与成本,这无形中为全球初创公司进入欧洲市场设置了一个合规门槛。Google、Facebook这样的巨头都觉得非常棘手,并且需要投入大量资源去改造数据结构,更不要说缺乏相应技术能力和资源的中小公司。”吴映京表示。

  “GDPR落地一年多以来,其实可以满足大家对巨额处罚幻想的大罚单只有3笔,可见对巨额罚单还是比较审慎的。”吴映京说,“目前来看,欧盟在GDPR的执行上并没有预想的那么严格,而且主要针对大型企业和发生数据泄露事件的企业,应该说于实践层面在安全与创新之间进行了某种平衡。”

  实际上,针对数据隐私的立法在全球已经形成潮流,日本、韩国、印度、巴西、俄罗斯等国都设立了类GDPR的隐私保护法,美国各州也已经陆续在落地隐私保护的法规,比如加利福尼亚州就在去年通过了《加州消费者隐私保护法案》。而且美国各界都在呼吁希望能在联邦层面设立数据保护法案。不过,联邦隐私法目前还处在讨论和平衡各方利益的阶段,短期内出台的可能性不大。

  欧洲激进,美国警惕,中国呢?中国需不需要给企业也套上一道“紧箍咒”?隐私安全的红线应该划在哪里?

  实际上,除了已经自2017年6月1日起施行的《网络安全法》,今年以来,已经有《信息安全技术个人信息安全规范(草案)》《数据安全管理办法(征求意见稿)》《网络安全审查办法(征求意见稿)》《个人信息出境安全评估办法(征求意见稿)》《儿童个人信息网络保护规定(征求意见稿)》《App违法违规收集使用个人信息行为认定方法(征求意见稿)》《网络安全漏洞管理规定(征求意见稿)》《个人金融信息(数据)保护试行办法(初稿)》等一系列与数据隐私安全有关的法律法规推出并在广泛征求意见。

  吴映京表示,从我国已经出台和酝酿推出的政策法规来看,国内的法律法规对个人数据的保护程度和力度并不比GDPR要弱,虽然国内并不像欧盟那样设置了高额的处罚,但侵权者同样会面临基于我们立法和国情的处罚,严重者甚至是刑事处罚。

  吴沈括认为,数据是未来时代的“石油”,数据的收集和使用在给大家带来便利的同时,也给大家的隐私保护造成安全隐患。为切实保障数据的隐私安全,收集使用相关数据时需要遵循合法、正当、必要的原则。

  “一是收集的数据必须是合法的,要公示收集规则,经用户同意;二是收集数据应遵守道德伦理底线,确保使用数据行为的正当性,不应强迫用户授权,或者以默认授权、捆绑服务、强制停止使用等不正当手段变相诱导、胁迫用户提供相关数据;三是收集必要的、最小化的数据。”吴沈括说。

  吴映京则表示,数据利用的“度”一定是需要政府、企业和民众共同去摸索实践的,因为目前并不能说哪个制度就一定是最优的,关键在于明确好社会、企业和用户在隐私保护中的责任,平衡好三者之间的利益。对于数据“发掘”过程中可能带来的问题保持动态的态度和审慎的精神,但是不要制造非此即彼的对立情绪,而是应该以制度、教育甚至进一步的科技发展积极地解决这些问题。

  其实,种种迹象表明,监管层对大数据行业的整顿和加强监管是酝酿已久的,并非刚刚发现问题。但相关法律法规的出台也确实非常谨慎。毕竟要兼顾防范风险和鼓励创新,需要勇气,更需要智慧。

  中国社科院副院长、学部委员高培勇就在乌镇第六届世界互联网大会期间表示,在立法方面,需要加快推进数据相关立法,贯彻科学立法、民主立法、依法立法原则,以良法促进发展、保障善治。在执法方面,要进一步优化执法体制,加强执法能力,创新执法方式,避免简单将线下执法方式搬到线上,解决信息内容应急式管理与常规执法双轨运行现象。

  司法部副部长赵大程则指出,随着互联网普及应用,网络数据海量聚集,数据价值日益凸显,大数据已经成为推动经济社会发展的“血液”、经济发展的“引擎”。要顺应大数据发展带来的历史机遇,广泛凝聚依法治理的共识,共同推进全球数据治理朝着更加平衡有效的方向发展。

  赵大程认为,数据治理法治化是推进法治建设的应有之义,也是建设网络强国的坚实保障和必然要求。要完善数据产权保护制度,为数据产业创新和数字经济发展提供制度基础。要完善数据保护法律规则,加大保护力度,规范个人信息的收集处理等活动,为维护网络数据安全提供更有力的法治保障。

  欧洲实施了“史上最严格”的数据保护条例,还冒着阻碍创新的风险,但用户的数据安全真的就能高枕无忧了吗?可能答案并不是肯定的。在工业时代,作为核心能源的石油因其背后的巨大利益,甚至引发了战争。如果大数据真的是“未来的石油”,巨大的利益面前,仅仅靠法律和规则的禁止,恐怕很难解决全部问题。

  “只要市场对此的需求存在,即使监管再严格,也总会有人因为利益去铤而走险。”北京大学市场与网络经济研究中心的陈永伟研究员告诉《中国经济周刊》,他认为,数据隐私归根到底要从技术上入手,技术带来的新问题最终还是需要用技术来解决。

  “比如获得图灵奖的、清华大学姚期智教授的‘多方安全计算(MPC)’,才可能是彻底解决这个问题的路径。通过技术手段实现既保护用户的数据隐私,又能够获得有价值的数据挖掘。”陈永伟说。

  姚期智是第一位也是唯一一位获得图灵奖(计算机领域最高荣誉)的华人计算机科学家,他提出的MPC (Secure Multi-Party Computation),是一个名为“多方安全计算”的理论框架,基于此,可以实现数据使用权、所有权的分离,数据所有方可以保有数据,但是又不影响数据需求方提供服务。简单地说,就是基于加密的数据进行计算。

  姚期智在上个世纪80年代就提出了这个想法。因为人工智能、产业互联网的发展都离不开数据挖掘,这就意味着如果数据隐私问题解决不了,那产业将无从发展。但是,当时的计算机算力根本无法实现MPC的相应计算,因此MPC一直停留在理论层面。

  但30年后的今天,算力问题已经不再是问题,姚期智认为,多方安全计算将会在金融科技、人工智能、医药保护共享数据等方面发挥重要作用。这对于需要以海量数据作为训练根基、但又面临数据隐私保护合规难题的技术来说,将是一个好消息。

  MPC的行业应用已经在探索。比如今年5月,蚂蚁金服推出其基于MPC的安全计算平台“摩斯”,能够提供一种全新的安全和保护隐私的数据合作方式,能够在本地数据不泄露、原始数据不出域的前提下,通过密码学算法,分布式执行既定逻辑的运算并获得预期结果,从而实现安全高效的数据合作。

  吴沈括也认为,欧盟的GDPR这种试图通过“用户赋权—企业担责”的单向路径实现用户与企业间的信任,忽略了在激烈市场竞争下用户和企业共赢的可能性。获得客户的信任同样是企业的目标。因此,法律如何从正面激励企业尊重用户对个人信息的权益,还需要更深入的研究和更多的制度想象力。

  “事实上,无论是商业模式还是科技进步,既是个人信息的加害者,也是个人信息的保护者。因此,我们可以通过鼓励企业创新,积极开拓区块链、多方安全计算等新的技术架构,达成个人信息保护与数据利用的动态平衡。”吴沈括说。

  一时间,魔蝎数据、新颜科技、公信宝、快钱支付、天翼征信等公司先后传来有人被警方带走调查的消息。

  这令处于大数据风控服务核心的——爬虫技术推上了风口浪尖,大数据行业也迎来了前所未有的“震荡”。消息称,被调查或是因为这些公司利用网络爬虫技术侵犯个人隐私数据,这些隐私数据的泄露,加剧了暴力催收的泛滥,助长了“套路贷”“高利贷”。

  而港股上市公司51信用卡被警方突击调查的消息,则为这场风波炸响了一声“惊雷”。10月21日晚,杭州公安通报称,51信用卡被突击调查原因在于,今年9月以来,其委托的外包催收公司冒充国家机关,采取恐吓、滋扰等软暴力手段催收债务,涉嫌寻衅滋事。

  目前,已经有多家大数据风控平台暂停部分服务。大数据行业似乎进入了一个前所未有的“整顿期”。

  在近年互联网金融大潮中,大数据风控供应商一直扮演着重要角色。爬虫技术也是大数据风控行业的主打产品。“爬虫”怎么成了“害虫”?在互联网金融风险整治不断深化的大背景下,大数据风控行业又将何去何从?

  网络爬虫也叫网络蜘蛛(spider),是一种自动浏览网络的计算机技术,能够自动化、高效率地检索互联网并抓取数据。爬虫技术也是搜索引擎技术的核心元素之一,经历了20多年的发展,已经日趋多样化,在搜索引擎、数据分析、人工智能等领域得到了广泛应用。

  此次风波中的公司大多是国内较早从事大数据风控的服务商,主要为银行、保险、消费金融公司、贷款机构等提供风控技术解决方案,而其中就包括了爬虫服务或者基于爬虫技术而形成的产品。

  知名大数据风控平台同盾科技卷入了此次风波。其旗下子公司信川科技的数聚魔盒业务已经停止。公式规律网。公开信息显示,数聚魔盒主要涉及数据采集流程,支持爬取数据用作信用评估。

  “信川科技是同盾科技下属独立运营的子公司,旗下的数聚魔盒业务已经停止。”同盾科技相关负责人向《中国经济周刊》记者介绍,数聚魔盒业务本身对适用条件与场景有严格的授权要求与限制,为更加严格地保护用户合法权益,并积极响应国家关于个人信息保护的相关政策,去年公司已经开始主动收缩该业务,今年上半年已完全停止。

  而背靠中国电信的天翼征信也传来被调查的消息。有媒体报道称,9月12日上午,天翼征信总经理、副经理以下及市场人员,共计十余人被警察带走。

  天翼征信相关负责人对《中国经济周刊》记者表示,“我们现在一切都正常,没有什么太大问题。未来可能将对客户进行筛选。我们业务都是合规的,至于行业里的传闻也不太好评价。而关于有无人员被带走调查,对外不做任何回复。”

  爬虫作为一种计算机技术具有中立性,在法律上也从未被禁止,为什么这些公司会因为爬虫技术而被调查?

  问题的关键在于爬取的行为和爬取获得的数据是否触及监管红线——是否经过授权?是否过度爬取数据?获取了哪些数据?是否为获取数据破坏被爬服务器的防护措施?

  前述同盾科技负责人直言,“爬虫其实是一个中立的技术,但现在可能会有灰色地带存在。”

  随着互联网金融兴起,非银行金融机构如P2P、小贷公司、消费金融公司等都试图掘金传统征信数据缺失人群。而伴随用户金融行为进一步线上化,还产生了除工商财税、水电煤缴费之外的信息,如支付和交易信息、社交大数据信息等等,成为判断用户信用水平的重要数据类型。

  然而,对于这些机构而言,自身搭建完整的风控系统成本动辄高达数千万。在此背景下,服务金融机构以及类金融机构的第三方大数据风控公司应运而生。

  从这些大数据风控企业的合作体量,就可以看出市场需求的旺盛。公开信息显示,魔蝎科技已与国内银行、保险机构、消费金融、互联网金融等超过2000家客户合作。新颜科技合作机构2500家以上;数聚魔盒在2019年3月份下线家。

  随着行业的“野蛮生长”,竞争日益激烈,一些变异的爬虫产品也随之出现,涉及窃取、泄露、滥用用户数据等。

  有业内人士向《中国经济周刊》记者介绍,一些大数据风控服务商为了获取海量数据,许多非授权隐私数据也会成为爬虫的目标,甚至用户手机里的通讯录、通讯记录、电商交易数据、外卖交易记录等等,要是被盯上,“基本上你就没什么秘密了”。

  而有些爬虫技术则采用“多线程爬取”,从而导致网站瘫痪或不能访问,这也是大多数网络攻击所使用的方法之一。

  “去年就一直存在个人隐私信息不断被泄露,部分金融公司通过各种数据源对用户数据进行打包出售再加工,严重涉及到公民隐私及数据安全的问题。”有业内人士对《中国经济周刊》记者表示,有的金融公司通过各种数据源对用户数据进行打包出售再加工,严重涉及公民隐私及数据安全问题。去年问题爆发得很明显,主要集中在消费金融和现金贷两大业务板块。

  部分拓展在线零售业务的中小城商行、农商行,也会选择与第三方大数据风控公司合作,进行数据交叉验证、丰富风控维度。

  在上述业内人士看来,大量第三方数据公司为了获得银行业务,会提供大量不同的数据源,很多数据是“非脱敏”数据,“银行业是一个国家的经济命脉, 这些数据提供给银行就会涉及到金融安全问题。”

  “即便客户允许你抓取,也是在这一次审批当中可以用,你把这些数据留存用于其他场景肯定是不对的。”一位不愿透露姓名的业内人士对《中国经济周刊》记者分析,从对个人信息保护的严格意义上讲,这些数据应当全部销毁。而部分爬虫公司并不销毁历史上抓取的数据,同时还提供给其他客户、其他场景使用。

  这位业内人士举例称,还有一类公司会采用特殊手段规避法律风险,“比如:用户上传身份证号码,征信公司直接显示用户每个月纳税金额,这肯定触犯法律。但他们会规避掉法律风险,用数据标签给用户的纳税金额打分,比如缴税1万元的人就是5分,1万元以下的就是3分。”

  随着强监管信号的不断释放,“野蛮生长”的大数据爬虫时代或将结束。在不少业内人士看来,本次整顿也是一个行业净化、洗牌的过程,有利于整个行业更加健康、规范发展。

  今年5月28日,国家互联网信息办公室发布了《数据安全管理办法(征求意见稿)》(下称“《管理办法》”),用部门立法的方式对互联网数据收集、数据处理使用,都做了明确的界定。

  《管理办法》第十六条规定,“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。”

  在北京大成律师事务所执业律师、北京网贷协会法律顾问肖飒看来,没有授权的爬虫就一定是违法的,需要重点整治。现在的关键是如何面对这些看似“合法”的爬虫,重中之重就是运营商做到用户授权链的完整,搜码网/888569搜码网/香港搜码网/搜码网320999!明晰完整的授权链,做到源头控制。总的来说,应当尽快制定完善针对网络爬虫的数据安全法律法规,将网络爬虫引向合法轨道。若是违法进行网络爬虫,就要重拳出击,加大惩罚力度和侦查力度,涉及刑事犯罪的要重点处理。

  然而,过去一个多月的行业“震荡”昭示着,针对大数据风控行业的强监管才刚刚开始。

  10月24日,有报道称,央行日前发文紧急调研银行与第三方数据公司合作情况。其中,银行需排查的内容主要涉及数据采集、信用欺诈、信用评分、风控建模等方面。央行还要求各企业征信机构排查自身业务中是否存在违规爬虫行为。央行表示,如存在上述情况,请立即上报,对于存在违规爬虫业务的要立即整改。如不存在上述情况的,请出具加盖公章的书面承诺函,并于10月24日前送至央行征信管理处。