中国体育彩票大乐透|超级大乐透开奖规则
觀點

解密游走于法律邊緣的爬蟲技術

趙一葦  2019-10-21 13:40:51

一場席卷大數據風控行業的風暴仍在繼續

  2018年4月至5月,廣東警方開展“凈網安網”專案收網行動,共打掉團伙40余個,繳獲非法買賣的公民個人信息1.2億余條。攝影/本刊記者 陳驥旻

 

  本刊記者/趙一葦

 

  一場席卷大數據風控行業的風暴仍在繼續。

 

  從9月下旬開始,多個業內閉門交流會緊急召開,每個會場都擺出嚴防死守的架勢。“參會者中不乏近期被查或有關聯的大數據公司高管。”一位接近會議的業內人士向《中國新聞周刊》透露,這些閉門會嚴格保密參會名單,拒絕外部報名,會場門口都會嚴格逐一核驗參會者身份,尤其嚴禁媒體進入,“大家都是來討論以后怎么辦,能不能活下去都是個問題。”

 

  這是一場針對大數據服務商的強監管風暴。自9月初起,多家杭州、上海的大數據風控公司被調查,業內知名的集奧聚合、新顏科技、公信寶等多家公司的核心高管被警方帶走調查,連一些與這類數據公司有過交易經歷的公司高管也被警方帶走協助調查,其中包括中國電信旗下征信機構天翼征信的多位核心高管。但在消息傳出后,天翼征信和新顏科技方面仍向《中國新聞周刊》表示,“公司業務一切正常。”

 

  業內已風聲鶴唳,尤其以慣用網絡爬蟲技術爬取并違規使用數據的公司最為恐慌。

 

  所謂網絡爬蟲,即一種按照一定規則,自動抓取互聯網信息的程序。在大數據風控行業中,以網絡爬蟲獲取信息數據的做法盛行,而違規使用、買賣爬蟲得來的數據則是導致數據泄露、隱私泄露等一系列問題的根源。

 

  “爬蟲技術本身是中性的,關鍵在于是否合規使用爬蟲數據。”中關村大數據聯盟副秘書長陳新河在接受《中國新聞周刊》采訪時表示,如果通過爬蟲抓取網絡公開信息或授權信息,并不違規;但如果抓取的是未公開、未授權的個人敏感信息,且違規留存、使用、買賣這些隱私數據,就屬于違規行為。

 

  “真正合規的公司數據來源都是有官方授權的,能獲得這類授權的公司少之又少。”一位長期與大數據公司打交道的甲方公司高管告訴《中國新聞周刊》,大數據風控行業門檻低,業內魚龍混雜,且監管難度大,“行業混沌,監管層只能先一刀切”。

 

  大數據公司被查的蝴蝶效應迅速傳導至信貸市場。最近一個月里,多家中小銀行和金融機構紛紛收緊信貸產品審批,多家網貸公司和貸款超市平臺大面積下架借貸產品。

 

  “許多中小銀行和金融機構的風控模型對第三方數據有較大依賴性,自身風控體系不完善,依賴的外部數據被切斷,風控勢必會受到影響。”一家與持牌金融機構有多年合作經驗的第三方風控公司高管告訴《中國新聞周刊》。

 

  很快,監管層表明了督促銀行加強自主風控的態度。10月12日,北京銀保監局印發《關于規范銀行與金融科技公司合作類業務及互聯網保險業務的通知》,要求規范轄內銀行與金融科技公司合作類業務及互聯網保險業務,促進銀行保險機構加強風險管控和合規管理,明確強調要嚴格落實自主風控原則。

 

  “監管層對數據公司的整頓醞釀已久,但完備的數據安全法還暫時不會出臺。”一位接近監管層的人士向《中國新聞周刊》透露,“如何界定個人數據的法律性質,仍然是一個需要探討的問題。”

 

  暫停爬蟲業務

 

  這一輪強監管從深圳、杭州、上海等地開始,已經迅速席卷了整個大數據風控行業。整頓力度之大,令業內和相關合作方人人自危。

 

  “現在行業內基本暫停了爬蟲業務,很多之前做爬蟲的也都在清理數據庫,就怕被查。”一位大數據金融業內人士告訴《中國新聞周刊》,不僅是互聯網金融公司,連與大數據公司只有過零星合作的招聘公司、風控公司最近也紛紛切斷了合作,“數據公司被查,相關行業都會受到波及。”

 

  在大數據行業中盛行的爬蟲技術,主要分為公開爬蟲和授權爬蟲兩類。前者只能爬取機構或網站公開發布的信息數據,如工商信息等;而后者則需要取得用戶的個人授權,以爬取個人通訊錄、郵箱、網銀、電商平臺等個人隱私數據。

 

  根據全國信息安全標準化技術委員會于今年6月發布的《個人信息安全規范》征求意見稿,個人信息控制者在收集個人敏感信息前,應征得個人信息主體的明示同意,并應確保個人信息主體的明示同意是其在完全知情的基礎上自主給出的、具體的、清晰明確的意愿表示。

 

  “所有數據授權都需要明顯明確地告知消費者,授權獲取數據是關鍵。”深圳中興飛貸金融科技公司副總裁孟慶豐在接受《中國新聞周刊》采訪時表示,“不可否認的是,數據行業內確實存在許多不合規的做法,尤其是未經授權的爬取數據。”

 

  “這次事件之前,正常情況下,即使是已獲得用戶授權的爬蟲,在爬取數據并合規使用后,數據就消失了。”中關村大數據聯盟副秘書長陳新河向《中國新聞周刊》舉了個例子,“譬如你申請A銀行的一項貸款產品,就需要授權A銀行去查詢獲取你的社保、公積金、航班出行等數據,銀行可能通過一個中間數據服務商去授權爬蟲,爬蟲得到的信息提供給A銀行,在雙方約定的規則上,這些數據的使用就到此為止,不得留存或賣給第三方”。這次事件之后,以北京銀保監局2019年10月12日公布的《關于規范銀行與金融科技公司合作類業務及互聯網保險業務的通知》為代表,其明確規定“嚴禁與以‘大數據’為名竊取、濫用、非法買賣或泄露客戶信息的企業開展合作。”中間服務商的合規評估、認證需要時間,為降低風險,A銀行將多采用“斷代購直”,采用直連數據源的模式,中間數據服務商的模式將大大受到限制。

 

  值得注意的是,正是一些大數據服務商獲取了未經授權的數據或授權后擅自留存的數據,才滋生出游走于灰色地帶的數據生意。

 

  有互聯網金融公司人士向《中國新聞周刊》提供的一份數據服務商報價單顯示,常規數據服務一般分為身份驗證類、聯系人驗證類、位置驗證類、基礎屬性標簽類等,既有身份證號、手機號、姓名等信息,也含有近三個月聯系人活躍度排名、通訊錄名單、常用位置信息等隱私數據。所有服務均按次收費,單次有效查詢的價格在0.38元~0.98元不等。“在數據行業,每條信息都是明碼標價,如果包年還有額外折扣。

 

  業內人士介紹,許多數據公司既提供信息查詢服務,宣稱“毫秒級響應”,也支持數據輸出打包買賣。除了通訊類個人信息數據,在互聯網金融公司日常接觸的各數據公司報價單中,關于個人社保、公積金、司法信息、網銀支付寶賬號密碼、淘寶京東等電商平臺交易記錄、社交平臺信息等重要隱私數據,也赫然在列。

 

  “許多數據公司對數據來源避而不談,只強調數據本身的價值。”上述互聯網金融公司人士向《中國新聞周刊》表示,“很難說他們是通過什么渠道獲取這些數據的,也很難去驗證數據來源。”

 

  2017年6月1日開始施行的《網絡安全法》中已明確規定,網絡運營者收集、使用個人信息,應當遵循合法、正當、必要的原則,公開收集、使用規則,明示收集、使用信息的目的、方式和范圍,并經被收集者同意;網絡運營者不得收集與其提供的服務無關的個人信息;未經被收集者同意,不得向他人提供個人信息。

 

  同時,《個人信息安全規范》中也明確提出,個人信息控制者在共享、轉讓個人敏感信息前,應向個人信息主體告知涉及的個人敏感信息類型、數據接收方的身份和數據安全能力,并事先征得個人信息主體的明示同意。

 

  “未經授權的爬取、使用、販賣數據相當于偷竊。”深圳中興飛貸金融科技公司副總裁孟慶豐向《中國新聞周刊》直言,“一些數據公司既沒有獲得授權,又擅自利用爬蟲技術去違規采取外部數據,這就是不被允許、不合規的。”

 

  “爬蟲技術好比是一把刀,刀本身沒有錯,關鍵看用刀的人是誰,用刀的目的是什么,不能因為一個罪犯用菜刀殺了人,便判定所有菜刀都是殺人工具而被全部禁止使用。”陳新河在一個涵蓋目前主流金融科技公司的362人“01數據爬蟲危機討論群”拋出這個觀點得到大家的一致認可。陳新河對《中國新聞周刊》強調,“這次所謂的“爬蟲危機”,罪名就有問題,爬蟲與危機沒有直接的邏輯關系,真正的問題不在于爬蟲技術,而在于數據的合規獲取和合規使用。”

 

  在10月12日舉行的2019中國普惠金融國際論壇上,Visa大中華區首席風險官楊景香提出:“數據即是問題也是解決方案。不需要存儲的數據一定不要存儲,敏感數據一定不要存儲。”

 

  大數據風控之興

 

  回溯大數據風控行業的興起路徑,不難發現其與互聯網金融的爆發關系密切,兩個行業的發展也亦步亦趨。

 

  自2013年起,各種消費金融機構、互聯網貸款平臺迅速興起,依靠互聯網大數據的風控與獲客體系,迅速成為消費金融市場的主力軍,同時倒逼傳統銀行加快互聯網轉型。在搶奪市場的戰爭中,金融機構紛紛加快腳步,線上獲客與風控的需求暴增。

 

  “中小型銀行和各類金融機構、網貸公司都是大數據風控的需求方。”一位資深城商行高管告訴《中國新聞周刊》,大銀行一般擁有堅實的數據基礎和較強的數據下沉能力,而對于基礎和能力都較薄弱的中小銀行和網貸公司來說,第三方數據服務則可以作為提升風控能力、提高信貸效率的重要幫手,“有的機構會從第三方購買數據來完善自己的風控模型,有的小機構會直接購買第三方的數據模型或評估結果。”

 

  需求刺激之下,大數據風控行業應運而生。根據億歐智庫2018年11月發布的《2018中國智能風控研究報告》(下稱《報告》)顯示,截至當時,金融風控企業已經達到573家,其中超過六成企業成立于2014~2016年。

 

  行業的迅速崛起離不開風投的助推。根據上述《報告》數據,在當時的573家金融風控企業中,有192家企業獲得投資,投資金額超過1000億元,其中三成企業獲得三次及以上的投資。

 

  野蠻生長的浪潮中,依靠爬蟲技術違規爬取和使用數據的公司迅速壯大,憑借豐富的數據來源和極低的操作成本,躋身行業前列,市場份額甚至大大超過合規數據公司。

 

  “真正合規的公司數據來源都是有官方授權的,有嚴格的官方指定,本身數量占比小,市場份額也占比小。”一位長期與大數據公司打交道的甲方公司高管向《中國新聞周刊》透露,“那些做非授權數據的公司,一般成本和價格都較低,但核心數據一旦出問題就非常麻煩。”

 

  鑒于大數據風控公司良莠不齊的現狀,金融機構與大數據公司實際業務合作往往采用“一對多”的模式,以期獲得盡可能豐富的數據源,盡可能加強大數據風控的可靠性。

 

  “大部分合作的金融機構都會同時和十幾家第三方數據風控公司有業務往來,會購買多家公司的數據產品來交叉驗證,以求更有保障的風控。”一位互聯網金融公司人士向《中國新聞周刊》表示,“越大的金融機構愿意購買更多數據源來完善自己的風控模型,有些自身就不規范的小型網貸公司甚至只會直接買評估結果。”

 

  “有實力的金融機構會強調大數據的全流程應用,貫穿獲客、風控、反欺詐、催收等多個環節。”蘇寧金融研究院院長助理薛洪言在接受《中國新聞周刊》采訪時談到,對大機構而言,有些環節是需要買一些原始的數據來完善已有的模型,補齊用戶畫像,起到輔助風控作用;但對小公司而言,奉行“拿來主義”的成本更低,更傾向于直接采用第三方的解決方案,比如黑名單、智能營銷策略等。

 

  隨著監管層對大數據行業的監管收緊,既無官方授權,也無完善用戶授權的大數據公司面臨生存危機,這類大數據公司大多已開始嘗試轉型。

 

  有業內人士向《中國新聞周刊》透露,目前業內以未授權爬蟲的數據源為主要業務的公司基本已經停擺,都在盡可能地做合規業務。相關合作方也都在清查合作數據公司的數據源合規性,對于數據源授權語焉不詳的都會主動切斷聯系。

 

  “能獲取的數據源變少后,公司的風控模型一定會變。”深圳中興飛貸金融科技公司副總裁孟慶豐告訴《中國新聞周刊》,“任何一個風控模型都是基于一定的數據源而建立,且需要一定時間來進行完善和驗證效果,數據源的更改尤其是變少,會顯著影響模型的精準度。”

 

  蘇寧金融研究院院長助理薛洪言認為,這一輪對大數據公司的整頓無疑是一次行業洗牌。“不合規公司的客戶必然流失,實力不足的公司也會因數據源的減少引起模型預期準確率的下降,同樣面臨客戶流失的困境。”

 

  “強監管的效果一直持續到明年,大數據行業一定會有一次徹底的洗牌,該退場的不合規公司都會退場。”孟慶豐直言,“隨著監管層對數據安全的持續發力,以后數據行業內能活下來的必定只有獲取了官方授權的合規公司。”

 

  銀行堵漏洞

 

  10月上旬,多位業內人士向《中國新聞周刊》確認,最近央行已將《個人金融信息(數據)保護試行辦法(初稿)》下發到各家銀行,目前正在征求意見中。根據今年4月發布的《中國人民銀行2019年規章制定工作計劃》,該《辦法》是中國金融領域落實《網絡安全法》確立的網絡信息安全和網絡運行安全兩大制度的最高位階部門規章。

 

  10月12日,北京銀保監局印發《關于規范銀行與金融科技公司合作類業務及互聯網保險業務的通知》(以下簡稱《規范通知》),明確提出銀行需要加強合作機構管理,嚴禁與以“大數據”為名竊取、濫用、非法買賣或泄露客戶信息的企業開展合作。

 

  實際上,自9月初開始的大數據公司被查風波后,已有多家中小銀行主動切斷了與涉嫌不合規的大數據公司的合作,但隨之而來的是銀行信貸審批的收緊。

 

  “現在中小銀行和金融機構都不太敢去買第三方的數據產品了,開始強調用自己的風控部門獲取用戶授權后爬,業務規模和審批效率都受到了很大影響。”一家與持牌金融機構有多年合作經驗的第三方風控公司高管告訴《中國新聞周刊》。

 

  “不可否認,這幾年城商行、農商行的迅速發展,離不開線上大數據公司的幫助。”前述高管表示,“許多中小銀行和金融機構的風控模型對第三方數據有較大依賴性,自身風控體系不完善,依賴的外部數據被切斷,風控勢必會受到影響”。

 

  值得明確的是,一些大數據風控公司的確對中小銀行完善風控體系起到了一定積極作用。以最近被調查的知名數據公司同盾科技為例,其官網上展示的客戶案例僅有一則與渤海銀行的合作,稱為渤海銀行量身定制了覆蓋業務全流程的風控體系,其信用評分模型的KS值達到40%,比行業平均水平提升10%。

 

  在10月11日召開的中國普惠金融國際論壇上,方付通董事長兼CEO孫宏宇提出,大數據不決定一切。在缺乏線上數據的時候,可以通過線下數據補充,再結合線上的科技手段驗證,從而提高中小銀行客戶數據的完整度。

 

  “值得肯定的是,近年來大數據公司對金融機構提高風控能力、提升效率確實起到了積極作用。”浙江泰隆銀行首席經濟學家鄭勇軍在接受《中國新聞周刊》采訪時表示,大數據等金融科技廣泛應用于小微金融、普惠金融領域,有助于解決小微客戶信用數據不完整的問題,“對于中小金融機構而言,大數據的應用多體現在風控環節”。

 

  鄭勇軍認為,大數據的應用一般可貫穿金融機構貸前、貸中、貸后三個環節。其中,貸前環節包括審核、反欺詐、征信等信息驗證,貸中環節可以起到輔助信用評分、風險定價、加快審批等作用,貸后環節可以起到監控資金去向、管理存量客戶等效果。

 

  “需要注意的是,如今主流的風控模式仍然需要線上加線下共同組成,不能完全單純依靠線上的大數據風控模型。”鄭勇軍強調,“在現階段,線下審查仍然具有必要性。”

 

  在方付通董事長兼CEO孫宏宇看來,在很長一段時間內,線上、線下相結合仍然是主流風控模式。“所謂純大數據風控,中國可能還需要時間,可能得百行征信再豐滿以后才能實現。”

 

  對此,監管層的態度與業界一致。北京銀保監局印發的《規范通知》中也明確提出,銀行要嚴格落實自主風控原則,不得將貸款“三查”、風險控制等核心業務環節外包給合作機構,不得僅根據合作機構提供的數據或信用評分直接作出授信決策。

 

  個人金融信息隱憂

 

  早在這一輪大數據行業清洗前,監管層在2017年5月、2018年11月,已針對電信詐騙、爬蟲導致的個人信息泄露有過兩輪整治。其間,《網絡安全法》在2016年11月公布,并于2017年6月1日正式實施,并查處了多個非法獲取數據的案例。

 

  2017年,曾號稱“數據第一股”的北京數據堂被警方調查,也成了大數據爬蟲公司中第一個入刑案例。這家在2014年就掛牌新三板的科技公司,經查涉嫌利用網絡爬蟲技術違規獲取、倒賣個人信息數據,在8個月時間內日均傳輸公民個人信息1.3億多條,其中包括重要隱私數據。2018年8月,山東省費縣人民法院一審判處數據堂首席運營官柴銀輝、營銷產品部副總裁胡曉敏有期徒刑三年。

 

  中關村大數據聯盟副秘書長陳新河向《中國新聞周刊》直言,在監管進一步收緊前,國內游走于灰色地帶的數據買賣體量不可小覷,“最常見的有買房后被裝修公司營銷、買車后被保險公司營銷等。隨著大數據的覆蓋越來越廣、應用場景越來越多,數據合規使用和個人數據隱私保護更加迫在眉睫。

 

  今年以來,關于加強個人金融信息立法保護的監管信號密集釋放,有關部門正在抓緊推進數據保護方面的規章制度、標準等的制定工作。

 

  截至10月,國家互聯網信息辦公室已經會同各行業主管部門研究起草了《數據安全管理辦法(征求意見稿)》《網絡安全審查辦法(征求意見稿)》《個人信息出境安全評估辦法(征求意見稿)》《兒童個人信息網絡保護規定(征求意見稿)》《App違法違規收集使用個人信息行為認定方法(征求意見稿)》,并面向社會公開征求意見。此外,工業和信息化部也會同有關部門起草了規范性文件《網絡安全漏洞管理規定(征求意見稿)》,正在向社會公開征求意見。

 

  值得一提的是,央行于10月下發到各銀行的《個人金融信息(數據)保護試行辦法(初稿)》(以下簡稱《辦法》)正是近幾年業界一直呼吁出臺的統一的個人信息保護法規。

 

  早在4月發布的《中國人民銀行2019年規章制定工作計劃》中,就已經包括制定該《辦法》。6月14日,央行副行長朱鶴新也表示,要研究推動個人金融信息保護立法,明確各方的權益義務,使個人金融信息保護取得實效。

 

  “監管并不意味著要取締或禁止大數據行業,讓行業規范化發展才是監管的本意。”蘇寧金融研究院院長助理薛洪言向《中國新聞周刊》表示,金融行業離不開數據的支持,數據可以作為一種資產去促進金融科技的發展,促進金融業的轉型,促進金融業更好地服務實體經濟、普惠金融的發展,“不能偏激地理解成要為了數據保護犧牲金融科技,監管的真正意義在于規范發展”。

 

  在監管層面之外,個人金融知識教育則是數據保護的基石。亞洲開發銀行研究院(ADBI)研究經濟學家黃必紅提議,可以借鑒日本的經驗,從學生、工作人口、老年人口三個角度分別推進金融知識教育。“近年來,金融科技發展非常迅速,也代表著未來的產業發展方向。除了傳統金融知識的教育,金融科技知識教育也應該納入國民教育體系,包括一些新的金融產品,新的金融科技風險的防范。如果受到欺詐,消費者知道通過什么樣的渠道保護自己。”

 

  “從過往經驗看,數據灰色交易其實已存在三十多年甚至更長的時間,只是在我們步入大數據時代后,問題會被進一步放大。”中關村大數據聯盟副秘書長陳新河對《中國新聞周刊》說,“目前大數據行業存在的問題仍屬于發展中的問題,行業整體仍在向積極的方向前進,應該保持信心。”

責任編輯:郭銀雙

中国体育彩票大乐透 湖南快乐10分 亿客隆彩票首页 35体育比分 奥讯球探网即时赔率 体彩p3 球探网足球比分手机 体球网即时赔率 山西11选5 快乐扑克 球探体育比分app 1天下足球直播网 竞彩比分直播 31选7 辽宁十一选五 湖北快三 皇冠足球指数全讯网