天创培训:您身边的信息安全培训专家!
行业动态
Facebook数据造假,竟涉及多家中国公司

一个创立十五年的社交网站,全球用户量超过20亿。但是却屡屡遭遇隐私问题争议,最近还出现相关报告发布称其20亿用户或超半数都为“虚假账户”……

Facebook数据造假,竟涉及多家中国公司

多年来的“私人恩怨”

在Facebook不断发展的过程中,似乎从来不缺人气与争议。

除了隐私之外,还存在“私人恩怨”。扎克伯格哈佛校友的艾伦·格林斯潘,曾宣称拥有facebook商标的所有权,并且多年来坚持同facebook公司“斗争”。

Facebook数据造假,竟涉及多家中国公司

格林斯潘说自己在Facebook上线前三个月就提出了类似的创意,名字叫「the Face Book」,他甚至还主动联系过扎克伯格希望合作。为此,他对外公布了一些早期的通讯记录,甚至还专门写了本书,描述自己创造HouseSYSTEM网站的过程,并宣称它是facebook的始祖。

“有好几次,在路上碰到、从我的门前经过、在帕罗阿托的餐厅吃墨西哥餐,我示以微笑,或者向他招招手,他都可以走过来,道个歉的。但是,他从来都没这样做过。他一点都不感觉愧疚。”

但是硬气如扎克伯格,格林斯潘始终没有等来Facebook的“解释”。于是格林斯潘坚持“斗争”,在各个方面找扎克伯格茬,越来越“柠檬”了,并且2012年的时候就直接状告Facebook盗用其商标。

Facebook数据造假,竟涉及多家中国公司

跨国官司的导火索

没想到上诉也没得到道歉,一气之下格林斯潘憋了一个大招。

2019年1月底,格林斯潘公布了一个关于Facebook的报告,长达70多页的报告直接指出Facebook的20亿月活用户中有超过一半都是虚假账户。

Facebook数据造假,竟涉及多家中国公司

报告一出就引起轩然大波,沸沸扬扬的隐私安问题还没有解决,就又出现了“虚假账号”的负面新闻。Facebook官方也赶紧出来澄清,说:“有关虚假账户的报告是明显错误的,并且是不负责任的。”之后就直接起诉了四家中国公司和三位个人。

就这样,跨国官司的序幕打开。

被状告的四家中国公司主要贩卖Facebook、twitter等国外社交账号。Facebook指控这些企业和个人创建及销售虚假网络账号、点赞和关注者,用于传播虚假消息或其他欺诈行为。从2017年开始,这些公司通过myfacebook.cc和9xiufacebook.com等六个与Facebook有相似域名的网站行销和出售了大量虚假账号。

纠缠数年的噩梦——虚假账户

回过头来看,虚假账户并非新伤,而是Facebook的一个纠缠了数年的噩梦:

2012年9月,Facebook开始严打僵尸粉,删除虚假账号;

2013年3月,Facebook可能有8300万个“僵尸账号”;

2015年3月,Facebook清理僵尸粉导致名人点赞量下降10%;

2018年8月,Facebook删除试图干预美国中期选举的虚假账号;

2018年11月,Facebook公布有害内容清理报告:清理15亿虚假账号;

2019年2月,有报告称:Facebook 20亿月活用户一半都是假账号;

2019年2月,Facebook状告4家中国公司和3位个人推销虚假账号、点赞和用户好友;

……

除了官方公布虚假账号情况之外,早在2014年在YouTube就出现过一个名为《Facebook Fraud》的视频,里面主要介绍一位博主参与Facebook的推广计划之后,出现了粉丝量增加但推文关注、互动情况不变甚至减少的情况,怀疑Facebook用户中存在着大量“机器用户”。

Facebook Fraud

而这次格林斯潘的报告中,指出Facebook的系统性欺诈“不容小觑”。根据Statista的数据,Facebook在2018年的广告收入高达338亿美元。 也就是说,如果说10亿的“虚假账号”数量是真实的,那么就意味着Facebook从广告主那里获得的收益是“不义之财”。

Facebook数据造假,竟涉及多家中国公司

图片来自新浪财经

不仅如此,除了Facebook这次上诉的几家中国企业,全球售卖虚假账号的灰产链条也早就野蛮生长、遍地开花了。

比如美国,类似Devumi、SocialBoss等营销推广网站,内容点赞、涨粉、视频播放刷量都应有尽有,价格多从1到20美元不等,还有一些网站直接售卖相关账号。

Facebook数据造假,竟涉及多家中国公司

而国内相关的灰产就更多了,根据带不带cookie、注册年限、好友多少,账号价格不等。

Facebook数据造假,竟涉及多家中国公司

有意思的是,通过灰产的宣传,发现其实国内外购买这些虚假账号的目的也有些许的差别。美国购买账号的大部分主要用于涨粉、增加点赞量等,而中国购买账号还涉及到不少跨境电商推广等商业目的。

在上述博主的视频中通过统计,发现他的“虚假粉丝”主要来源于发展中国家。Facebook在2017年的观察报告中也指出,大部分虚假帐户来自孟加拉国、印度、埃及和巴基斯坦等国。而这背后也反映出整个虚假账号、虚假流量市场不同地域的犯罪成本差距。与发达国家比较,发展中国家的确存在相关法律不健全、监管不到位、惩戒体系不完善、意识很欠缺等问题,甚至在斯里兰卡、埃及、印尼等地区还存在“机器工厂”,点击1000次只需要1美金。总体来说犯罪成本都远远低于发达国家,所以也就出现下图的情况。

Facebook数据造假,竟涉及多家中国公司

机器之争,如何掌握主动权

而如今困扰各大社交平台的“虚假账号”、“虚假流量”其实在发展初期并没有受到过多的关注与打击,甚至还成为当时用户量、活跃度统计中重要的一部分。遗憾的是,水能载舟亦能覆舟。当初各平台所追求的“数字”如今却成为难以摆脱的梦魇。

当然,从2012年到今天,其实我们也看到了Facebook在面对“虚假账号”、“虚假流量”之下在不断作出努力。甚至还想过请FBI调查…

Facebook数据造假,竟涉及多家中国公司

但是就目前来看还是存在许多问题:

一是误杀较多,影响用户体验;

二是对于异常账户检测技术方面还有许多进步空间。

第一个误杀的情况,由于Facebook的封禁是从设备硬件、账号登录情况、运营内容等多维度进行的。Facebook主管分析的副总裁Alex Schultz之前在采访中透露,平台已经在使用机器学习判定假账号。通常来说,一个被批量制造出来的帐号会在几分钟内被移除。

这样一来,如果出现IP、账号反复登录等异常情况,很可能就会被封禁,误杀率就这样被提高了。

Facebook数据造假,竟涉及多家中国公司

第二点是从2012年到现在,Facebook多次大面积封禁虚假账号,但是这“野草烧不尽”般的势头背后反映出其在防御策略和技术方面还是有很多进步空间。

而目前对于异常账户的检测主要有以下几种方式:

基于行为特征的检测方案;

基于内容的检测方案;

基于图的检测方案;

无监督学习。

目前很多平台主要使用的还是基于内容的检测方案,辅之基于行为特征的检测方案。但是随着AI的不断发展,“机器账号”的伪装能力越来越强,这场机器之战之下,我们必须采用更为精细、科学的处理方式。比如从注册审核环节、使用轨迹等维度建立多维度、多环节、长周期的分析模型,尽力提高对于异常账户的检测精度。

而目前随着图学习、社交网络等研究的不断发展,我们也可以采用基于图的检测方案。这种方式的关键是构造一个图,在图中异常帐号与正常帐号具有不同的结构或者连接方式,然后利用图挖掘的相关算法找到图中具体的异常结构或者异常节点。从一个“异常账号”找到相类似的更多机器账号。

Facebook数据造假,竟涉及多家中国公司

对于异常账户的检测,一直是做安全、做风控的研究重点。随着机器学习的发展,这两年复杂网络、GCN逐渐崛起,新技术的创新将近在咫尺。