Marietje Schaake of CPC named in POLITICO’s annual ranking of the 28 power players behind Europe’s tech revolution.

All Cyber News Blogs February 12, 2021

Clubhouse在中国:他的数据安全吗?

语音社交App “Clubhouse”,在中文听众中爆红。斯坦福大学网络观测平台(SIO)调查了这个App的数据是否保护它的用户数据,以及用户数据为何需要被保护。
Clubhouse under the chinese cloud
Elena Cryst

上周,在中国大陆的iPhone用户在新兴的语音社交App“Clubhouse”展开了少见不受约束的讨论。这股在“Clubhouse”上使用中文母语的讨论风潮持续到了2021年2月8日被墙的那天。


除去一般关于旅游和健康的闲聊,一些用户也选择讨论一些涉及新疆再教育基地,1989年春夏政治风波以及少数个体遭遇部分警察不公正对待的“敏感”问题。中国官方一般会限制公开讨论这些议题,同时也使用技术手段(在外媒一般称为Great Firewall)限制国内的用户访问部分国外的App以及网站。即使在上周,Clubhouse尚未被墙,部分网友也担心官方会监听这些对话,对自己造成不便。

近些年,伴随着新一届以习近平为核心的领导班子,对网络舆情的引导和控制与日俱增。Clubhouse当中的语音信箱,相比于Twitter来说不会留下公共的记录,导致了北京需要更复杂的技术手段实现监控需求。

斯坦福大学网络观测平台(SIO)确认了一家位于上海的研发实时音视频互动技术企业,声网Agora。这家公司为Clubhouse提供了后台的技术支持(参见附录)。这层合作关系被广泛的猜测过,却从未被公开确认。此外,SIO还认定,Clubhouse的用户以及聊天室的ID都是用未被加密的明文传输的,同时声网Agora有很大的可能有访问用户语音原始数据的权限,并且有可能把这些权限转让给政府机构。SIO在至少一起事件中,观察到聊天室的元数据(Metadata,译者:描述数据的数据,例如一张电子照片的拍摄时间,相机参数就是属于元数据)被传送到我们认定的位于中国大陆的服务器中。同时语音文件也被传输到由中国企业管理的服务器,而后被Anycast发布到全世界。这一过程中,Clubhouse的用户ID可能和用户信息联系在一起。

SIO决定揭示这些安全隐患,因为它们相对明显而且有可能在短时间内对百万计,尤其是在中国国内的Clubhouse用户造成数据安全的威胁。SIO同时发现了其它安全漏洞,并且私下和Clubhouse的开发商取得了联系。在适时会想公众提供相关信息。

在这篇文章中,我们调查了中国政府通过声网Agora以及Clubhouse获取其中音频数据的潜在可能性。我们同时尝试揭示为何这件事很重要。我们将解释以下几个核心议题:

  1. 声网Agora是家怎么样的公司,我们是如何发现他们为Clubhouse提供技术支持,以及这一切意味着什么
  2. 中国政府如何获取储存在Clubhouse里的音频数据
  3. 中国大陆的用户有可能“因言获罪”吗

  4. 为何大陆官方要禁止这款App

声网Agora是家怎么样的公司,我们是如何发现他们为Clubhouse提供技术支持,以及这一切意味着什么

声网Agora是家怎么样的公司?

声网是一家位于上海,美国总部坐落于硅谷的初创企业。它出售“实时音视频互动”平台服务给其他软件公司。换句话说,通过使用这样平台技术,像Clubhouse这样的App开发商,可以专注于界面设计,特别功能,以及用户体验。一般来说,用户很有可能没有意识到,自己使用的App运行在声网的平台上。

我们是如何发现他们为Clubhouse提供技术支持?

SIO的分析员使用例如Wireshark的公开网络分析工具,观察Clubhouse的网络流量。基于分析我们发现:流出的网络被引导到了声网运营的服务器上,其中包含“qos-america.agoralab.co.” 。用户加入Clubhouse的一个频道,就会生产一个数据包并传输到声网的后台。这个数据包中包含每一个用户的ID以及访问房间ID的元数据。这些元数据使用未加密明码传输,这意味着任何第三方,只要获得网络权限,就可以调阅这些数据。这种情况下,任何监听着可以通过调查在同一频道的参与者,确认谁和谁在进行交流。

SIO深挖声网平台文档,发现声网可能有获取Clubhouse中原始音频文件的权限。除非使用端到端加密end-to-end encryption (E2EE) 技术,声网可以截取,破译以及储存这些数据。而现实情况是,Clubhouse使用端到端加密技术的可能性微乎其微。

附件中包含更多这些分析中的技术细节。

为什么我们关心Clubhouse使用声网的托管服务

声网在中美都有业务,所以他们需要遵守《中华人民共和国网络安全法》。根据他们提供给美国证券交易委员会的档案记录,声网公司承认,他们必须遵照中国的法律,为涉及国家安全和犯罪调查提供必要的辅助和支持。如果中国政府确认某条音频文件威胁国家安全,声网有法律义务帮助政府找到并储存这条音频。

根据前例,涉疆涉港,涉及八九政治风波的对话有可能被定性为违法犯罪行为。

声网声称,除去用于网络连接质量检测以及向客户收费,他们不会储存用户的音频和元数据。如果一切属实,中国政府无法在现有法律框架下,向声网索取那些从未被记录下的数据。可是,理论上来说,政府依然可以选择监听声网的网络并记录下所需要的数据。又或者,声网对数据处理的描述和实际操作不符(华为,一个被指责与中国军方有联系的大型通信软件公司,声明从未把数据提供给政府,即使很多西方专家对这个声明表示怀疑)。

此外,中国政府可能获取任何在中国大陆服务器上未经加密的数据。考虑到SIO观测到房间元数据被传送到我们认为位于中国境内的服务器,中国政府可能可以绕开声网的网络,并收集这些元数据。

总而言之,如果中国政府可以通过声网获取用户数据,位于大陆的Clubhouse用户可能会面临不必要的麻烦。但是,我们也需要指出,拥有潜在获取数据的途径不等同于实际获取数据。中国政府有着庞大而冗余的官僚,如同大洋彼岸的美国政府。政府内部很可能有不同声音以及组织之间的掣肘。

中国政府可以获取Clubhouse储存的用户音频文件吗?

简短的答案是,只要这些数据储存在美国,就不太可能。

Clubhouse的用户隐私权协议中指出,用户的音频将短暂储存下来用于信任和安全调查(例如恐怖主义威胁,仇恨言论,出售未成年人个人信息等)。如果没有提交信任和安全调查报告,Clubhouse声称这些音频数据将被删除。该协议未指定“临时”存储的持续时间。临时可能意味着几分钟或几年。Clubhouse的隐私政策未将声网Agora或任何其他中国公司列为数据二级处理者。

如果Clubhouse将音频存储在美国,则中国政府可以要求美国政府根据《中美互助法律援助协议》(MLAA)要求Clubhouse传输数据。但是,由于MLAA的规定允许该美国拒绝侵犯用户言论自由或人权的请求,例如涉及会所政治性言论的请求(六四风波,涉港涉疆等),该请求可能会失败。 )。 (由于美国联邦法律禁止此类披露,因此中国政府不能直接向Clubhouse索要音频剪辑。)

但是,如果App的创建者Alpha Exploration Co.在中国拥有可以访问数据的合作伙伴或子公司,则中国政府可以合法要求在中国存储的音频(或其他用户数据)。除声网Agora之外,没有已知证据表明Alpha Exploration Co.在中国有合作伙伴或在中国存储用户数据。

总而言之:假设App开发商在中国没有合作伙伴或没有在中国存储数据,那么中国政府可能无法使用法律程序来获取Clubhouse音频数据。根据Clubhouse的“临时”存储量,Clubhouse在任何情况下都可能没有数据可以通过合法程序移交给用户。但是,如果中国政府可以直接从Clubhouse在声网Agora上的后台获取音频,则它可能并不需要求助于国际法律渠道来查找数据。

 

中国大陆的用户有可能在Clubhouse“因言获罪”吗?

中国政府如果要惩罚在某些敏感话题聊天室中访问过或讲话过的Clubhouse用户,至少需要满足两个条件。

首先,中国政府需要知道哪些用户在哪些聊天室中。如上所述,它可以通过房间中存在的其他用户的报告或通过声网Agora从后端的报告来手动获取此信息。

如果手动收集数据,Clubhouse房间中的某人需要手动记录其他用户的个人资料。他们的公开个人资料有时会显示识别信息,例如照片,电话号码或微信帐户。 (电话号码和微信帐号是在中国的实名注册。可以通过面部识别算法来识别照片。)但是,大多数俱乐部会所的个人资料都不会显示识别信息。在这种情况下,政府将需要通过自己的监视机制或通过声网Agora访问标识信息。

中国的对内监视能力相当强大却不透明。中国政府很可能无需借助Clubhouse或Agora即可访问大陆用户的数据或元数据,如同爱德华·斯诺登(Edward Snowden)透露的美国政府窃听网络流量的方式。如上所述,中国政府可以轻松拦截用户设备发送的纯文本元数据,例如房间ID和用户ID。如果政府无法独立访问用户数据,则需要从声网Agora或Clubhouse请求和接收数据。如上所述,目前尚不清楚政府能否轻易做到这一点。 声网Agora声称不存储用户数据,而Clubhouse极不可能提供它。

其次,中国政府必须要有意愿去惩罚Clubhouse的用户。我们尚未可知这个意愿是否存在。研究表明,中国政府有时可以容忍公众批评,因为这种批评不会引起广泛的关注,也不会造成群体事件。在这些尺度上,Clubhouse是灰色地带。由于邀请制,并且只能在相对昂贵的iPhone上使用(不到所有中国智能手机用户的10%),因此该App可能没有在中国城市精英人群之外广泛使用。此外,每个Clubhouse聊天室最多可容纳五千个用户。即使绝对数量不小,但造成潜在群体事件的几率不大。从政府的角度来看,所有这些因素都可能减轻Clubhouse的“威胁性”。

另一方面事实证明,中国政府对通过线上平台协调线下群体活动十分敏感,如同短命的内涵段子App。Clubhouse是一个独特的空间:它承载着各种“网络聚会”(中国政府不喜欢),但它同时还是半私有的,且尚未在大众间广泛流行(这可能导致更大的政府容忍度)。无论如何,我们只能推测。

如果政府确实想处罚该App的国内用户,那么公众可能对此一无所知-甚至用户本身也不会知情。近年来,中国政府促进了针对黑名单上公民的秘密审查机制的发展,例如,在国内社交媒体 微信上提高用户的敏感度指数。被列入黑名单的用户可能会在向他们的朋友发送消息时,意识到该消息只会出现在他们的屏幕上,而不是他们的朋友的屏幕上。政府还可以采取威胁性措施,而不是直接惩罚行为,例如邀请用户“喝茶”。即使发生这种情况,我们也可能永远不知道Clubhouse的活动是否触发了喝茶邀请。

为何大陆官方要禁止这款App

为什么要完全禁止该应用程序?

多年来,中国政府封锁了不完全符合其宣扬的“网络主权”原则的网站或App,即每个国家都应为其领土内的网络活动设定界限的想法。中国政府通常对非法行为保持宽松的定义,从而在阻止有害内容方面拥有最大的灵活性。

政府很少解释为什么阻止单个App。就Clubhouse而言,政府很可能反对有关新疆,香港,天安门,审查制度等的政治话题。国有的民族主义报纸《环球时报》经常反映政府内部的强硬立场,发表社论时抱怨说,“Clubhouse里的政治讨论通常是单方面的”,而“支持政府的声音很容易被压制。”

为什么现在禁止它?

Clubhouse的大多数大陆用户以及外国记者和分析师都预计该App最终将被禁止。更紧迫的问题是何时。尽管有许多因素可能导致了该应用被禁的时机,以下是三种可能性。

首先,政府网络审查机构工作人员可能没有上班。加利福尼亚大学圣地亚哥分校政治学教授玛格丽特·罗伯茨(Margaret Roberts)进行的研究表明,审查制度在周末和国内法定假期有所下降。周末,检查员不工作时,Clubhouse迅速流行开来。这周同时也是春节假期,大部分公务员在家休息。

其次,中国政府可能希望收集有关其公民的舆情信息。学者们早就注意到“专制的困境”,即专制政府在收集准确的舆论衡信息的时候面临的挑战。因为公民害怕报复,所以他们有可能隐藏自己真实的想法。中国政府实际上有可能会重视Clubhouse之类的网络空间,以便通过这个简短的窗口了解其人民(主要是精英)的真实政治见解。

第三,禁止一个App可能需要很长时间。国家互联网信息办公室(CAC)是一个庞大而复杂的官僚机构,它负责通过国家防火墙(Great Firewall)禁止特定App。该禁令的决定可能被繁文缛节所拖延。国家防火墙本身也是一个庞大而复杂的系统。重整资源可能需要技术劳工。

这些问题的答案可能是所有这些之前的分析,也可能远离之前的分析。本文罗列的只是初步的分析。


 

附录:技术分析

根据声网Agora的文档,音频使用其实时通信(RTC)标准开发套件(SDK)通过声网Agora进行中继。可以将其想象为一个老式的电话运营商:要与其他人联系,运营商必须连接两个用户。在这种情况下,Clubhouse的App是每个用户的电话,而声网Agora是运营商。

screenshot of clubhouse's plist file
Clubhouse application’s property list (.plist) file, bundled with the iOS application, contains its Agora application ID

当用户加入或在Clubhouse中创建聊天室时,该用户的应用通过安全HTTP(HTTPS)向声网Agora的基础架构发出请求。 (通过HTTP进行“请求”是访问网站的最常见方法;很可能您现在就是使用这个方法阅读到这篇文章的。)要发出请求,用户的手机联系Clubhouse的应用程序编程接口(API)。手机将请求[POST /api/create_channel]发送到Clubhouse的API。 API返回字段令牌和rtm_token,其中令牌是Agora RTC令牌,而rtm_token是RTM(实时消息)令牌。这些“令牌”然后用于建立通信路径,以确保用户之间的音频流量。

Screenshot of agora http request
The request to create a channel on Clubhouse’s API returns the Agora tokens

然后,SIO观察到用户的手机通过UDP(一种更轻量级的传输机制)将数据包发送到名为“ qos-america.agoralab.co”的服务器。用户的数据包包含有关该频道的未加密元数据,例如用户是否已请求加入聊天室,用户的Clubhouse ID号以及是否已将自己静音。

screenshot of agora backend packet
A packet sent to Agora contains, in cleartext, the id of the channel and the user’s ID

用户从Clubhouse收到RTC令牌后,他们的手机将使用该令牌对Agora进行身份验证,以便可以通过相互认可的途径直接与Agora交流聊天室的加密音频。根据Agora的文档,Agora可以访问加密密钥。尽管文档中没有指定使用哪种加密方式,但它可能是基于UDP的对称加密。

Agora无法访问用户原始音频的唯一方法是,如果Clubhouse使用定制的加密方法进行端到端加密(E2EE)。尽管从理论上讲这是可行的,但这样做将需要Clubhouse向所有用户分发公钥。这还不存在。因此,极不可能有E2EE加密。

Sequence and content of UDP traffic from a device joining a Clubhouse room
Sequence and content of UDP traffic from a device joining a Clubhouse room Diagram by the Stanford Internet Observatory

SIO团队收到了Clubhouse的答复,并将其全部包括在内。我们尚未验证Clubhouse的任何声明。[译者注:以下翻译仅供参考,一切以Clubhouse官方英文回复为准]:

Clubhouse致力于数据保护和用户隐私。

我们将服务设计为一个世界各地的人们可以聚集在一起互相交谈,倾听和学习的地方。鉴于中国在数据隐私方面的良好记录,我们在Appstore上推出Clubhouse使其在除中国外的所有其他国家/地区均可使用时做出了艰难的决定。中国的一些人找到了下载该应用程序的解决方法,这意味着-直到该应用程序在本周早些时候被中国阻止为止,他们所参与的对话可以通过中国服务器传输。

在Stanford Internet Observatory的研究人员的帮助下,我们确定了一些可以进一步加强数据保护的领域。例如,对于我们流量的一小部分,包含用户ID的网络ping将被发送到全球服务器(其中可能包括中国的服务器),以确定到达客户端的最快路由。在接下来的72小时内,我们将推出更改以添加其他加密和块,以防止Clubhouse客户端将ping传输到中国服务器。我们还计划聘请外部数据安全公司来审查和验证这些更改。

 

 

read more

hand holding phone with parler logo
Blogs

Parler's First 13 Million Users

As Parler gained millions of users - and plenty of notoriety - in recent months, understanding the dynamics of the platform has become an increasing priority. A report by the Stanford Internet Observatory analyzes three Parler datasets to understand a platform designed for non-moderation, and to map its domestic and increasingly international growth.
stop hand facing video camera
Blogs

Online Consent Moderation

New Approaches to Preventing Proliferation of Non-Consensual Intimate Images
reddit hate speech
Blogs

Comparing Platform Hate Speech Policies: Reddit's Inevitable Evolution

On Monday, June 30, 2020, Reddit updated its policy on hate speech. As part of research for a forthcoming book based on the Stanford Internet Observatory’s Trust and Safety Engineering course, we present a comparative assessment of platform policies and enforcement practices on hate speech, and discuss how Reddit fits into this framework.