外洋幕后人员分析新浪微博的删帖机制
本文摘要:订阅专栏撤销订阅 用心做好:人人都是产品主管、出发点学院55841鉴于微博API的限制,研讨人员主要跟踪了最可能会发敏感帖子的敏感用户组。从到9月8日,研讨人员使用API以每分钟一次的频率查找3500位用户的时间线,以每四秒一次的频率查找公共时间线。因为新浪
订阅专栏撤销订阅 用心做好:人人都是产品主管、出发点学院

5584

1

鉴于微博API的限制,研讨人员主要跟踪了最可能会发敏感帖子的敏感用户组。从到9月8日,研讨人员使用API以每分钟一次的频率查找3500位用户的时间线,以每四秒一次的频率查找公共时间线。因为新浪微博不支撑匿名查询,所以他们使用Tor隐藏IP后创建虚假用户帐号。他们共收集了238万用户时间线帖子,删贴率是12.75%。考虑到新浪需要处理的大数据集规模,发帖后5到10分钟的删贴峰值,尤其是考虑到删贴无法完全用主动方式处理,新浪是怎么做到迅速发现和删除敏感帖子?研讨人员提出了六个假说:

1.新浪微博有一个监督要害词列表,审查员将会阅读包括这些要害词的帖子抉择是否删除。

2.微博有针对性的监督频频发敏感帖子的用户。

3.在发现一个敏感帖子之后,审查员可以追溯所有相关的转贴,可以一次性的悉数删除。

4.通过要害词查找,微博删除了追溯的帖子导致了特定要害词在短时间内呈现删除峰值。

5.审查员工作是散布式的,相对独立,其间部分人多是兼职。

6.删贴速度与主题有关,依据主题的敏感度删除速度存在差异。研讨人员使用天然言语处理技能进行删贴主题分析,发现某些热门主题帖子比另外一些主题更快被删除(如图所示),如群交、北京暴雨死亡人数和司法独立等都在极端时间内删除了。

研讨人员总结了微博的过滤机制,其间主动过滤机制包括:显式过滤,微博告诉发贴人他们的帖子内容违背了内容政策(但有些时分用户其实不清楚究竟是因为何敏感词受阻);隐式过滤,微博需要在手动审查帖子后才会允许帖子上线;假装发帖成功,其他用户看不到这位用户的帖子。


人人都是产品主管(woshipm)是以产品主管、运营为核心的学习、交流、分享平台,集媒体、培训、社群为一体,全方位效劳产品人和运营人,建立9年举行在线讲座500+期,线下分享会300+场,产品主管大会、运营大会20+场,掩盖北上广深杭成都等15个城市,内行业有较高的影响力和知名度。平台集合了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里与你一同生长。

相关内容