jdl008

大数据采集技术(大数据采集技术有哪些)

jdl008 职业培训 2023-11-27 108浏览 0

  发源地大数据(Finndy)是国内首家基于自研SaaS2.0云采集引擎的大数据交易平台,支持海量数据的分布式采集、计算及处理,以技术驱动数据交易。

  科学分析、行业研究、内容扩充、运营启动,Finndy平台集合了全行业脱敏数据,满足企业对数据分析、数据运营及精准营销等方面的需求。

性是互联网第一生产力。

  全世界大流量网站排名前10的总少不了成人网站。

  秉承着科学探究八卦的精神,我扒了全中华地区最知名也可能是最大的成人社区:1024,得出以下6个结论。

  注:本文是基于“使用数据采集工具对网站数据进行分析”的一次严谨报告。结果不 淫秽色情信息,营造健康上网环境从你我做起!

  本文被扒对象为:1024《达盖尔的旗帜》版块约100 页内容。

  选择此版块是因为这个版块的内容绝大多数是用户原创生产的UGC内容,具有一定分析价值。

  时间跨度:2016年7月1日至 2017年10月19日,共计475天 。

  数据 10,013 条主题帖的标题、发帖时间、每条主题的回帖数量、发帖用户。(总数据量超过73万)

  23,582 张图片的图床绝对链接地址;

  316,322条回复;

  16,793个用户的用户名、注册时间、最后登陆时间。

  以下是结论。

/01/

△图1 :近一年多该版块活跃用户前20

  活跃用户分析。

  在2016年7月至2017年10月这475天里,最活跃用户“张婉芳”一骑绝尘,一共发了581个帖,平均每天1.2个(搬运嫌疑极大),远超排名第二用户(第二发帖为166个,平均每天发0.3个),也远超其他前20活跃用户。(其他平均发帖113,平均每天0.2个。)

  考虑到该网站采取的是积分制,发帖可获得积分,提高访问权限,对比其他论坛看,这个活跃量其实偏低。比如十八线小编我,曾是一个活跃贴吧用户,每天发帖(含回复)大概有50+,但活跃度排名在100以外,该贴吧用户比1024略高。

  对比稍早前数据(15年11月-16年4月)可看出,前20活跃用户无一重合,真是铁打的论坛,流水的老司机。(参见图1、图2)

△图2:稍早前该版块活跃用户前20

  网站的发言机制,使得用户为提高权限,会在短时间内集中刷帖,刷回复,而一旦获得相应权限,则开始沉寂(毕竟是成人网站)。

  而1024的防灌水机制(防止用户发大量无意义主题帖和回复,1024由此而来),又在某种程度上限制了用户在短时间获取高积分。

  这样一来,整个网站的基础活跃量保持了,但又不是太活跃。

/02/

△图3:近一年多该版块活跃热词前20

  内容关键词分析。

  近一年多来的帖子中(2016.7-至今,下不解释),“女友”是出现最多的词,出现了709次,高居第一。稍早前(2015.11-2016.4,下不解释)“女友”出现过652次,也是第一(畜生)啊。

△图4:稍早前该版块活跃用户前20

  除了女友之外,还有七个关键词是一样的, 身份属性的最多,都是情什么人,老什么婆,少什么妇,具体词汇就不描述了,怕被举报,请点击大图查看详情。所以该怎么评价呢:文明啪啪,从不带相机坑熟人开始?

  从关键词分布看,用户发帖尺度、口味越来越重,似乎已经触犯法律,团什么出以前没有,这次升至第2,什么意思,不是很懂,看着不像好词。

  而泡什么友也开始出现,排第6,以前都是和熟人玩,最近一年多开始和陌生人玩,侧面反映约约约文化发展现状。

/03/

△图5:近一年多每日主题数量变化趋势

△图6:稍早前每日主题数量变化趋势

  发帖趋势分析。

  从图5可看出,发帖数量总体趋势是逐步提升,上下波动很大,最高可以300+,近三个月平均70左右。但其中有3个多月发帖量只有1~3帖(16.10-17.1),猜测可能是大量用户无法登陆,不知道是自己调整还是被河蟹?

  发帖时间高峰周四、周六、周一居多。

  周六很好理解,但周四最多不是很明白,刚开始我猜是和假日有关系,后来对了下日历,也不是,程序猿提醒我可能是与用户注册有关系,我对比看了下,也没有直接相关。所以如果有懂行的老司机可以留言告诉我原因。

/04/

△图7:1024历年用户注册数量年份分布(2006~2017)

△图8:1024历年用户注册数量月份分布(2006~2017)

  注册时间分析。

大数据采集技术(大数据采集技术有哪些)

  图7、图8、两张图信息量比较大。

  第一、1024名声在外,但注册用户并没有想象的高,从2006年至今,注册用户16,793。网站注册实行邀请制,成为老司机真的很严格,比如2016年,有2,683人,平均到每天只有7人。

  第二、但关注1024的网民绝对不在少数,注册门槛似乎在2011年6月有开放过,在6月1号那一天,涌进1,821名用户,占总数的10.8%,大于过去5年年总和,如果把这个数据×365,约为66万,实际数字可能远不止66万,因为这是口碑传播,数字会几何级增长。

  那天之后,1024官方再也没开放注册过。

  第三、近三年注册用户较多,共有9,471,占用户整体量56%,用户注册开始明码标价,直接购买即可成为会员。

  第四、用户注册的较多的月份集中在春天和秋天,不是燥热的夏天。比较有趣。

/05/

△图9:1024近一年多用户互动趋势图

大数据采集技术(大数据采集技术有哪些)

  用户互动趋势分析。

  单独看此图看不出什么,只能看出进入2017年后,1024网站的活跃量明显攀升,总体波动向上。

  结合近一年来的主题帖发布趋势(图5)和新增用户趋势(图8)可以看出,三者呈正相关联系。

  这很好理解,新来一批用户→需要发帖提高权限→产生新的主题帖(内容)→带来新的回帖(活跃度)。

/06/

△图10:1024用户上线时间分布图

  用户上线时间分析。

  这个没什么好分析的,直接说结果吧。

  从整体时间看,晚上20点~23点是一个高峰段,白天10点~15点是另外一个次高峰时段,凌晨1:00到早上7:00为低谷。

  具体:

  晚上22:00点,在线访问用户最多,有句话怎么说来着,晚上10点后与异性通话都是性骚扰;

  晚上23:00点,其次。

  下午13:00点,排第三。这个有点让人意外,大白天的就开始飙车。

  凌晨5:00点,排最末。

  总结:这次采集只抓了一些基本信息,比如用户注册时间、发帖主题、时间、回复数等,有点浅尝辄止,但通过总结分析,可以大致看出1024发展的历史轨迹,和论坛特点,以及一些用户偏好的变化,有心的朋友还可以推测出其网站运营手法。

  为什么要去扒一个成人网站,当然是为了证明我家工具强大,凡开放数据都可以采集。

  其次当然是因为今天是1024,为程序员节的献礼,烘托一下节日气氛。

  作为一个有人道精神的运营,号召所有运营产品主动关心程序员,表白、发红包、介绍对象都可以,重点是:今天坚决不改需求,不提新任务。

版权声明

本文仅代表作者观点,不代表B5编程立场。
本文系作者授权发表,未经许可,不得转载。

继续浏览有关 大数据采集技术 的文章
发表评论