然而,这些事实每一个都像小锤子,敲打在邹杰心上,让他清晰地看到自己研究在细节和深度上的巨大差距。
那种感觉,比直接的辱骂更让人无地自容,因为它指向的是硬伤,是能力上的鸿沟。
邹杰的脸色由红转白,再由白转青,嘴唇紧抿,手指无意识地抠着裤缝,他不得不承认,李乐指出的这些问题,大多一针见血。脸上火辣辣的,但奇怪的是,竟隐隐生出一丝。。。。被点醒的清明?
终于,李乐大致浏览完了。他靠在椅背上,沉吟了片刻,然后从裤兜里掏出一个银色的U盘,在指尖转了转。
“邹老师,”李乐将U盘递过去,“这里面有几份数据,是我和我的朋友近一两年陆陆续续整理搜集的,关于国内几个主要论坛和早期社交网站的用户行为轨迹和社群结构演化。还有后台日志数据抽样。”
小主,这个章节后面还有哦,请点击下一页继续阅读,后面更精彩!
“不算很系统,但样本量和你涉及的范围有重叠,可能。。。。比你手头加工过的那些,要原始一点,也全一点,当然,是做过清洗和脱敏的,”
这个举动彻底让邹杰和周帆都愣住了。
邹杰难以置信地看着那个U盘,又看看李乐,完全无法理解对方的意图。
在刚刚揭露了“借鉴”行为之后,反而把自己的核心数据给对方看?这算什么?施舍?还是另一种形式的摩擦?
李乐没有催促,只是平静地看着他。
挣扎了几秒钟,一种对高质量数据的本能渴望,以及对李乐究竟意欲何为的强烈好奇,最终战胜了疑虑。邹杰几乎是颤抖着手,接过了那个轻飘飘却感觉重若千钧的U盘,默默地插在了电脑上。
周帆也忍不住凑了过来。
U盘里的数据文件被打开,清晰的表格、复杂的网络关系图、长时间跨度的用户活动日志。。。。。呈现在屏幕上。
邹杰只看了几眼,瞳孔就猛地收缩了一下。这些数据的维度、精细度和时间跨度,远非他通过公开渠道抓取和有限访谈所能比拟。一些他之前只能推测或模糊感知的模式,在这些数据下露出了清晰的脉络。
“这个,”李乐又点开一个文件,“这是我们设计的一套测量线上社群认同感和归属感的量表,结合了社会认同理论和组织行为学的一些概念,进行过两轮预测试和信效度检验,克伦巴赫α系数和结构效度都还过得去。”
“比你直接套用线下社区认同量表,应该更贴切一些。”
邹杰身体不自觉地前倾,眼睛死死盯着屏幕,指着一段关于用户行为序列分析的描述急切地问,“这个。。。。这个序列模式挖掘,你们是用什么算法实现的?怎么处理稀疏数据问题的?”
李乐笑了笑,“用了改进的PrefixSpan算法,针对用户行为序列的稀疏性做了优化。具体细节有点技术性,不过原理不难理解,回头可以发你篇相关的方法论文献。”
“这里呢?”邹杰指着其中一个关于“关键节点用户影响力衰减”的数据序列,“这个周期性波动,你们是怎么捕捉到的?这和我观察到的某个现象很像,但我一直无法确定是偶发还是规律。。。。。”
“加了动态权重算法,结合了他们的发帖频率、回复质量、被引用次数,还有,嗯,一些非公开的互动指标,综合计算的影响力值。这个波动和平台几次大的规则调整时间点高度重合,说明不是偶发。”
邹杰像是沙漠中濒渴的人看到了水源,连珠炮似的又问了几个关于数据获取、清洗、模型构建的问题。李乐答了,之后看似随意地问了一句,“邹老师,你觉得,我这套数据,跟你那份。。。。。嗯,经过你深度加工的数据相比,怎么样?”
“这。。。。。”邹杰颓然低下头,答案不言自明。
一直旁听的周帆,此刻心中已是翻云覆雨一般,没想到对方先是轻描淡写点破邹杰的“借鉴”,接着又犀利指出研究漏洞,最后竟然毫不吝啬地分享起如此珍贵的数据和方法。
看着李乐那副平静无波、仿佛只是在讨论晚上吃啥的表情,只觉得这位比自己大不了几岁的人,心思深得像海。
房间里再次陷入寂静。
邹杰挣扎了半天,还是没忍住,问出了那个最关键、也最让他感到不可思议的问题,“李,李乐博士,这些数据,你们到底是从哪里弄到的?这种后台日志,平台怎么可能随便给外人?”
“这些?你知道我们从02年,甚至更早,就已经开始和这些网站、论坛有合作了么?”李乐的语调里,带着一种优越感,“你知道球球、八大胡同、天涯海角、碧聊。。。。。这些地方,我们能通过合作项目,拿到部分后台的、脱敏后的数据么?”