数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。
在用户体验范畴内,"大数据"是一个与传统研究范式或较小样本量对应的概念,用户研究员需要身兼数据分析师这一角色(如基于标签的用户画像研究)。
一、什么是大数据
广义的大数据是与传统研究方法相对的,是更大样本量的研究。
大数据的特点:
大数据具有数据量大、数据类型丰富、模糊与匿名、人为定义和人为参与等显著特点。
数据量大是不言而喻的。“数据类型丰富”,最直观的理解是,我们可以通过汇总新媒体渠道中的用户特征/行为/社会学属性等内容,建立用户画像,归纳群体特征,为用户研究做支撑。
模糊与匿名,数据虽然是人产生的,从研究意义上来讲,用户的观点和倾向才是数据本身,而不需要确定到某个人。
人为定义与参与是大数据最显著的特点。借助用户研究产生的假设逻辑,采集行为结果推论分析“未被呈现”的用户行为与需求。
数字不会说谎,说谎的是一些人解读数字的方式。
在研究中,我们通过数字去验证假设,或者说我们通过数字的推论去验证我们想要的结果或者结论,而真正起到方向性作用的是我们自身。
充分认识大数据的特点能够帮助我们更好的理解大数据应用的领域,这也是大数据与传统意义上数据所存在的一些区别。
把大数据和用户体验研究结合起来,取决于大数据研究的优势。
// 削减大样本研究的成本。同样是获取较大单位数据量,大数据能够突破传统数据收集渠道的限制,相对降低成本。
// 丰富的数据来源。可多渠道获取用户特征数据,同时要关注数据来源的有效性和稳定性,减少无效数据。
// 促成建设长期研究的机制。长期的数据积累加理性的决策分析才能够尝试去预测某个趋势,但由此所建立的研究机制会变成对业务的考核,增加考核指标,业务部门可能会打爆你的头。
// Cool,Cooler and Coolest。在非用户体验专业人士看来大数据研究方法很酷,能够带来更多信息或提高效率。但实际上大数据研究需要有较强的落地能力和一定的推动能力,需要在一开始就定义数据的操作性定义,避免后期解释的被动性。
二、使用大数据开展用户研究
随着数据技术和人工智能的发展,面向大规模非结构化数据的分析处理能力得到爆发式增长,突破原有信息渠道和劳动成本限制,获取大量用户行为、态度、情感倾向的信息成为用户研究的新方向。大数据和实证研究数据联动帮助我们更好地了解和描绘用户群体。
如何开展一项大数据用户研究?
假设是研究的起始,它圈定研究的范畴边界,明确调研的目标对象。
数据是研究的资源,有什么样的数据,决定了研究的颗粒度、有效性,同时决定处理分析的方法。
数据分析和处理将会成为一项基本功。数据分析和可视化各有侧重,前者关注数据处理的合理性,后者在于如何将结果有效地传达给听众。
开展一项大数据用户研究步骤如下:
第一步:确定假设。
确定研究假设是用户体验的第一步,也是甄别用户研究能力的重要步骤。
①理解业务场景。问题来自业务侧,要对行业背景、产品特性、用户群体理解以及行业的中长期发展趋势有一定的把握能力。
②圈定研究边界。知其为,知其不可为。圈定研究边界,一方面管理研究期望,另一方面能够限定研究的应用范畴与效率,明确结果应用的场景。
③影响研究方案。根据假设设计研究方案、选择研究方法,做的是描述还是对比、方案中涉及哪些要素都受到研究假设的影响。
第二步:选择数据。
大数据来源有内部和外部之分。内部数据是指来自企业内部,通过信息化渠道采集和获得的数据。可归纳为三类:
①投诉数据。是最早使用,也是最常用的可鉴别体验好坏的指标。要正确认识投诉数据,建立合理的指标,可用于鉴别问题出现的原因以及判断以用户为中心的驱动模式转化阶段。
②运营数据。通过数字化渠道获取得到的一系列数据。方法论层面,这是一个被互联网玩儿透的概念;实践层面上,这是一个不断能推陈出新的概念。
③业务数据。指公司的营收、成本分摊等数据。
外部数据指大数据研究的资源来自公开渠道,以用户舆论为主要研究对象。也可归为三类:
①电商平台。根据目标用户群体的不同,电商平台分为主流电商和非主流电商。主流电商面向广泛的用户群体,没有会员门槛或定向服务的人群,如京东、淘宝、天猫和苏宁等。在研究中,我们认为该平台的用户特征与关注的网络购物群体特征重合。非主流电商面向特定的用户群体,包括网易考拉、唯品会等。
②用户论坛。用户论坛的形态和活跃用户群体相对固定,研究生态效度较高。包括品牌论坛(如花粉俱乐部、小米之家等),由品牌厂商发起和建立;专业论坛(如汽车之家等),面向特定的行业/产品/服务;综合论坛,具有丰富的版块和内容。
③UGC平台。UGC平台是当前覆盖范围最广、影响力最大的媒体形态。根据用户规模和产品形态,UGC平台也具有一定的用户属性特征。由于数据规模、面向第三方的用户隐私政策和匿名性等多方面因素,UGC平台研究适用于对群体和趋势的描述。
第三步:数据处理。
数据处理需考虑从三个维度展开:
①非结构化向结构化转化。所有格式的文本、图片、各类报表及音视频等信息都属于非结构化数据。非结构化数据转化的常用方法是标准化。一般结构化数据容易识别和处理,而通过大数据得到的非结构化数据较为复杂,但具有较大价值,因此要将其进行标准化处理后用以分析来提升研究的说服力。
②基于框架的标签系统。基于质性研究方法的标签是一种主观建构框架并简化场景和问题的方法。根据需要定义指标类数据的标准,这要求一定的研究经验和深入洞察。
③避免过度量化。量化受限于场景、提问方式、数据是否偏态。不合理前提下的量化数据不可信,完全偏态的量化数据不可信;例如,“春运的高铁上大家都买到票了。”
第四步:数据分析。
如何选择数据分析方法?是选择基于经典的统计方法,还是基于神经网络的算法进行大数据分析,这取决于于研究目的和假设。但客户更关注的是你的产出和结论,以及如何更好地将我们的结果传达给用户。
大数据分析有一套数据获取-清洗-分析-输出的标准研究流程,可将数据蕴含的信息抽取、归纳并呈现出来。
①数据获取。通过调用API接口或分析网站请求头参数方式,爬取主流电商平台、论坛和社交平台等数据信息。工具:Python工具,基于Redis数据库的分布式爬虫技术。
②数据清洗。去除/补全缺失数据;去除/修改数据格式,关联性验证数据。工具:Pandas、Excel等。
③分析模型建立。根据业务或数据分析要求建立模型。模型:产品/品牌分析,消费者反馈评价分析等。
④数据分析。通过统计软件和模型开展数据分析。工具:可以使用R、Python等常用的统计分析工具或专业的大数据分析工具。
⑤结论输出。研究结果可视化,让用户的注意力瞬间集中到所要表述的重点上,输出结论与报告。工具:Python,Echart。
第五步:报告与输出。
与其他类型的报告相比,大数据研究报告和输出需要注意的是:
①数据的来源。包括数据的采集渠道、采集方法、时间跨度和总量。
②处理分析的手段。确定剔除数据的标准、质性研究和标签的设立标准。
③应用范畴的说明。考虑研究结果的泛用性和解释效力。
未来,中国将会是世界上产生数据最多的国家之一,形式多样且丰富的数据资源将成为用户研究的宝库。
上一篇:大数据可以带来哪些产业发展?
下一篇:大数据学习之路(小白进来)