您好,欢迎访问姐妹文库,我们提供范文大全,个人简历,教案下载,课件中心,优秀作文,考试辅导,试题库,诗词鉴赏等

收藏

IT计算机 频道

互联网|电脑基础知识|软件及应用|硬件及网络|

干货:如何利用舆情分析数据定位真正精准的客户群体_图文

字体大小:[日期:2017-11-27]阅读:

导读:干货:如何利用舆情分析数据定位真正精准的客户群体
先提出一个问题,当我们有一个特别好的产品, 想要在市场上占据有一席之 怎么才能够快速 的了解到真正的目标客户呢?这时候我

干货:如何利用舆情分析数据定位真正精准的客户群体 先提出一个问题,当我们有一个特别好的产品, 想要在市场上占据有一席之 怎么才能够快速 的了解到真正的目标客户呢?这时候我们就需要用到 【舆情监测】 系统 通过大数据的合理分析, 帮我们能够快速的找出所需要的客户群体。而且对于我们想要推广的产品也通过【舆情分析】可 以为后期制定营销策略和方案打下基础 ,最难得可贵的是,科学的【舆情分析】数据也帮我们 在后期创业中可以少走弯路 节约成本。本文近几年最火的“共享单车”公司为案例,进行讲解 说明【舆情分析】数据的重要性。 针对于共享单车我们可以通过大数据文本挖掘的角度来做一番分析, 主要是从海量的文本数 据中找到有价值的讯息和观察视角。帮助我们进行【舆情分析】,方便后期的产品走向动态的目 标设定。 2016 年底以来,国内共享单车毫无征兆的就火爆了起来,彼时一张手机截屏蹿红网络—在 这张截图上,24 个共享单车应用的图标霸满了整个手机屏幕,昭示着共享单车市场抢夺大战的 激烈和残酷。 再看看一组来自【新浪舆情通】的数据:共享单车领域两大巨头—摩拜单车和 ofo 近一年 的客户端用户增长数据,二者的用户增长曲线别无二致,都是一路高歌猛进,共享单车领域的火 爆势头在短时间内不会遏止。 同时, 在全国各大城市, 在街头巷尾, 在居民小区和创业园区, 排满了各种颜色的共享单车, 仿佛一夜之间,共享单车如“千树万树”的梨花一般,盛开到了泛滥成灾的地步了。 与此同时,各种乱象也是接踵而至,触目惊心:人为肆意毁坏单车、车身乱贴小广告、街上 随意停放… “共享单车”的现状已经全部描述完毕 想必大家心中有一个大概的了解。但是仅仅这些内 容还是远远不够的, 还不能够帮助我们制定未来企业发展战略。 我们需要更加精准的数据作为我 们制定未来企业发展的策略。具体的【舆情分析】的方法可以通过大数据发掘来实现 以下是本文的行文路线图和所涉及的文本挖掘方法。 1.数据采集和预处理---从源头把控【舆情分析】数据 在数据采集部分, 笔者想采集跟共享单车关联性强的文本数据, 笔者没有去写爬虫去爬取数 据,而是用到了【新浪舆情通】“信息监测”中的“数据导出”功能,根据设置的关键词检索逻 辑,将所有涉及到共享单车的各类媒体文章的标题、发布时间、媒体名称、正文及正文分词等数 据下载下来,省去文本数据的清洗和预处理过程,直接进行文本挖掘部分。 在这里,笔者选取了市场上主流的 26 个共享单车品牌,再加上关键字“共享单车”,形成 如下的关键词检索逻辑: 共享单车+(永安行 |ofo|小鸣单车 |小蓝单车 | 智享单车 |北京公共自行车 |骑点 |奇奇出 行 |CCbike |7 号电单车 |黑鸟单车 |hellobike |酷骑单车 |1 步单车 |由你单车 |踏踏 |Funbike 单车 |悠悠单车 |骑呗 |熊猫单车 |云单车 |优拜单车 |电电 Go 单车 |小鹿单车 |小白单车 |快 兔出行 |摩拜单车 | 绿游 GreenBike) 我们可以选取 2017-3-1~2017-6-30 之间的数据,经由上面的检索关键词,可以得到我们 想要的数据,为节省时间,仅选取“新闻”这一信息来源的文本数据作为分析对象,因为这部分 的数据比较符合要求,包含的噪音较小。结果显示如下: 导出数据之后,结果如下 上面圈红的字段是比较重要的分析维度, 注意, 导出的文章正文数据已经经过系统分词和去 停用词处理,直接省去了文本预处理所要耗费的时间。 笔者再对其中的数据进行去重处理—去掉“标题/微博内容”和“正文切词”相同的部分, 再从“发布日期”中提取出“月份”字段(用于后面的按月份分类文本),最终得到如下结果: 由此,原先的数据量从 30W+的数据量减少到 88,291 条数据 2 常规描述性数据统计---从中得到相关【舆情】内容 在正式的文本分析之前, 笔者再对上述预处理后的数据进行描述性分析, 先从表层获得这些 数据的直观印象。 首先是这 4 个月有关共享单车的文章数量的分布情况,如下图所示: 可以看到,中间两个月的发布文章数量最多,3 月份的数量最少。 经统计,共有 4056 个媒体发布了跟共享单车有关的文章,在 Excel 中使用“数据分析-描 述统计”对这些媒体发文数据进行描述统计,得出如下结果: 由此可见,在文章总数 88,291 篇、发文媒体 4,056 个的情况下,平均每个媒体的发文数约 为 22 篇(21.66),其中的中位数为 3 篇,众数为 1 篇,最大发文数为 4,815 篇。结合下面的 直方图,数量分布呈现明显的左偏态,主要集中在“0-300 篇”这个区间内(其中绝大部分为 1 篇)。 再来展示发文数量 TOP30 媒体的情况。 排名榜首的是突袭网, 它是一个信息资讯 “大杂烩” (上面有各类转载过来的信息和琳琅满目的广告,而且经常不标明信息来源……),其次是腾讯 新闻、搜狐媒体平台、新浪和网易这样的综合信息门户网站。有点意外的是,汉丰网 (/genism PiotrBojanowski, EdouardGrave, Armand Joulin , TomasMikolov, Enriching Word Vectors with Subword Information 劳鑫,马宝君,张楠,万岩,基于概率主题建模和深度学习的公众舆情分析 YoavGoldberg,wordembeddings—what, how and whither AnnaHuang,SimilarityMeasures for Text Document Clustering Python( jieba、snownlp、gensim、sklearn、wordcloud)

热门图片