麦粉社区
>
帖子详情

使用数据挖掘产品统计分析文本(一)

数据挖掘 发表于 2020-1-15 13:17
发表于 2020-1-15 13:17:53
数据中经常有一段文字,例如“上海黄浦区经开家园二区15栋201”,还有开头是北京、天津、重庆等,需要将这段文字里的区划名称提取出来分组并做数量统计。下面利用数据挖掘产品里的数据预处理功能及文本分析,来实现这个需求。
第一种方法:首先通过文本分析实现这个需求
1、准备好数据。使用txt文本文件自己编辑一个txt的文件,然后利用数据连接,将txt的数据导入到高速缓存库中,如下图所示: 793105e1e9e2fdd735.png

10305e1e9e1cecf5e.png
2、切换到数据挖掘页面,在数据源中选择“关系数据源”,拖到空白区,并在右侧选择数据源、SCHEMA、表名(etltest1)。右键关系数据源选择执行到此处,将数据加载进来。

536705e1e9eba8357d.png
39755e1e9ed17b4c2.png
3、从左侧导航栏中选择文本分析中的分词,点击字段选择,选择列“b”,对b列中的文字进行分词,如下图所示:
389715e1e9f017c87c.png

318305e1e9f3019913.png
4、从导航栏里选择数据预处理中的分列,并在右侧参数中配置列和分隔符,生成单独的地区名字段列
27535e1e9f794d2fa.png
150665e1e9f9d9e406.png


5、利用数据预处理中的聚合生成地区名分组和地区名数量统计,右键执行到此处,右键查看结果,即可得到结果,如下图:
99925e1e9fbacb82c.png
985645e1ea00b0d84b.png


749205e1ea071acc38.png




高级模式
B Color Image Link Quote Code Smilies
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

0回帖数 0关注人数 3381浏览人数
最后回复于:2020-1-15 13:17
快速回复 返回顶部 返回列表