麦粉社区
>
帖子详情

使用数据挖掘产品统计分析文本(二)

数据挖掘 发表于 2020-1-15 13:38
发表于 2020-1-15 13:38:07
在使用数据挖掘产品统计分析文本(一)中,使用了文本分析中的分词和数据预处理中的分列、聚合将文本中的地区名提取出来并进行分组统计。下面使用另外一种方法,来实现文本中的地名提取并统计。
1、数据准备和“在使用数据挖掘产品统计分析文本(一)”中的一样,这里就再演示步骤,参考在使用数据挖掘产品统计分析文本(一)即可。
2、关系数据源加载,同在使用数据挖掘产品统计分析文本(一)”
3、选择数据预处理中的派生列,点击进入派生列配置
960495e1ea2102fe70.png
4、利用内置的字符串截取函数,对字段列b进行字符截取操作,提取的地名生成单独的列,如下图:
304605e1ea27534571.png
163805e1ea2b204f35.png
217135e1ea317065e8.png
5、聚合上一步骤中生成的单独的列,分组地区名和地区数量统计,得到结果。
853885e1ea34743b22.png
807535e1ea385577d0.png

最后总结下这两种方法提取统计文本中的地名。第一种方法使用了文本分析中的分词,并利用数据预处理中的分列和聚合,将字段列b中的地名提取并统计。这个方法相比第二种方法稍微有些复杂,并且分组后的地名中有别的符号(不影响分组统计结果)。第二种方法很简单,直接将关系数据源中的b字段列按照位置进行截取,生成固定的两个字的地名,且分组后的地名没有别的符号。但是第二种方法也有局限,就是如果地名中有的是2个汉字,有的是3个,有的是多个的时候,这种方法就不能很好的提取地名了;而第一种方法因为使用了文本分析,不管是几个字,都可以比较智能的提取出来做统计。

我把过程录成操作视频,谁需要可以联系我!

发表于 2020-6-10 16:54:02
厉害
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1回帖数 0关注人数 3821浏览人数
最后回复于:2020-6-10 16:54
快速回复 返回顶部 返回列表