Singpass App Google Play 商店情绪分析(第 1 部分)
Singpass App Google Play 商店情绪分析(第 1 部分)
我爱新通! (我不是这么说,因为我的工作是推动 Singpass API 的采用,哈哈,或者好吧,部分原因是)自从担任这个角色以来,我学会了更多地欣赏我们国家的数字身份基础设施。
为什么?首先,创建和维护一个安全可信且被高度采用的数字身份系统是复杂的。二、Singpass 不只是我们的软拷贝 国民登记身份证 (身份证)。这是一个强大的应用程序,允许居民控制他们的个人信息。使用 Singpass 应用程序,人们可以无缝地注册服务、安全地登录服务,最近甚至可以签署电子文件!谁知道我们的 8.56 厘米 x 5.397 厘米小粉红卡可以演变成如此强大的工具:p
无论如何,为了感谢我们的 Singpass 应用程序及其背后的庞大团队(也因为#supportlocal #ilovesingapore),我决定 建立一个模型来根据书面评论预测谷歌评分 .
Singpass 应用程序在 Google Play Store 和 Apple App Store 的记分牌上不断排名前 10(今天 - 2022 年 9 月 2 日,它在 Google Play Store 中排名第 7,在 App Store 中的生产力排名第 4)。下载量超过一百万,它还在应用商店获得 4.8 星评级(超过 14.88 万条评论),在 google play 商店获得 4.7 星评级。 顺便说一句,它的评分比 Tiktok 高。
我构建这个模型的主要担忧是担心没有足够的 1 星/2 星评级(如果你往下看,这种担心是有道理的)。但是尽管没有大量数据可供使用,我还是决定继续看看我是否可以建立一个像样的模型。
我用来构建模型的数据是从 google play store 中提取的。我设法获得了 7015 条应用商店评论。
现在继续 数据预处理 (我知道有些人讨厌它,但我实际上喜欢清理数据)!
从内容栏中,我们可以观察到评论以各种形式出现。有简短的评论、表情符号、多语言评论和重复字符/拼写错误的评论。
由于大多数评论相对较短(“好”),我不想丢弃任何可能的训练数据。所以我创建了一个去表情符号功能,将表情符号转换为文本。
我还尝试通过删除带有非 ASCII 字符的评论来删除多语言评论。 (哈哈,对不起我的母语——虽然如果我能建立一个可以翻
在这个阶段不想完全预处理内容,因为我仍然必须进行分层抽样(分层抽样确保每个评级都有适当的表示)。我随机选择了每个评分的 304 条评论来获得我的最终数据集。最后,我有 1520 次观察。
修剪数据集后,我继续进一步预处理数据。我转换了 内容转小写 , 修复了宫缩 (即不能), 删除标点符号 和 字符重复 , 删除了停用词 和 词形化 文本。
构建了一些词云来可视化文本!
喜欢我们如何从文字中清楚地看到为什么 Singpass 很棒! “快速” “简单” “方便”
分离我们的训练和测试数据
snippets of my codes — tokenizing the text!
为了有一些数据来验证我的模型,稍后,我将我的数据分成 80% 的训练数据和 20% 的测试数据。
这样做之后,我继续使用 10,000 的词汇量(有趣的事实 - 一个普通人的词汇量为 20K 到 30K)和 50 的嵌入维度来标记我的数据。有了标记化的数据,我们现在准备构建我们的楷模!
在下一篇文章中,我将尝试使用 RNN 和 GRU 模型。敬请关注!
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明