python jieba分词(添加停用词,用户字典 取词频

中文分词一般使用jieba分词

1.安装

1 pip install jieba

2.大致了解jieba分词

包括jieba分词的3种模式 

全模式

1 import jieba
2 
3 seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False)
4 print("Full Mode: " + "/ ".join(seg_list))  # 全模式

 

精准模式

1 import jieba
2 
3 seg_list = jieba.cut("我来到北京清华大学", cut_all=False, HMM=True)
4 print("Default Mode: " + "/ ".join(seg_list))  # 精准模式

 

搜索引擎模式

1 import jieba
2 
3 seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造", HMM=False)  # 搜索引擎模式
4 print(", ".join(seg_list))

 

2.解决问题

一般只调用分词的话会出现几个问题 

一是会出现各种我们不需要的东西像

# [] () 的 个 些

这些东西都属于停用词 都不必去获取这些东西

我们只需要把他剔除就可以了

停用词包括

   1 http
   2 回复
   3 !
   4 "
   5 #
   6 $
   7 %
   8 &
   9 '
  10 (
  11 )
  12 *
  13 +
  14 ,
  15 -
  16 --
  17 .
  18 ..
  19 ...
  20 ......
  21 ...................
  22 ./
  23 .一
  24 .数
  25 .日
  26 /
  27 //
  28 0
  29 1
  30 2
  31 3
  32 4
  33 5
  34 6
  35 7
  36 8
  37 9
  38 :
  39 ://
  40 ::
  41 ;
  42 <
  43 =
  44 >
  45 >>
  46 ?
  47 @
  48 A
  49 Lex
  50 [
  51 \
  52 ]
  53 ^
  54 _
  55 `
  56 exp
  57 sub
  58 sup
  59 |
  60 }
  61 ~
  62 ~~~~
  63 ·
  64 ×
  65 ×××
  66 Δ
  67 Ψ
  68 γ
  69 μ
  70 φ
  71 φ.
  72 В
  73   74 ——
  75 ———
  76   77   78 ’‘
  79   80   81 ”,
  82   83 ……
  84 …………………………………………………③
  85 ′∈
  86 ′|
  87   88   89   90   91 ∈[
  92 ∪φ∈
  93   94   95   96 ②c
  97   98 ③]
  99  100  101  102  103  104  105  106 ──
 107  108  109  
 110  111  112  113  114  115  116 》),
 117  118  119  120  121  122  123  124 〕〔
 125  126  127 一.
 128 一一
 129 一下
 130 一个
 131 一些
 132 一何
 133 一切
 134 一则
 135 一则通过
 136 一天
 137 一定
 138 一方面
 139 一旦
 140 一时
 141 一来
 142 一样
 143 一次
 144 一片
 145 一番
 146 一直
 147 一致
 148 一般
 149 一起
 150 一转眼
 151 一边
 152 一面
 153  154 万一
 155  156 三天两头
 157 三番两次
 158 三番五次
 159  160 上下
 161 上升
 162 上去
 163 上来
 164 上述
 165 上面
 166  167 下列
 168 下去
 169 下来
 170 下面
 171  172 不一
 173 不下
 174 不久
 175 不了
 176 不亦乐乎
 177 不仅
 178 不仅...而且
 179 不仅仅
 180 不仅仅是
 181 不会
 182 不但
 183 不但...而且
 184 不光
 185 不免
 186 不再
 187 不力
 188 不单
 189 不变
 190 不只
 191 不可
 192 不可开交
 193 不可抗拒
 194 不同
 195 不外
 196 不外乎
 197 不够
 198 不大
 199 不如
 200 不妨
 201 不定
 202 不对
 203 不少
 204 不尽
 205 不尽然
 206 不巧
 207 不已
 208 不常
 209 不得
 210 不得不
 211 不得了
 212 不得已
 213 不必
 214 不怎么
 215 不怕
 216 不惟
 217 不成
 218 不拘
 219 不择手段
 220 不敢
 221 不料
 222 不断
 223 不日
 224 不时
 225 不是
 226 不曾
 227 不止
 228 不止一次
 229 不比
 230 不消
 231 不满
 232 不然
 233 不然的话
 234 不特
 235 不独
 236 不由得
 237 不知不觉
 238 不管
 239 不管怎样
 240 不经意
 241 不胜
 242 不能
 243 不能不
 244 不至于
 245 不若
 246 不要
 247 不论
 248 不起
 249 不足
 250 不过
 251 不迭
 252 不问
 253 不限
 254  255 与其
 256 与其说
 257 与否
 258 与此同时
 259 专门
 260  261 且不说
 262 且说
 263 两者
 264 严格
 265 严重
 266  267 个人
 268 个别
 269 中小
 270 中间
 271 丰富
 272 串行
 273  274 临到
 275  276 为主
 277 为了
 278 为什么
 279 为什麽
 280 为何
 281 为止
 282 为此
 283 为着
 284 主张
 285 主要
 286 举凡
 287 举行
 288  289 乃至
 290 乃至于
 291  292  293 之一
 294 之前
 295 之后
 296 之後
 297 之所以
 298 之类
 299 乌乎
 300  301  302  303 乘势
 304 乘机
 305 乘胜
 306 乘虚
 307 乘隙
 308  309  310 也好
 311 也就是说
 312 也是
 313 也罢
 314  315 了解
 316 争取
 317  318 二来
 319 二话不说
 320 二话没说
 321  322 于是
 323 于是乎
 324 云云
 325 云尔
 326  327 互相
 328  329  330 交口
 331  332 产生
 333 亲口
 334 亲手
 335 亲眼
 336 亲自
 337 亲身
 338  339 人人
 340 人们
 341 人家
 342 人民
 343 什么
 344 什么样
 345 什麽
 346  347 仅仅
 348  349 今后
 350 今天
 351 今年
 352 今後
 353 介于
 354  355 仍旧
 356 仍然
 357  358 从不
 359 从严
 360 从中
 361 从事
 362 从今以后
 363 从优
 364 从古到今
 365 从古至今
 366 从头
 367 从宽
 368 从小
 369 从新
 370 从无到有
 371 从早到晚
 372 从未
 373 从来
 374 从此
 375 从此以后
 376 从而
 377 从轻
 378 从速
 379 从重
 380  381 他人
 382 他们
 383 他是
 384 他的
 385 代替
 386  387 以上
 388 以下
 389 以为
 390 以便
 391 以免
 392 以前
 393 以及
 394 以后
 395 以外
 396 以後
 397 以故
 398 以期
 399 以来
 400 以至
 401 以至于
 402 以致
 403  404  405 任何
 406 任凭
 407 任务
 408 企图
 409 伙同
 410  411 伟大
 412  413 传说
 414 传闻
 415 似乎
 416 似的
 417  418 但凡
 419 但愿
 420 但是
 421  422 何乐而不为
 423 何以
 424 何况
 425 何处
 426 何妨
 427 何尝
 428 何必
 429 何时
 430 何止
 431 何苦
 432 何须
 433 余外
 434 作为
 435  436 你们
 437 你是
 438 你的
 439 使
 440 使得
 441 使用
 442 例如
 443  444 依据
 445 依照
 446 依靠
 447 便
 448 便于
 449 促进
 450 保持
 451 保管
 452 保险
 453  454 俺们
 455 倍加
 456 倍感
 457 倒不如
 458 倒不如说
 459 倒是
 460  461 倘使
 462 倘或
 463 倘然
 464 倘若
 465  466 借以
 467 借此
 468 假使
 469 假如
 470 假若
 471 偏偏
 472 做到
 473 偶尔
 474 偶而
 475 傥然
 476  477  478 允许
 479 元/吨
 480 充其极
 481 充其量
 482 充分
 483 先不先
 484 先后
 485 先後
 486 先生
 487  488 光是
 489 全体
 490 全力
 491 全年
 492 全然
 493 全身心
 494 全部
 495 全都
 496 全面
 497  498 八成
 499 公然
 500  501  502  503 共同
 504 共总
 505 关于
 506  507 其一
 508 其中
 509 其二
 510 其他
 511 其余
 512 其后
 513 其它
 514 其实
 515 其次
 516 具体
 517 具体地说
 518 具体来说
 519 具体说来
 520 具有
 521 兼之
 522  523  524 再其次
 525 再则
 526 再有
 527 再次
 528 再者
 529 再者说
 530 再说
 531  532  533 决不
 534 决定
 535 决非
 536 况且
 537 准备
 538 凑巧
 539 凝神
 540  541 几乎
 542 几度
 543 几时
 544 几番
 545 几经
 546  547 凡是
 548  549 凭借
 550  551 出于
 552 出去
 553 出来
 554 出现
 555 分别
 556 分头
 557 分期
 558 分期分批
 559  560 切不可
 561 切切
 562 切勿
 563 切莫
 564  565 则甚
 566  567 刚好
 568 刚巧
 569 刚才
 570  571  572 别人
 573 别处
 574 别是
 575 别的
 576 别管
 577 别说
 578  579 到了儿
 580 到处
 581 到头
 582 到头来
 583 到底
 584 到目前为止
 585 前后
 586 前此
 587 前者
 588 前进
 589 前面
 590 加上
 591 加之
 592 加以
 593 加入
 594 加强
 595 动不动
 596 动辄
 597 勃然
 598 匆匆
 599 十分
 600  601 千万
 602 千万千万
 603  604  605 单单
 606 单纯
 607  608 即令
 609 即使
 610 即便
 611 即刻
 612 即如
 613 即将
 614 即或
 615 即是说
 616 即若
 617  618 却不
 619  620 原来
 621  622  623 又及
 624  625 及其
 626 及时
 627 及至
 628 双方
 629 反之
 630 反之亦然
 631 反之则
 632 反倒
 633 反倒是
 634 反应
 635 反手
 636 反映
 637 反而
 638 反过来
 639 反过来说
 640 取得
 641 取道
 642 受到
 643 变成
 644 古来
 645  646 另一个
 647 另一方面
 648 另外
 649 另悉
 650 另方面
 651 另行
 652  653 只当
 654 只怕
 655 只是
 656 只有
 657 只消
 658 只要
 659 只限
 660  661 叫做
 662 召开
 663 叮咚
 664 叮当
 665  666 可以
 667 可好
 668 可是
 669 可能
 670 可见
 671  672 各个
 673 各人
 674 各位
 675 各地
 676 各式
 677 各种
 678 各级
 679 各自
 680 合理
 681  682 同一
 683 同时
 684 同样
 685  686 后来
 687 后者
 688 后面
 689  690 向使
 691 向着
 692  693  694 否则
 695  696 吧哒
 697  698  699  700 呆呆地
 701  702  703  704  705 呜呼
 706  707 周围
 708  709 呵呵
 710  711 呼哧
 712 呼啦
 713  714  715  716  717  718  719 咱们
 720  721  722  723 哈哈
 724  725  726 哎呀
 727 哎哟
 728  729 哗啦
 730  731  732  733  734 哪个
 735 哪些
 736 哪儿
 737 哪天
 738 哪年
 739 哪怕
 740 哪样
 741 哪边
 742 哪里
 743  744 哼唷
 745  746 唯有
 747  748 啊呀
 749 啊哈
 750 啊哟
 751  752  753  754 啪达
 755 啷当
 756  757  758  759 喔唷
 760  761  762 嗡嗡
 763  764  765  766  767 嘎嘎
 768 嘎登
 769  770  771  772  773 嘿嘿
 774  775  776 因为
 777 因了
 778 因此
 779 因着
 780 因而
 781  782 固然
 783  784 在下
 785 在于
 786  787  788 坚决
 789 坚持
 790 基于
 791 基本
 792 基本上
 793 处在
 794 处处
 795 处理
 796 复杂
 797  798 多么
 799 多亏
 800 多多
 801 多多少少
 802 多多益善
 803 多少
 804 多年前
 805 多年来
 806 多数
 807 多次
 808 够瞧的
 809  810 大不了
 811 大举
 812 大事
 813 大体
 814 大体上
 815 大凡
 816 大力
 817 大多
 818 大多数
 819 大大
 820 大家
 821 大张旗鼓
 822 大批
 823 大抵
 824 大概
 825 大略
 826 大约
 827 大致
 828 大都
 829 大量
 830 大面儿上
 831 失去
 832  833  834 奋勇
 835  836 她们
 837 她是
 838 她的
 839  840 好在
 841 好的
 842 好象
 843  844 如上
 845 如上所述
 846 如下
 847 如今
 848 如何
 849 如其
 850 如前所述
 851 如同
 852 如常
 853 如是
 854 如期
 855 如果
 856 如次
 857 如此
 858 如此等等
 859 如若
 860 始而
 861 姑且
 862 存在
 863 存心
 864 孰料
 865 孰知
 866  867 宁可
 868 宁愿
 869 宁肯
 870  871 它们
 872 它们的
 873 它是
 874 它的
 875 安全
 876 完全
 877 完成
 878  879 实现
 880 实际
 881 宣布
 882 容易
 883 密切
 884  885 对于
 886 对应
 887 对待
 888 对方
 889 对比
 890  891 将才
 892 将要
 893 将近
 894  895 少数
 896  897 尔后
 898 尔尔
 899 尔等
 900 尚且
 901 尤其
 902  903 就地
 904 就是
 905 就是了
 906 就是说
 907 就此
 908 就算
 909 就要
 910  911 尽可能
 912 尽如人意
 913 尽心尽力
 914 尽心竭力
 915 尽快
 916 尽早
 917 尽然
 918 尽管
 919 尽管如此
 920 尽量
 921 局外
 922 居然
 923 届时
 924 属于
 925  926 屡屡
 927 屡次
 928 屡次三番
 929  930 岂但
 931 岂止
 932 岂非
 933 川流不息
 934 左右
 935 巨大
 936 巩固
 937 差一点
 938 差不多
 939  940  941 已矣
 942 已经
 943  944 巴巴
 945  946 帮助
 947  948 常常
 949 常言说
 950 常言说得好
 951 常言道
 952 平素
 953 年复一年
 954  955 并不
 956 并不是
 957 并且
 958 并排
 959 并无
 960 并没
 961 并没有
 962 并肩
 963 并非
 964 广大
 965 广泛
 966 应当
 967 应用
 968 应该
 969 庶乎
 970 庶几
 971 开外
 972 开始
 973 开展
 974 引起
 975  976 弹指之间
 977 强烈
 978 强调
 979  980 归根到底
 981 归根结底
 982 归齐
 983  984 当下
 985 当中
 986 当儿
 987 当前
 988 当即
 989 当口儿
 990 当地
 991 当场
 992 当头
 993 当庭
 994 当时
 995 当然
 996 当真
 997 当着
 998 形成
 999 彻夜
1000 彻底
1001 1002 彼时
1003 彼此
1004 1005 往往
1006 1007 待到
1008 1009 很多
1010 很少
1011 後来
1012 後面
1013 1014 得了
1015 得出
1016 得到
1017 得天独厚
1018 得起
1019 心里
1020 1021 必定
1022 必将
1023 必然
1024 必要
1025 必须
1026 1027 快要
1028 忽地
1029 忽然
1030 1031 怎么
1032 怎么办
1033 怎么样
1034 怎奈
1035 怎样
1036 怎麽
1037 1038 急匆匆
1039 1040 怪不得
1041 总之
1042 总是
1043 总的来看
1044 总的来说
1045 总的说来
1046 总结
1047 总而言之
1048 恍然
1049 恐怕
1050 恰似
1051 恰好
1052 恰如
1053 恰巧
1054 恰恰
1055 恰恰相反
1056 恰逢
1057 1058 您们
1059 您是
1060 惟其
1061 惯常
1062 意思
1063 愤然
1064 愿意
1065 慢说
1066 成为
1067 成年
1068 成年累月
1069 成心
1070 1071 我们
1072 我是
1073 我的
1074 1075 或则
1076 或多或少
1077 或是
1078 或曰
1079 或者
1080 或许
1081 战斗
1082 截然
1083 截至
1084 1085 所以
1086 所在
1087 所幸
1088 所有
1089 所谓
1090 1091 才能
1092 扑通
1093 1094 打从
1095 打开天窗说亮话
1096 扩大
1097 1098 抑或
1099 抽冷子
1100 拦腰
1101 1102 1103 按时
1104 按期
1105 按照
1106 按理
1107 按说
1108 挨个
1109 挨家挨户
1110 挨次
1111 挨着
1112 挨门挨户
1113 挨门逐户
1114 换句话说
1115 换言之
1116 1117 据实
1118 据悉
1119 据我所知
1120 据此
1121 据称
1122 据说
1123 掌握
1124 接下来
1125 接着
1126 接著
1127 接连不断
1128 放量
1129 1130 故意
1131 故此
1132 故而
1133 敞开儿
1134 1135 敢于
1136 敢情
1137 数/
1138 整个
1139 断然
1140 1141 方便
1142 方才
1143 方能
1144 方面
1145 旁人
1146 1147 无宁
1148 无法
1149 无论
1150 1151 既...又
1152 既往
1153 既是
1154 既然
1155 日复一日
1156 日渐
1157 日益
1158 日臻
1159 日见
1160 时候
1161 昂然
1162 明显
1163 明确
1164 1165 是不是
1166 是以
1167 是否
1168 是的
1169 显然
1170 显著
1171 普通
1172 普遍
1173 暗中
1174 暗地里
1175 暗自
1176 1177 更为
1178 更加
1179 更进一步
1180 1181 曾经
1182 1183 替代
1184 1185 最后
1186 最大
1187 最好
1188 最後
1189 最近
1190 最高
1191 1192 有些
1193 有关
1194 有利
1195 有力
1196 有及
1197 有所
1198 有效
1199 有时
1200 有点
1201 有的
1202 有的是
1203 有着
1204 有著
1205 1206 1207 朝着
1208##末
1209 1210 本人
1211 本地
1212 本着
1213 本身
1214 权时
1215 1216 来不及
1217 来得及
1218 来看
1219 来着
1220 来自
1221 来讲
1222 来说
1223 1224 极为
1225 极了
1226 极其
1227 极力
1228 极大
1229 极度
1230 极端
1231 构成
1232 果然
1233 果真
1234 1235 某个
1236 某些
1237 某某
1238 根据
1239 根本
1240 格外
1241 1242 1243 次第
1244 欢迎
1245 1246 正值
1247 正在
1248 正如
1249 正巧
1250 正常
1251 正是
1252 1253 此中
1254 此后
1255 此地
1256 此处
1257 此外
1258 此时
1259 此次
1260 此间
1261 1262 毋宁
1263 1264 每个
1265 每天
1266 每年
1267 每当
1268 每时每刻
1269 每每
1270 每逢
1271 1272 比及
1273 比如
1274 比如说
1275 比方
1276 比照
1277 比起
1278 比较
1279 毕竟
1280 毫不
1281 毫无
1282 毫无例外
1283 毫无保留地
1284 1285 沙沙
1286 1287 没奈何
1288 没有
1289 沿
1290 沿着
1291 注意
1292 1293 深入
1294 清楚
1295 1296 满足
1297 漫说
1298 1299 1300 然则
1301 然后
1302 然後
1303 然而
1304 1305 照着
1306 牢牢
1307 特别是
1308 特殊
1309 特点
1310 犹且
1311 犹自
1312 1313 独自
1314 猛然
1315 猛然间
1316 率尔
1317 率然
1318 现代
1319 现在
1320 理应
1321 理当
1322 理该
1323 瑟瑟
1324 甚且
1325 甚么
1326 甚或
1327 甚而
1328 甚至
1329 甚至于
1330 1331 用来
1332 1333 1334 1335 由于
1336 由是
1337 由此
1338 由此可见
1339 1340 略为
1341 略加
1342 略微
1343 1344 白白
1345 1346 的确
1347 的话
1348 皆可
1349 目前
1350 直到
1351 直接
1352 相似
1353 相信
1354 相反
1355 相同
1356 相对
1357 相对而言
1358 相应
1359 相当
1360 相等
1361 省得
1362 1363 看上去
1364 看出
1365 看到
1366 看来
1367 看样子
1368 看看
1369 看见
1370 看起来
1371 真是
1372 真正
1373 眨眼
1374 1375 着呢
1376 1377 矣乎
1378 矣哉
1379 知道
1380 1381 确定
1382 碰巧
1383 社会主义
1384 1385 1386 积极
1387 移动
1388 究竟
1389 穷年累月
1390 突出
1391 突然
1392 1393 1394 立刻
1395 立即
1396 立地
1397 立时
1398 立马
1399 1400 竟然
1401 竟而
1402 1403 第二
1404 1405 等到
1406 等等
1407 策略地
1408 简直
1409 简而言之
1410 简言之
1411 1412 类如
1413 1414 精光
1415 紧接着
1416 累年
1417 累次
1418 1419 纯粹
1420 1421 纵令
1422 纵使
1423 纵然
1424 练习
1425 组成
1426 1427 经常
1428 经过
1429 结合
1430 结果
1431 1432 1433 绝不
1434 绝对
1435 绝非
1436 绝顶
1437 继之
1438 继后
1439 继续
1440 继而
1441 维持
1442 综上所述
1443 缕缕
1444 罢了
1445 1446 老大
1447 老是
1448 老老实实
1449 考虑
1450 1451 1452 而且
1453 而况
1454 而又
1455 而后
1456 而外
1457 而已
1458 而是
1459 而言
1460 而论
1461 联系
1462 联袂
1463 背地里
1464 背靠背
1465 1466 能否
1467 能够
1468 1469 1470 自个儿
1471 自从
1472 自各儿
1473 自后
1474 自家
1475 自己
1476 自打
1477 自身
1478 1479 1480 至于
1481 至今
1482 至若
1483 1484 般的
1485 良好
1486 1487 若夫
1488 若是
1489 若果
1490 若非
1491 范围
1492 1493 莫不
1494 莫不然
1495 莫如
1496 莫若
1497 莫非
1498 获得
1499 藉以
1500 1501 虽则
1502 虽然
1503 虽说
1504 1505 行为
1506 行动
1507 表明
1508 表示
1509 1510 1511 要不
1512 要不是
1513 要不然
1514 要么
1515 要是
1516 要求
1517 1518 规定
1519 觉得
1520 譬喻
1521 譬如
1522 认为
1523 认真
1524 认识
1525 1526 许多
1527 1528 论说
1529 设使
1530 设或
1531 设若
1532 诚如
1533 诚然
1534 话说
1535 1536 该当
1537 说明
1538 说来
1539 说说
1540 请勿
1541 1542 诸位
1543 诸如
1544 1545 谁人
1546 谁料
1547 谁知
1548 1549 豁然
1550 贼死
1551 赖以
1552 1553 赶快
1554 赶早不赶晚
1555 1556 起先
1557 起初
1558 起头
1559 起来
1560 起见
1561 起首
1562 1563 趁便
1564 趁势
1565 趁早
1566 趁机
1567 趁热
1568 趁着
1569 越是
1570 1571 1572 路经
1573 转动
1574 转变
1575 转贴
1576 轰然
1577 1578 较为
1579 较之
1580 较比
1581 1582 达到
1583 达旦
1584 1585 迅速
1586 1587 过于
1588 过去
1589 过来
1590 运用
1591 1592 近几年来
1593 近年来
1594 近来
1595 1596 还是
1597 还有
1598 还要
1599 1600 这一来
1601 这个
1602 这么
1603 这么些
1604 这么样
1605 这么点儿
1606 这些
1607 这会儿
1608 这儿
1609 这就是说
1610 这时
1611 这样
1612 这次
1613 这点
1614 这种
1615 这般
1616 这边
1617 这里
1618 这麽
1619 进入
1620 进去
1621 进来
1622 进步
1623 进而
1624 进行
1625 1626 连同
1627 连声
1628 连日
1629 连日来
1630 连袂
1631 连连
1632 迟早
1633 迫于
1634 适应
1635 适当
1636 适用
1637 逐步
1638 逐渐
1639 通常
1640 通过
1641 造成
1642 1643 遇到
1644 遭到
1645 遵循
1646 遵照
1647 避免
1648 1649 那个
1650 那么
1651 那么些
1652 那么样
1653 那些
1654 那会儿
1655 那儿
1656 那时
1657 那末
1658 那样
1659 那般
1660 那边
1661 那里
1662 那麽
1663 部分
1664 1665 鄙人
1666 采取
1667 里面
1668 重大
1669 重新
1670 重要
1671 鉴于
1672 针对
1673 长期以来
1674 长此下去
1675 长线
1676 长话短说
1677 问题
1678 间或
1679 防止
1680 1681 附近
1682 陈年
1683 限制
1684 陡然
1685 1686 除了
1687 除却
1688 除去
1689 除外
1690 除开
1691 除此
1692 除此之外
1693 除此以外
1694 除此而外
1695 除非
1696 1697 随后
1698 随时
1699 随着
1700 随著
1701 隔夜
1702 隔日
1703 难得
1704 难怪
1705 难说
1706 难道
1707 难道说
1708 集中
1709 1710 需要
1711 非但
1712 非常
1713 非徒
1714 非得
1715 非特
1716 非独
1717 1718 顶多
1719 1720 顷刻
1721 顷刻之间
1722 顷刻间
1723 1724 顺着
1725 顿时
1726 1727 风雨无阻
1728 1729 首先
1730 马上
1731 高低
1732 高兴
1733 默然
1734 默默地
1735 1736 ︿
1737 1738 1739 1740 1741 1742 1743 1744 1745 )÷(1-
1746 )、
1747 1748 1749 +ξ
1750 ++
1751 1752 ,也
1753 1754 -β
1755 --
1756 -[*]-
1757 1758 1759 1760 0:2
1761 1762 1.
1763 12%
1764 1765 2.3%
1766 1767 1768 1769 5:0
1770 1771 1772 1773 1774 1775 1776 1777 <±
1778 <Δ
1779 <λ
1780 <φ
1781 <<
1782 1783 =″
1784 =☆
1785 =(
1786 =-
1787 =[
1788 ={
1789 1790 >λ
1791 1792 1793 1794 LI
1795 R.L.
1796 ZXFITL
1797 1798 [①①]
1799 [①②]
1800 [①③]
1801 [①④]
1802 [①⑤]
1803 [①⑥]
1804 [①⑦]
1805 [①⑧]
1806 [①⑨]
1807 [①A]
1808 [①B]
1809 [①C]
1810 [①D]
1811 [①E]
1812 [①]
1813 [①a]
1814 [①c]
1815 [①d]
1816 [①e]
1817 [①f]
1818 [①g]
1819 [①h]
1820 [①i]
1821 [①o]
1822 [②
1823 [②①]
1824 [②②]
1825 [②③]
1826 [②④
1827 [②⑤]
1828 [②⑥]
1829 [②⑦]
1830 [②⑧]
1831 [②⑩]
1832 [②B]
1833 [②G]
1834 [②]
1835 [②a]
1836 [②b]
1837 [②c]
1838 [②d]
1839 [②e]
1840 [②f]
1841 [②g]
1842 [②h]
1843 [②i]
1844 [②j]
1845 [③①]
1846 [③⑩]
1847 [③F]
1848 [③]
1849 [③a]
1850 [③b]
1851 [③c]
1852 [③d]
1853 [③e]
1854 [③g]
1855 [③h]
1856 [④]
1857 [④a]
1858 [④b]
1859 [④c]
1860 [④d]
1861 [④e]
1862 [⑤]
1863 [⑤]]
1864 [⑤a]
1865 [⑤b]
1866 [⑤d]
1867 [⑤e]
1868 [⑤f]
1869 [⑥]
1870 [⑦]
1871 [⑧]
1872 [⑨]
1873 [⑩]
1874 [*]
1875 [-
1876 []
1877 1878 ]∧′=[
1879 ][
1880 _
1881 a]
1882 b]
1883 c]
1884 e]
1885 f]
1886 ng昉
1887 1888 {-
1889 1890 1891 }>
1892 1893 ~±
1894 ~+
1895
View Code

二是 分词不准确

像我现在在做微博的分词

有时 迪丽热巴 它会给我分成两个词 而我需要的只是一个迪丽热巴这个姓名

如何分词准确呢 

首推调用用户词典

用户词典实际上就是一个文本文档 

一行有三个值(词语,词频,词性)后两个值是可以省略的

在调用jieba的时候将用户词典加载进去就可以了

具体实现

 1 # ! python3
 2 # -*- coding: utf-8 -*-
 3 # author : yunchao.zhang
 4 import jieba
 5 from collections import Counter
 6 
 7 
 8 # 创建停用词list
 9 def stopwordslist(filepath):
10     stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
11     return stopwords
12 
13 
14 # 对句子进行分词
15 def seg_sentence(sentence):
16     """
17     need txt
18     :param sentence:
19     :return:
20     """
21     jieba.load_userdict('C:\\Users\EDZ\Desktop\FLSJ_FIRST\DICT\\user_dict.txt')
22     sentence_seged = jieba.cut(sentence.strip())
23     stopwords = stopwordslist('C:\\Users\EDZ\Desktop\FLSJ_FIRST\DICT\stopwords.txt')  # 这里加载停用词的路径
24     outstr = []
25     for word in sentence_seged:
26         if word not in stopwords:
27             if word != '\t':
28                 outstr.append(word)
29     return outstr
30 
31 
32 # 对分词进行词频展示
33 def word_frequency(line_seg):
34     """
35     need ['add','add']
36     :param line_seg:
37     :return:
38     """
39     c = Counter()
40     for x in line_seg:
41         if len(x) > 1 and x != '\r\n':
42             c[x] += 1
43     for (k, v) in c.most_common():
44         print('%s%s  %d' % (' ' * (5 - len(k)), k, v))
45 
46 
47 inputs = open('C:\\Users\EDZ\Desktop\福莱数据第一期\data\迪丽热巴.txt', 'r', encoding='utf-8')
48 lines = ""
49 for line in inputs:
50     lines += line.replace("\n", "")
51 inputs.close()
52 line_seg = seg_sentence(lines)  # 这里的返回值是列表
53 word_frequency(line_seg)  # 取词频
View Code

 

 

 

OJBK !!

 

posted on 2018-11-28 14:25  小黑崽  阅读(11137)  评论(0编辑  收藏  举报

导航