第二阶段:冲刺8(实现分词)

老师说要按照头条的来,能够推用户喜欢的东西,得用到机器学习。都快期末了,着急复习呢,机器学习是不可能了。因为之前做个一个分词的项目,所以考虑通过把文本分词,然后提炼出经常出现的,来概括这个文章的意思。

效果图如下:

from jieba.analyse import *
from lxml import etree
from pymysql import connect
import requests
import jieba

    # 保存数据
def getData():
    # 打开数据库连接(ip/数据库用户名/登录密码/数据库名)
    con = connect("localhost", "root", "root", "news")
    # 使用 cursor() 方法创建一个游标对象 cursor
    cursors = con.cursor()
    # 使用 execute()  方法执行 SQL 查询 返回的是你影响的行数
    row = cursors.execute("select * from newslist ")
    # 使用 fetchone() 方法获取数据.
    result = cursors.fetchall()
    keyWord = []
    for news in result:
        str = ''
        for keyword, weight in extract_tags(news[6].strip(), topK=5, withWeight=True):
            if(keyword.isdigit() != True):
                str += keyword+" "
        keyWord.append(str)
    con.commit()
    # 关闭数据库连接(别忘了)
    print(keyWord)
    con.close()
    #
    #     guanjian += keyword+" "
if __name__ == '__main__':
    getData()
posted @ 2020-05-18 18:31  littlemelon  阅读(163)  评论(1编辑  收藏  举报