首页 体坛最新分析 正文

Redditor❼站关于2020年欧洲杯的帖子和评论 - 知乎

admin头像 admin 体坛最新分析 2024-05-18 07:05:04 49
导读:作者|JimMengKok编译|VK来源|TowardsDataScience原文链接:距离在伦敦温布利体育场举行的意大利和英格兰2020年欧洲杯决赛结束已有近两个...

Redditor❼站关于2020年欧洲杯的帖子和评论 - 知乎

作者|Jim Meng Kok编译|VK来源|Towards Data Science原文链接: 距离在伦敦温布利体育场举行的意大利和英格兰2020年欧洲杯决赛结束已有近两个月了。足球热正在慢慢消退,但最近的2022年国际足联世界杯预选赛吸引了我的注意力和兴趣,让我审视人们对2020年欧洲杯的看法。因此,我利用了一个Kaggle数据集,其中包含Redditor讨论2020年欧洲杯的帖子。 这个小练习的资源可以在我的GitHub上找到,其中包括数据集和Python笔记本文件。 LDA是一种主题模型技术,它假设文档是由多个主题混合生成的,这些主题根据其概率分布生成单词。它还构建了每个文档的主题模型和每个主题的单词模型。 因此,在数据预处理过程中涉及到以下内容:处理空数据:标题和正文列是唯一用文本填充的列。但是,body列中有许多空数据。因此,这些空数据被占位符“NaN”填充,稍后将被删除。这样,由于将标题列和正文列连接在一起,就形成了一个新的列text。 小写转换:将文本列中的所有文本转换为小写是必要的,因为这有利于向量化。 标点删除:使用正则表达式(Regex)删除标点。 数字删除:使用正则表达式删除了数字。 停用词删除:通过使用NLTK库以及在定制的停用词列表中添加常见的无关词,如“comment”和“nan”,停用词被删除。 词形还原:将有助于保留文字信息含义的词语规范化,以便于向量化。 分句和分词:将文本拆分为句子,并将句子拆分为单词。 NLTK的停用词: 在继续使用LDA进行主题模型之前,向量化(vectorisation)旨在构建词典和语料库(单词包),并应用于标记化和词形还原单词。 在词袋(bow)中,Gensim库为文档中的每个单词及其词频创建了唯一标识符。 要启动LDA过程,需要指定数据集中的主题数量。因此,我将最小主题数设置为4,最大主题数设置为24。 基于上述结果和连贯性分数的可视化,指定的最佳主题数为12个主题。 一个好的模型包含低困惑度和高主题连贯性。以下结果表明,所建模型符合标准。 该模型的输出显示了12个主题,每个主题都按单词分类。 由于LDA不提供每个主题的主题,下面是输出以及我对每个主题所属主题的推断。 基于上述分析,我们可以得出以下结论:Reddit用户对2020年欧洲杯感兴趣:意大利和英格兰之间的决赛 英格兰队及其表现 围绕英格兰队及其球迷的有争议的新闻 涉及英格兰、意大利、西班牙和比利时的比赛 比利时球员——凯文·德·布吕恩和伊登·哈扎德(或者是后者的兄弟托根·哈扎德!) 参考引用Bansal, S. (2016). Beginners Guide to Topic Modeling in Python. Analytics Vidhya. August 24. Retrieved from D. M., Ng, A. Y., & Jordan, M., I. (2016). Latent Dirichlet Allocation. Journal of Machine Learning Research 3 (2003) 993–1022. Retrieved from (2020). Removing stop words with NLTK in Python. November 24. Retrieved from
本文地址:https://tktzym.com/post/7920.html
若非特殊说明,文章均属本站原创,转载请注明原链接。

退出请按Esc键