博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【语言处理与Python】2.1获取文本语料库
阅读量:4918 次
发布时间:2019-06-11

本文共 1762 字,大约阅读时间需要 5 分钟。

古藤堡语料库(电子文本档案经过挑选的一小部分文本)

#语料库中所有的文件

Import nltkNltk.corpus.gutenberg.fileids() From nltk.corpus import GutenbergGutenberg.fileids()Emma=Gutenberg.words(‘austen-emma.txt’)

 

#挑选其中的某一部著作进行操作

Emma=nltk.corpus.gutenberg.words(‘austen-emma.txt’)Num_chars=len(Gutenberg.raw(fileid))Num_words=len(Gutenberg.words(fileid))Num_sents=len(Gutenberg.sents(fileid))Num_vocab=len(set([w.lower() for w in Gutenberg.words(fileid)]))

 

 

网络和聊天文本

From nltk.corpus import webtextFrom nltk.corpus import nps_chat

 

 

布朗语料库

 

#对布朗语料库的一些操作:

From nltk.corpus import brownBrown.categories()#语料库的一些分类Brown.words(categories=’news’)#访问某一文体的单词Brown.words(fields=[‘cg22’])Brown.sents(categories=[‘news’,’editorial’,’reviews’])#使用条件频率分布做一些统计Cfd=nltk.ConditionalFreqdist((genre,word)For genre in brown.categories()For word in brown.words(categories=genre))Genres=[‘news’,’religion’,’hobbies’,’science_fiction’,’’romance’,’humor’]Modals=[‘can’,’could’,’may’,’might’,’must’m’will’]Cfd.tabulate(conditions=generes,samples=modals)

 

 

路透社语料库(新闻文档,分成了90个主题,按照训练和测试分为两组)

就职演说语料库

#使用条件分布做一些统计工作Cfd=nltk.ConditionalFreqdist((target,fileid[:4])For fileid in inaugural.fileids()For w in inaugural.words(fileid)For target in [‘america’,’citizen’]If  w.lower().startswith(target))Cfd.plot()

 

 

标注文本语料库(含有语言学标注,词性标注、命名实体、句法结构、语义角色等)

在其他语言的语料库

文本语料库的结构

 

 

载入自己的语料库

#在一些地方可以用匹配符号From nltk.corpus import PlaintextCorpusReaderCorpus_root=’/usr/share/dict’Wordlists=PlaintextCorpusReader(corpus_root,’.*’)Wordlists.fileids()Wordlists.words(‘connectives’)#在硬盘上的语料库From nltk.corpus import BracketParseCorpusReaderCorpus_root=r”C:\corpura\penntreebank\parsed\mrg\wsj”File_pattern=r”.*/wsj_.*\.mrg”Ptb=BracketParseCorpusReader(corpus_root,file_pattern)Ptb.fileids()

 

转载于:https://www.cnblogs.com/createMoMo/archive/2013/05/22/3092558.html

你可能感兴趣的文章
RocketMQ整理
查看>>
Spring框架整理
查看>>
HashMap 1.8 核心源码分析
查看>>
Redis中3种特殊的数据类型
查看>>
算法:通过堆排序,获取前N个最大数
查看>>
c#/netcore/mvc视图中调用控制器方法
查看>>
c# 匿名类型获取值
查看>>
Windows安装使用npm(Nodejs)
查看>>
小技巧
查看>>
position 定位属性,对div进行位置布局
查看>>
模板语法标签继承关系
查看>>
overflow,overflow-x,overflow-y 用法
查看>>
css3中的calc()
查看>>
DJango ORM相关笔记
查看>>
Django模板,变量,标签,过滤器,自定义标签过滤器
查看>>
Django-forms效验组件
查看>>
python装饰器
查看>>
npm常用命令
查看>>
python常用模块-re 正则表达式
查看>>
Django-Form组件之字段
查看>>