欢迎来到北京海天瑞声科技股份有限公司-海天瑞声      联系电话:010-62660053  电子邮件:contact@speechocean.com

English

新闻资讯>详情

香港粤语文本语料库

 

数据库名称:香港粤语文本语料库

数据库代码:King-NLP-015

数据库大小:60GB

保存格式: XML文本,UTF8编码

该数据来源于互联网公开渠道,涵盖了人们日常生活中常见的各种情境、话题和应用,由“海天瑞声”进行数据清洗和去重处理。

数据概况:

所有数据源都经过Native一一筛选,分为不同的领域,包括:

> 特定领域:主要是指消息类、娱乐类、财经类、知识问答类、生活服务类、导航类、搜索类等等。

> 通用领域:指互联网上除特定领域文本以外的其他类型的文本,主要指门户网站、新闻网站、政府网站等。

数据爬取:对筛选后的网站的特定领域进行分块爬取,从源头上去掉网站中与主体不相关的内容,以保证数据的质量。

数据去重与清洗:数据抓取完之后,去掉html标签和非法字符,然后对数据进行分段处理,以段落为单元进行去重。

格式化:对所有去重清洗后的数据进行格式化存储,并以xml格式保存,字段包括:title(标题),content(内容),url(网址)。

移除
点击此处添加图片说明文字

更新时间:2018-05-24

相关文章