各位师生:
“文数·财经文本分析平台”是数行者科技(Datago)秉承“文本即数据(Text as Data)”的理念研发的一款中文财经文本的垂直文本检索与数据分析平台。该平台覆盖了关于中国资本市场特别是A股市场的新闻,社交媒体讨论,投资者活动及记录,公告与年报,分析师研报等不同来源的海量文本数据,并在通过Datago所构建的分布式大数据处理架构和业界领先的机器学习和自然语言处理模型进行清理、分析和汇总统计后,以结构化表格的方式输出丰富易用的文本分析指标。
商学院图书馆现组织为我院师生开通试用,试用详情请见附件。
商学院图书馆
2023年3月10日
【附件】:
1. 数据库介绍
“文数·财经文本分析平台”是数行者科技(Datago)秉承“文本即数据(Text as Data)”的理念所研发的中文财经文本的垂直文本检索与数据分析平台。本平台覆盖了关于中国资本市场特别是A股市场的新闻,社交媒体讨论,投资者活动及记录,公告与年报,分析师研报等不同来源的海量文本数据,并在通过Datago所构建的分布式大数据处理架构和业界领先的机器学习和自然语言处理模型进行清理、分析和汇总统计后,以结构化表格的方式输出丰富易用的文本分析指标。
本平台的特色文本分析指标包括量化情感评分、相关上市公司以及相关程度评分、话题,可读性和相似度等。支持用户针对自己的研究课题通过构建检索词(或者复杂的检索逻辑)在海量文本中方便地检索出所需要的文本,并即时关联本平台所提供的丰富量化文本分析指标,从而能轻松逾越大数据和机器学习等技术障碍,迅速便利地开展基于财经文本数据的学术研究或者实务工作。
此外,本平台还提供基于包括深度学习模型和优秀学术论文所实现的常见文本分析工具,比如情感分析,可读性分析,相似词扩展等,帮助用户处理自有的文本数据。
2. 数据库特色
1)全面的数据覆盖。覆盖了超过20年关于中国资本市场特别是A股市场的新闻,社交媒体讨论,投资者活动及记录,公告与年报,分析师研报等不同来源的数十亿海量文本数据;
2)专注于中文财经文本的文本分析算法。本平台所采用的文本分析算法均专门针对中文财经文本构建和优化。相对于英文文本,面向中文财经文本的分析算法类似于情感分析、可读性分析等均面临很多额外的挑战。本平台除了专门设计和优化针对中文财经的文本分析算法外,还构建了上百万条人工标注并交叉核验后的中文财经领域语料用于训练其中的机器学习模型,最终以量化指标输出相关文本分析结果;
3)强大的检索引擎和多维度关键词分析功能。本平台的文本检索功能不仅支持简单的关键词搜索,还支持有需要的用户制定包括黑名单和逻辑组合的复杂检索条件,或者批量检索大量关键词;
4)支持用户定制自有文本分析数据 。平台提供基于包括深度学习模型和优秀学术论文所实现的常见文本分析工具,比如情感分析,可读性分析,相似词扩展等,帮助用户自主定制自有的文本数据;
5)专业严谨的数据加工和质检流程。以香港中文大学、美国斯坦福大学和南加州大学等高校教授的前沿学术研究为指导,对海量文本进行了严谨的清理和分析加工,相关文本数据产品已被国内外的头部对冲基金和国际顶尖期刊论文广泛应用。
3. 数据来源
数据来源于上市公司披露的年报等文本或者新闻报道等其他公开数据,来源合法且无知识产权纠纷。
4. 试用方式
个人须使用南京大学邮箱注册账号,须在南京大学校园IP范围内使用数据服务。支持VPN访问,无并发限制。
数据库网址:https://www.datagotext.com/
5. 试用时间
“报刊新闻”和“年报”模块:即日起至2024年3月1日;
“网络新闻”、“股吧”、“雪球”等模块:即日起至2023年8月31日。
6. 试用权限
1)服务权限:
针对现有五大模块“报刊新闻”、“年报”、“网络新闻”、“股吧”、“雪球”及其他试用期间新上线的模块,享有全部访问、检索和下载权限。试用权限与正式用户相同,不受限制。
2)数据更新:
“报刊新闻”、“网络新闻”、“股吧”、“雪球”等模块:每季度更新;
“年报”模块:年度更新。
7. 问题咨询方式
客户经理: 张经理
电话:18028779797
邮箱:janezhang@datago.com.hk
公司服务微信:Datago_service