咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于机器学习的区域瞪羚企业预判研究及所属产业特征分析 ... 收藏
基于机器学习的区域瞪羚企业预判研究及所属产业特征分析 ...

基于机器学习的区域瞪羚企业预判研究及所属产业特征分析 ——以某国家级新区为例

作     者:石孟之 

作者单位:上海财经大学 

学位级别:硕士

导师姓名:李艳红

授予年度:2020年

学科分类:12[管理学] 1202[管理学-工商管理] 08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程] 

主      题:瞪羚企业 机器学习 产业特征 

摘      要:“瞪羚企业的概念最早由美国麻省理工经济学教授戴维.伯奇和詹姆斯.麦道夫于20世纪90年代提出。它是指大量穿越创业死亡谷的,经历完整初创阶段(雏鹰企业),进入快速发展阶段,并有机会进入行业领袖阶段(独角兽企业),继而发展为成熟稳定的地区和细分领域龙头的企业。 当经济发展壮大到一定阶段,根植性龙头企业在地方经济中充当稳定器的作用。但从实际工作中看,一般来说,此类企业的存在多数情况下只能靠本地培育,如同阿里之于杭州、华为之于深圳。为此,找到“瞪羚企业,将其培育成独角兽、甚至“龙头是地区政府发展地方经济的必然选择之一。 本文将研究的地理边界定位于我国改革开放的先行区,在最近两次经济普查相对详实的数据基础上,利用数据挖掘、机器学习等方法对所研究区域的近10万条企业数据进行分析,建立预判模型并对预判结果进行进一步分析。此举目的在于为地方政府的招商引资、主导产业转型、新兴产业培育等相关工作积累较为科学的、可操作的工作方案,具有相当的实用价值。而对预判结果的进一步梳理研究,也是为先行发展区找到区域成长环境对产业发展的比较优势提供一种新的归纳方法和机制。 本文研究的具体问题主要聚焦在以下几个方面: 首先是基于机器学习的区域瞪羚企业预判研究。目前,国内外对“瞪羚或高成长性企业预测研究大多集中在构建指标体系并打分的方式。本文利用较为成熟的机器学习的理论,基于决策树、逻辑回归、随机森林和支持向量机对既往数据进行学习,并在此基础上,完成对未来区域瞪羚企业的预测和判定。这种做法可以有效避免人为建立评价指标体系和人为设定权重带来的偏差。从预测的角度看,方法较为客观和高效。经过比较,随机森林模型在本文中分类预测效果最佳。 其次是基于文本数据的新指标构建。这是为了解决分类模型改进的问题。本文通过对文本表示技术的研究,利用关键词提取技术,对地方相关的规划、评估和政策文件进行扫描,构建政策行业风向指数指标。随后,将该指标加入原分类预测模型,改进原分类预测模型的分类效果。这种做法的好处在于,其一,创新使用政府相关文本资料,构建出一个新的指标;其二,是对地方政府行政资料的应用探索,将地方政府的政策支持情况数量化,并在模型构建时反映出来;其三,解决了原数据库中文本信息无法有效利用的问题。经过改进,所有分类器的分类预测效果均有所提升,而改进后的随机森林模型是其中最好的分类预测模型。 最后是对实证结果的分析。利用改进后的随机森林模型对所研究区域2019年的规模以上企业数据进行分类预测,模型预判出约6344家企业将来有可能成为“瞪羚企业。本文从行业、体量、效益、设立时间、注册类型、地域分布等多个方面对预判结果进行描述性分析。此外,由于在这包含六千多家企业的数据库中有许多数字信息,也有如“主要业务描述等短文本信息。为进一步提升分析的效果,本文尝试通过文本聚类技术对短文本信息进行挖掘,从而克服文本信息不易观测和描述的困难。本文运用的是k-均值聚类算法,最后输出8个分类,具体为:汽车产业、房地产业、高端装备制造业、贸易业、建筑业、专业服务业、资本市场服务业和航运业。此结果说明,所研究区域未来的瞪羚企业极有可能在这些领域出现。随后,结合数据库中的其他信息和所研究区域实际的发展环境,在这些具体领域中,本文提出有关促进“瞪羚企业快速成长的政策建议和思考。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分