一、测算方式:参考C刊《当代财经》耿景珠(2023)老师的做法,使用杜明威等(2022)在机器学习下的词频-逆文本频率(TF-IDF)方法,以期更为精确地刻画中国企业数字赋能情况。具体计算公式如下图。本文将关键词w的逆文本频率(IDF)作为权重,lnNtnt (w)+ ( ) 1 [ ]代表在第t年包含关键词w的年报中w的逆文本频率,Nt表示本文搜集的第t年上市公司年报总数,nt(w)则代表第t年包含关键词w的年报数量。在此思路下,若关键词w仅出现在少数上市公司的年报当中,则关键词w的IDF越高,也意味着此类数字技术具有较高的差异化特征,反之亦然,具体如下图所示
二、资料范围:6万多个样本,5598家企业,包括原始数据词频、计算代码和最终计算结果,大家可以验证一下确保准确性!
三、参考文献:
耿景珠,杜明威,刘文革.企业数字赋能与全球价值链嵌入[J].当代财经,2023,(08):122-133.DOI:10.13676/j.cnki.cn36-1030/f.2023.08.005.5
四、包含内容:
五、部分数据:
六、全部内容下载链接(原始数据+计算代码+处理结果+参考文献):https://download.csdn.net/download/li514006030/90234794