1.3 体验TensorFlow文本分类
以文本分类这个经典问题来体验TensorFlow。
1.3.1 安装TensorFlow
这里介绍在Linux操作系统下安装TensorFlow。当前推荐使用Ubuntu发行版本。
当用户最终让自己的Linux操作系统正常运行以后,请打开一个终端并安装一些必要的软件。
git:分布式版本控制系统。
wget:使用HTTP、HTTPS和FTP协议进行数据传输。
必须安装的软件包括:
awk:编程语言,用于搜索和处理文件和数据流中的模式。
bash:UNIX Shell和脚本编程语言。
grep:逐行处理文本并打印与指定模式匹配的任何行。
make:从源代码自动构建可执行程序和库。
bazel:从源代码自动构建TensorFlow可执行程序和库。
perl:动态编程语言,非常适合文本文件处理。
例如,安装git可以用如下的命令。
#apt-get install git
要仅为在CPU上使用而安装当前版本:
#pip install tensorflow
如果要使用支持CUDA的GPU卡,则安装TensorFlow的GPU版本:
#pip install tensorflow-gpu
在交互式环境测试TensorFlow:
使用函数tf.nn.softmax()测试Tensorflow。例如,有一个4维的向量。-1是最低值,3是最高值。这些值都归一化为0~1的数值。
softmax是逻辑函数的推广,softmax将任意实数值的K维向量“压缩”到[0,1]区间的实数值的K维向量,向量中的元素值加起来为1。
如果TensorFlow依赖的numpy出错,则可以考虑先卸载numpy,然后重新安装Tensorflow。
可以使用交互式会话测试Tensorflow:
1.3.2 实现文本分类
在训练文本分类模型之前,必须先准备数据。可以创建一个简单的JSON文件来保存训练所需的数据。
以下是示例JSON训练的数据文件,其中包含5个类别。
数据加载和预处理:
构建一个简单的深度神经网络,并用它来训练模型。
使用下面的代码测试神经网络文本分类Python模型。