百度PaddlePaddle >>> 6. (PaddleHub/VGG神经网络)多方式实现口罩识别

在这里插入图片描述

前言

这段时间接触了百度PaddlePaddle 平台,感觉蛮有趣的,然后现在分享一个关于利用PaddlePaddle 进行口罩识别的小项目

我介绍两种进行口罩识别的方法,分别是

1. 使用PaddleHub 的预训练模型:

预训练模型:pyramidbox_lite_mobile_mask

2. 使用VGG卷积神经网络训练模型。

在这里插入图片描述

一、使用PaddleHub 的预训练模型

1. 准备工作

在开始进行口罩识别之前,我们需要先在安装好如下python模块:

  1. paddlehub;
  2. cv2;

①. paddlehub

简介:
paddlehub便捷地获取PaddlePaddle生态下的预训练模型,完成模型的管理和一键预测。配合使用Fine-tune API,可以基于大规模预训练模型快速完成迁移学习,让预训练模型能更好地服务于用户特定场景的应用。

作用:
我们需要用到paddlehub 来下载进行口罩识别的预训练模型。

安装:

pip install paddlehub==1.6.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

注意:我安装的是1.6.0版本,大家进行安装时可将其更换至最高版本

②. cv2

简介:
OpenCV,图像处理库。

作用:
用来加载图像,编辑图像以及保存图像等。

安装(很简单):
《Windows下安装OpenCV》

pip install opencv-python

在这里插入图片描述

2. 开始

①. 加载模型

加载口罩识别预训练模型,"pyramidbox_lite_mobile_mask"

注意test_img_path不能有中文,否则报错

import paddlehub as hub
import cv2 as cv

# 颜色定义
Green_Color = (0, 255, 0)
Red_Color = (0, 0, 255)
# 待识别图像路径
test_img_path = "C:/Users/waao_wuyou/Desktop/mask_pic/mask7.jpg"
# 识别并标注成功的图像的保存路径
write_path = "C:/Users/waao_wuyou/Desktop/mask_pic/mask_.jpg"

# 加载模型
module = hub.Module(name="pyramidbox_lite_mobile_mask")

②. 先定义一个画方框的方法

在这个方法中,我们使用OpenCV 进行绘图操作,分别根据方框的四个角的坐标,和需要标注的标签,以及确信度进行绘制。

# 标注人脸
def draw_rectangle(top_left_p, top_right_p, bottom_left_p, bottom_right_p, label, confidence):
    if str(label) == "NO MASK":
        COLOR = Red_Color
    else:
        COLOR = Green_Color
    cv.line(img, top_left_p, top_right_p, COLOR, 3)
    cv.line(img, top_left_p, bottom_left_p, COLOR, 3)
    cv.line(img, bottom_left_p, bottom_right_p, COLOR, 3)
    cv.line(img, top_right_p, bottom_right_p, COLOR, 3)
    cv.putText(img, label, (top_left_p[0], top_left_p[1]-18), cv.FONT_HERSHEY_PLAIN, 2, COLOR, 2)
    cv.putText(img, confidence, (top_left_p[0]+150, top_left_p[1]-18), cv.FONT_HERSHEY_PLAIN, 2, COLOR, 2)

③. 载入图像并检测

调用face_detection() 方法。然后从输出结果中将人脸方框四个角坐标找出

img = cv.imread(test_img_path)
# set input dict
input_dict = {"data": [img]}
# 开始检测
# results = module.face_detection(data=input_dict, use_multi_scale=True, shrink=0.6,)
results = module.face_detection(data=input_dict)
for result in results:
    print(result)

输出结果为:

{'data': {'label': 'MASK', 'left': 1107.0652084350586, 'right': 1316.0019035339355, 'top': 1270.9151401519775, 'bottom': 1518.1131191253662, 'confidence': 0.99162537}, 'id': 1}

在这里插入图片描述

④. 查找位点并绘制保存

从刚刚获得的输出结果中找到所有位点,并标注图像,最后保存。

# 从检测结果中把关键点位找出
top_left_p = (int(result['data']['left']), int(result['data']['top']))
top_right_p = (int(result['data']['right']), int(result['data']['top']))
bottom_left_p = (int(result['data']['left']), int(result['data']['bottom']))
bottom_right_p = (int(result['data']['right']), int(result['data']['bottom']))
# 标注图像
draw_rectangle(top_left_p, top_right_p, bottom_left_p, bottom_right_p, result['data']['label'], "%0.3f" % result['data']['confidence'])
# 保存图像
cv.imwrite(write_path, img)

在这里插入图片描述

3. 结果

在这里插入图片描述 在这里插入图片描述
可以看到还是可以的!😃

在这里插入图片描述

4. 保存模型

我再介绍一下如何将这个预训练模型保存至本地:

module = hub.Module(name="pyramidbox_lite_mobile_mask")
# 将模型保存在test_program文件夹之中
module.processor.save_inference_model(dirname="C:/Users/waao_wuyou/Desktop/mask_pic/test_program")

在这里插入图片描述

二、搭建VGG神经网络训练模型

VGG 神经网络:
由于发现深层次的小卷积核训练效果优于大卷积核,故VGG强调模型卷积核的

经典的VGG 神经网络有16层、19层等,也就是VGG-16VGG-19

1. 数据准备

前面说的使用PaddleHub 的预训练模型的方法,可以不用进行训练直接使用。

而现在我们打算搭建VGG 神经网络训练一个口罩识别的模型出来,则需要进行大量的数据训练,这是数据集:



步骤:

  1. 解压原始数据集;
import os
import zipfile
import random
import json
import paddle
import sys
import numpy as np
from PIL import Image
from PIL import ImageEnhance
import paddle.fluid as fluid
from multiprocessing import cpu_count
import matplotlib.pyplot as plt
from paddle.fluid.dygraph import Pool2D,Conv2D
from paddle.fluid.dygraph import Linear

'''
参数配置
'''
train_parameters = {
    "input_size": [3, 224, 224],                              #输入图片的shape
    "class_dim": -1,                                          #分类数
    "src_path":"/home/aistudio/work/maskDetect.zip",#原始数据集路径
    "target_path":"/home/aistudio/data/",                     #要解压的路径
    "train_list_path": "/home/aistudio/data/train.txt",       #train.txt路径
    "eval_list_path": "/home/aistudio/data/eval.txt",         #eval.txt路径
    "readme_path": "/home/aistudio/data/readme.json",         #readme.json路径
    "label_dict":{},                                          #标签字典
    "num_epochs": 140,                                         #训练轮数
    "train_batch_size": 64,                                    #训练时每个批次的大小
    "learning_strategy": {                                    #优化函数相关的配置
        "lr": 0.001                                          #超参数学习率
    } 
}

def unzip_data(src_path,target_path):
    '''
    解压原始数据集,将src_path路径下的zip包解压至data目录下
    '''
    if(not os.path.isdir(target_path + "maskDetect")):     
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path=target_path)
        z.close()
  1. 按照比例划分训练集与验证集;
def get_data_list(target_path,train_list_path,eval_list_path):
    '''
    生成数据列表
    '''
    #存放所有类别的信息
    class_detail = []
    #获取所有类别保存的文件夹名称
    data_list_path=target_path+"maskDetect/"
    class_dirs = os.listdir(data_list_path)  
    #总的图像数量
    all_class_images = 0
    #存放类别标签
    class_label=0
    #存放类别数目
    class_dim = 0
    #存储要写进eval.txt和train.txt中的内容
    trainer_list=[]
    eval_list=[]
    #读取每个类别,['maskimages', 'nomaskimages']
    for class_dir in class_dirs:
        if class_dir != ".DS_Store":
            class_dim += 1
            #每个类别的信息
            class_detail_list = {}
            eval_sum = 0
            trainer_sum = 0
            #统计每个类别有多少张图片
            class_sum = 0
            #获取类别路径 
            path = data_list_path  + class_dir
            # 获取所有图片
            img_paths = os.listdir(path)
            for img_path in img_paths:                                  # 遍历文件夹下的每个图片
                name_path = path + '/' + img_path                       # 每张图片的路径
                if class_sum % 10 == 0:                                 # 每10张图片取一个做验证数据
                    eval_sum += 1                                       # test_sum为测试数据的数目
                    eval_list.append(name_path + "\t%d" % class_label + "\n")
                else:
                    trainer_sum += 1 
                    trainer_list.append(name_path + "\t%d" % class_label + "\n")#trainer_sum测试数据的数目
                class_sum += 1                                          #每类图片的数目
                all_class_images += 1                                   #所有类图片的数目
             
            # 说明的json文件的class_detail数据
            class_detail_list['class_name'] = class_dir             #类别名称,如jiangwen
            class_detail_list['class_label'] = class_label          #类别标签
            class_detail_list['class_eval_images'] = eval_sum       #该类数据的测试集数目
            class_detail_list['class_trainer_images'] = trainer_sum #该类数据的训练集数目
            class_detail.append(class_detail_list)  
            #初始化标签列表
            train_parameters['label_dict'][str(class_label)] = class_dir
            class_label += 1 
            
    #初始化分类数
    train_parameters['class_dim'] = class_dim
  1. 乱序,生成数据列表;
    #乱序  
    random.shuffle(eval_list)
    with open(eval_list_path, 'a') as f:
        for eval_image in eval_list:
            f.write(eval_image) 
            
    random.shuffle(trainer_list)
    with open(train_list_path, 'a') as f2:
        for train_image in trainer_list:
            f2.write(train_image) 

    # 说明的json文件信息
    readjson = {}
    readjson['all_class_name'] = data_list_path                  #文件父目录
    readjson['all_class_images'] = all_class_images
    readjson['class_detail'] = class_detail
    jsons = json.dumps(readjson, sort_keys=True, indent=4, separators=(',', ': '))
    with open(train_parameters['readme_path'],'w') as f:
        f.write(jsons)
    print ('生成数据列表完成!')
  1. 构造训练数据集提供器和验证数据集提供器;
def custom_reader(file_list):
    '''
    自定义reader
    '''
    def reader():
        with open(file_list, 'r') as f:
            lines = [line.strip() for line in f]
            for line in lines:
                img_path, lab = line.strip().split('\t')
                img = Image.open(img_path) 
                if img.mode != 'RGB': 
                    img = img.convert('RGB') 
                img = img.resize((224, 224), Image.BILINEAR)
                img = np.array(img).astype('float32') 
                img = img.transpose((2, 0, 1))  # HWC to CHW 
                img = img/255                # 像素值归一化 
                yield img, int(lab) 
    return reader

'''
参数初始化
'''
src_path=train_parameters['src_path']
target_path=train_parameters['target_path']
train_list_path=train_parameters['train_list_path']
eval_list_path=train_parameters['eval_list_path']
batch_size=train_parameters['train_batch_size']

'''
解压原始数据到指定路径
'''
unzip_data(src_path,target_path)

'''
划分训练集与验证集,乱序,生成数据列表
'''
#每次生成数据列表前,首先清空train.txt和eval.txt
with open(train_list_path, 'w') as f: 
    f.seek(0)
    f.truncate() 
with open(eval_list_path, 'w') as f: 
    f.seek(0)
    f.truncate() 
#生成数据列表   
get_data_list(target_path,train_list_path,eval_list_path)

'''
构造数据提供器
'''
train_reader = paddle.batch(custom_reader(train_list_path),
                            batch_size=batch_size,
                            drop_last=True)
eval_reader = paddle.batch(custom_reader(eval_list_path),
                            batch_size=18,
                            drop_last=True)

在这里插入图片描述

2. 模型配置

在这里,我们配置一个VGG-16 的网络结构。
在这里插入图片描述

VGG的核心是五组卷积操作,每两组之间做Max-Pooling空间降维。同一组内采用多次连续的3X3卷积,卷积核的数目由较浅组的64增多到最深组的512,同一组内的卷积核数目是一样的。卷积之后接两层全连接层,之后是分类层。由于每组内卷积层的不同,有11、13、16、19层这几种模型,上图展示一个16层的网络结构。

先定义一个用于构造网络的方法:

class ConvPool(fluid.dygraph.Layer):
    '''卷积+池化'''
    def __init__(self,
                 num_channels,
                 num_filters,
                 filter_size,
                 pool_size,
                 pool_stride,
                 groups,
                 pool_padding=0,
                 pool_type='max',
                 conv_stride=1,
                 conv_padding=0,
                 act=None):
        super(ConvPool, self).__init__()  

        self._conv2d_list = []

        for i in range(groups):
            conv2d = self.add_sublayer(   #返回一个由所有子层组成的列表。
                'bb_%d' % i,
                fluid.dygraph.Conv2D(
                num_channels=num_channels, #通道数
                num_filters=num_filters,   #卷积核个数
                filter_size=filter_size,   #卷积核大小
                stride=conv_stride,        #步长
                padding=conv_padding,      #padding大小,默认为0
                act=act)
            )
            num_channels = num_filters
            self._conv2d_list.append(conv2d)   

        self._pool2d = fluid.dygraph.Pool2D(
            pool_size=pool_size,           #池化核大小
            pool_type=pool_type,           #池化类型,默认是最大池化
            pool_stride=pool_stride,       #池化步长
            pool_padding=pool_padding      #填充大小
            )

    def forward(self, inputs):
        x = inputs
        for conv in self._conv2d_list:
            x = conv(x)
        x = self._pool2d(x)
        return x

构造网络:

class VGGNet(fluid.dygraph.Layer):
    '''
    VGG网络
    '''
    def __init__(self):
        super(VGGNet, self).__init__()

        self.convpool1 = ConvPool(3, 64, 3, 2, 2, 2, conv_padding=1, act="relu")
        self.convpool2 = ConvPool(64, 128, 3, 2, 2, 2, conv_padding=1, act="relu")
        self.convpool3 = ConvPool(128, 256, 3, 2, 2, 3, conv_padding=1, act="relu")
        self.convpool4 = ConvPool(256, 512, 3, 2, 2, 3, conv_padding=1, act="relu")
        self.convpool5 = ConvPool(512, 512, 3, 2, 2, 3, conv_padding=1, act="relu")
        
        self.pool_5_shape = 512 * 7 * 7
        self.fc1 = Linear(self.pool_5_shape, output_dim=4096, act='relu')
        self.fc2 = Linear(input_dim=4096, output_dim=4096, act='relu')
        self.fc3 = Linear(input_dim=4096, output_dim=2, act='softmax')
        
    def forward(self, inputs, label=None):
        """前向计算"""
        out = self.convpool1(inputs)
        out = self.convpool2(out)
        out = self.convpool3(out)
        out = self.convpool4(out)
        out = self.convpool5(out)

        out = fluid.layers.reshape(out, shape=[-1, 512*7*7])
        out = self.fc1(out)
        out = self.fc2(out)
        out = self.fc3(out)

        if label is not None:
            acc = fluid.layers.accuracy(input=out, label=label)
            return out, acc
        else:
            return out

在这里插入图片描述

3. 模型训练

all_train_iter=0
all_train_iters=[]
all_train_costs=[]
all_train_accs=[]

def draw_train_process(title,iters,costs,accs,label_cost,lable_acc):
    plt.title(title, fontsize=24)
    plt.xlabel("iter", fontsize=20)
    plt.ylabel("cost/acc", fontsize=20)
    plt.plot(iters, costs,color='red',label=label_cost) 
    plt.plot(iters, accs,color='green',label=lable_acc) 
    plt.legend()
    plt.grid()
    plt.show()


def draw_process(title,color,iters,data,label):
    plt.title(title, fontsize=24)
    plt.xlabel("iter", fontsize=20)
    plt.ylabel(label, fontsize=20)
    plt.plot(iters, data,color=color,label=label) 
    plt.legend()
    plt.grid()
    plt.show()
'''
模型训练
'''
#with fluid.dygraph.guard(place = fluid.CUDAPlace(0)):
with fluid.dygraph.guard():
    print(train_parameters['class_dim'])
    print(train_parameters['label_dict'])
    vgg = VGGNet()
    optimizer=fluid.optimizer.AdamOptimizer(learning_rate=train_parameters['learning_strategy']['lr'],parameter_list=vgg.parameters()) 
    # opt=fluid.optimizer.SGDOptimizer(learning_rate=0.01, parameter_list=vgg.parameters())#优化器选用SGD随机梯度下降,学习率为0.01.
    for epoch_num in range(train_parameters['num_epochs']):
        # if epoch_num < 40:
        #     learning_rate1 = 0.08
        # elif 40 <= epoch_num < 80:
        #     learning_rate1 = 0.01
        # else:
        #     learning_rate1 = 0.001
        # optimizer=fluid.optimizer.AdamOptimizer(learning_rate=learning_rate1,parameter_list=vgg.parameters()) 
        # auto_rate = paddle.fluid.layers.piecewise_decay([40, 80], [0.05, 0.01, 0.001])
        # optimizer=fluid.optimizer.AdamOptimizer(learning_rate=auto_rate, parameter_list=vgg.parameters()) 
        # opt=fluid.optimizer.SGDOptimizer(learning_rate=auto_rate, parameter_list=vgg.parameters())
        for batch_id, data in enumerate(train_reader()):
            dy_x_data = np.array([x[0] for x in data]).astype('float32')           
            y_data = np.array([x[1] for x in data]).astype('int64')      
            y_data = y_data[:, np.newaxis]

            #将Numpy转换为DyGraph接收的输入
            img = fluid.dygraph.to_variable(dy_x_data)
            label = fluid.dygraph.to_variable(y_data)

            out, acc = vgg(img,label)
            loss = fluid.layers.cross_entropy(out, label)
            avg_loss = fluid.layers.mean(loss)

            #使用backward()方法可以执行反向网络
            avg_loss.backward()
            optimizer.minimize(avg_loss)
            
            #将参数梯度清零以保证下一轮训练的正确性
            vgg.clear_gradients()

            all_train_iter=all_train_iter+train_parameters['train_batch_size']
            all_train_iters.append(all_train_iter)
            all_train_costs.append(loss.numpy()[0])
            all_train_accs.append(acc.numpy()[0])
                
            if batch_id % 1 == 0:
                print("Loss at epoch: {} step: {} avg_loss: {}, acc: {}".format(epoch_num, batch_id, avg_loss.numpy(), acc.numpy()))

    draw_train_process("training",all_train_iters,all_train_costs,all_train_accs,"trainning cost","trainning acc")  
    draw_process("trainning loss","red",all_train_iters,all_train_costs,"trainning loss")
    draw_process("trainning acc","green",all_train_iters,all_train_accs,"trainning acc")  
    
    #保存模型参数
    fluid.save_dygraph(vgg.state_dict(), "vgg")   
    print("Final loss: {}".format(avg_loss.numpy()))

最后效果(loss接近0,acc接近1):
在这里插入图片描述
在这里插入图片描述

4. 模型评估:

'''
模型评估
'''
with fluid.dygraph.guard():
    model, _ = fluid.load_dygraph("vgg")
    vgg = VGGNet()
    vgg.load_dict(model)
    vgg.eval()
    accs = []
    for batch_id, data in enumerate(eval_reader()):
        dy_x_data = np.array([x[0] for x in data]).astype('float32')
        y_data = np.array([x[1] for x in data]).astype('int')
        y_data = y_data[:, np.newaxis]
        
        img = fluid.dygraph.to_variable(dy_x_data)
        label = fluid.dygraph.to_variable(y_data)

        out= vgg(img)

        acc=fluid.layers.accuracy(out,label)#计算精度
        
        lab = np.argsort(out.numpy())
        accs.append(acc.numpy()[0])
print(np.mean(accs))

最后评估结果acc 可达0.9444444
在这里插入图片描述

5. 模型预测

def load_image(img_path):
    '''
    预测图片预处理
    '''
    img = Image.open(img_path) 
    if img.mode != 'RGB': 
        img = img.convert('RGB') 
    img = img.resize((224, 224), Image.BILINEAR)
    img = np.array(img).astype('float32') 
    img = img.transpose((2, 0, 1))  # HWC to CHW 
    img = img/255                # 像素值归一化 
    return img

label_dic = train_parameters['label_dict']

'''
模型预测
'''
with fluid.dygraph.guard():
    model, _ = fluid.dygraph.load_dygraph("vgg")
    vgg = VGGNet()
    vgg.load_dict(model)
    vgg.eval()
    
    #展示预测图片
    infer_path='/home/aistudio/data/data23615/infer_mask01.jpg'
    img = Image.open(infer_path)
    plt.imshow(img)          #根据数组绘制图像
    plt.show()               #显示图像

    #对预测图片进行预处理
    infer_imgs = []
    infer_imgs.append(load_image(infer_path))
    infer_imgs = np.array(infer_imgs)
   
    for  i in range(len(infer_imgs)):
        data = infer_imgs[i]
        dy_x_data = np.array(data).astype('float32')
        dy_x_data=dy_x_data[np.newaxis,:, : ,:]
        img = fluid.dygraph.to_variable(dy_x_data)
        out = vgg(img)
        lab = np.argmax(out.numpy())  #argmax():返回最大数的索引
        print("第{}个样本,被预测为:{}".format(i+1,label_dic[str(lab)]))
        
print("结束")

预测结果:

在这里插入图片描述

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页