Python多线程(threading)与多进程(multiprocessing )

畅学网 Python评论1,731阅读模式

Python多线程(threading)与多进程(multiprocessing )-图片1

对于操作系统来说,一个任务就是一个进程。例如打开浏览器,打开word,打开记事本等等,都是独立的任务,它们各自为一个或者多个进程。这里要注意的是,同一种任务打开多个,分别属于不同进程,例如chrome打开多个标签,实际上它创建了多个进程。

对于一个任务来说,它有很多子任务,例如播放器,既要解码视频、也要解码音频,所以在进程下存在多线程。在一个进程下一定存在一个线程,可以称它为主线程。

操作系统创建进程时,会单独为每一个进程分配各自的资源,进程与进程之间相互隔离。而进程内的线程,则共享了当前进程内的资源。可见,操作系统执行的粒度是线程,分配资源的粒度是进程,我们的多任务操作系统,在单核CPU上是在各个线程上不断切换而达到目的,而在多核CPU上则能同时执行多个线程任务。

Python能很方便地支持多进程、多线程编程,接下来就简单记录下,最后再记录下两者优缺点。

进程:

程序的一次执行(程序载入内存,系统分配资源运行)。每个进程有自己的内存空间,数据栈等,进程之间可以进行通讯,但是不能共享信息。

进程是线程的容器。程序是指令、数据及其组织形式的描述,进程是程序的实体。里面包含对各种资源的调用,内存的管理,网络接口的调用等。。。对各种资源管理的集合 就可以称为 进程

文章目录:

多进程

在Linux系统下,有一个非常特殊的函数,fork()。它调用一次,返回两次,操作系统自动把当前进程(父进程)复制了一份(子进程),然后分别在父进程和子进程内返回。子进程永远返回0,父进程返回子进程的ID。经过这样做,父进程就能fork出很多子进程,并可以记录下子进程的ID号了,子进程可以通过getppid()来获取父进程ID。fork()仅在Unix/Linux下使用,windows则不行。 所以,在Python中,存在一个跨平台的包mutiprocessing,通过引入包中的Process类,就可以创建多进程程序了,可以创建一个进程p=Process(target=func,args=(*,)),然后利用p.start()及p.join()来执行了。以上的join()方法可以等待子进程结束后才往下执行,通常用于进程间同步。 另外,可以用进程池的方式,例如p=Pool(n),然后p.apply_async(func,args),这里可以使用n种不同的参数传入,建立不同的进程。用这种方式时,在调用join()方法前,要先调用close()方法,使得不能再添加新进程。 mutiprocessing包里提供了Queue、Pipe等多种进程间通信的方法。可以直接引入Queue类,然后实例化一个对象。则不同的进程可以使用put方法发信息,同时可以使用get方法取信息。

线程:

所有的线程运行在同一个进程中,共享相同的运行环境。每个独立的线程有一个程序入口,顺序执行序列和程序的出口。

线程的运行可以被强占,中断或者暂时被挂起(睡眠),让其他的线程运行。一个进程中的各个线程共享同一片数据空间。

线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。一个线程是一个execution context(执行上下文),即一个cpu执行时所需要的一串指令。

假设你正在读一本书,没有读完,你想休息一下,但是你想在回来时恢复到当时读的具体进度。有一个方法就是记下页数、行数与字数这三个数值,这些数值就是execution context。如果你的室友在你休息的时候,使用相同的方法读这本书。你和她只需要这三个数字记下来就可以在交替的时间共同阅读这本书了。

线程的工作方式与此类似。CPU会给你一个在同一时间能够做多个运算的幻觉,实际上它在每个运算上只花了极少的时间,本质上CPU同一时刻只干了一件事。它能这样做就是因为它有每个运算的execution context。就像你能够和你朋友共享同一本书一样,多任务也能共享同一块CPU。

多线程

多个任务可以创建多个进程来完成,同时也可以创建多个线程来完成,线程是操作系统直接的执行单元。 Python含有threading这个高级模块,要启动一个线程,就是把一个函数传出并创建Thread实例,然后调用start()方法开始执行,例如t=threading.Thread(target=func,name=*),注意这里的name属性,它是给线程命名的,缺省值为Thread-1···。要注意的是,刚才说了,任何一个进程都含有一个线程,而这个主线程则执行着我们编写的程序,可以调用threading.current_thread().name来查看它,它的名字就叫MainThread。 在多线程编程中,有一个最大的问题就在于进程内的资源被各个线程所共享,进程内任何变量都可以被任何一个线程修改,因此,线程之间若去修改同一个变量,则可能导致程序Bug。所以,引入了锁机制。 当某个线程去修改某个变量时,可以在变量所在的方法内加一把锁,使得其他线程不能同时执行该方法,只有释放了锁后,其他线程才能去获得锁并获得修改权。创建一个锁是通过lock=threading.Lock()来实现的,可以使用try···finally···语句,在try之前使用lock.acquire()获得锁,然后在try语句里面修改变量,然后在finally语句里加lock.release()来保证锁一定被释放,避免成为一个死锁。

进程与线程区别

1.同一个进程中的线程共享同一内存空间,但是进程之间是独立的。
2.同一个进程中的所有线程的数据是共享的(进程通讯),进程之间的数据是独立的。
3.对主线程的修改可能会影响其他线程的行为,但是父进程的修改(除了删除以外)不会影响其他子进程。
4.线程是一个上下文的执行指令,而进程则是与运算相关的一簇资源。
5.同一个进程的线程之间可以直接通信,但是进程之间的交流需要借助中间代理来实现。
6.创建新的线程很容易,但是创建新的进程需要对父进程做一次复制。
7.一个线程可以操作同一进程的其他线程,但是进程只能操作其子进程。
8.线程启动速度快,进程启动速度慢(但是两者运行速度没有可比性)。

多进程的优点是稳定性好,一个子进程崩溃了,不会影响主进程以及其余进程。但是缺点是创建进程的代价非常大,因为操作系统要给每个进程分配固定的资源,并且,操作系统对进程的总数会有一定的限制,若进程过多,操作系统调度都会存在问题,会造成假死状态。多线程优点是效率较高一些,但是致命的缺点是任何一个线程崩溃都可能造成整个进程的崩溃,因为它们共享了进程的内存资源池。

对于任务数来说,无论是多进程或者多线程,都不能太多。因为操作系统在切换任务时,会有一系列的保护现场措施,这要花费相当的系统资源,若任务过多,则大部分资源都被用做干这些了,结果就是所有任务都做不好,所以操作系统会限制进程的数量。

另外,考虑计算密集型及IO密集型应用程序。对于计算密集型,多任务势必造成资源浪费。对于IO密集型,因为IO速度远低于CPU计算速度,所以使用多任务方式可以大大增大程序运行效率。

io 操作不占用CPU(从硬盘、从网络、从内存读数据都算io)计算占用CPU(如1+1计算)p,ython中的线程是假线程,不同线程之间的切换是需要耗费资源的,因为需要存储线程的上下文,不断的切换就会耗费资源。。python多线程适合io操作密集型的任务(如socket server 网络并发这一类的);python多线程不适合cpu密集操作型的任务,主要使用cpu来计算,如大量的数学计算。
那么如果有cpu密集型的任务怎么办,可以通过多进程来操作(不是多线程)。假如CPU有8核,每核CPU都可以用1个进程,每个进程可以用1个线程来进行计算。进程之间不需要使用gil锁,因为进程是独立的,不会共享数据。进程可以起很多个,但是8核CPU同时只能对8个任务进行操作。

Python多线程(threading)与多进程(multiprocessing )-图片2

 
畅学网
  • 本文由 畅学网 发表于 2018年10月3日15:16:54
  • 转载请务必保留本文链接:https://51changxue.com/1050.html
Python

pycharm永久破解激活教程

PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、...

发表评论