(转)四十个多线程问题
原文链接:http://www.cnblogs.com/xrq730/p/5060921.html
多线程有什么用
- 发挥多核cpu的优势,单线程程序,在双核cpu上就是浪费了50%,在四核就浪费了75%,单核cpu所谓的“多线程”是假的,同一时间处理器只会处理一段逻辑,只不过线程之间切换得比较快,看着像多个线程“同时”运行罢了。多核cpu上的多线程才是真正的多线程,它能让你的多段逻辑同时工作,多线程,可以真正发挥多核cpu的优势来。达到充分利用cpu的目的
- 防止阻塞,从程序运行效率的角度来看,单核cpu不但不会发挥出多线程的优势,反而会因为在单核cpu上运行多线程导致线程上下文的切换,而降低程序整体的效率,但是单核cpu我们还是要应用多线程,就是为了防止阻塞。试想,如果单核cpu使用单线程,俺么只要这个线程阻塞了,比方说远程读取某个数据吧,对方迟迟未返回又没有设置超时时间,那么你的整个程序在数据返回回来之前就停止运行了。多线程可以防止这个问题,多条线程同时运行,哪怕一条线程的代码执行读取数据阻塞,也不会影响其他任务的执行
- 便于建模,这是一个不明显的优点。假设有一个大的任务A,单线程变成,那么就要考虑很多,建立整个程序模型比较麻烦。但是如果把这个大的任务A分解成呢个几个小人物,任务B、任务C、任务D,分别建立程序模型,并通过多线程分别运行这几个任务,那就简单很多了
创建线程的方式
- 继承Threa类
- 实现Runnable接口
实现接口的方式比继承类的方式更灵活,也能减少程序之间的耦合度,面向接口变成也是设计模式6大原则的核心
start()方法和run()方法的区别
只有调用了start方法,才会表现出多线程的特性,不同线程的run方法代码交替执行。只是调用run方法的话,代码还是同步执行,跟调用普通方法并无差别
Runnble接口和Callable接口的区别
Runnable接口中的run方法放回值是void;Callable接口中的call方法是有返回值的,是一个泛型,和Future、FutureTask配合可以用来获取异步执行的结果
这是一个很有用的特性,因为多线程相比单线程更难,跟复杂的一个重要原因就是因为多线程充满了未知性,某条线程是否执行了?某条线程执行了多久?某条线程执行的时候我们期望的数据是否已经赋值完毕?无法得知,我们能做的只是等待这条线程的任务执行完毕而已。而Callable+Future/FutureTask却可以获取到线程运行的结果,可以在贷等事件太长没获取到需要的数据的情况下取消该线程的任务
CyclicBarrier和CountDownLatch的区别
首先都在java.util.concurrent包下,都可以用来表示代码运行到某个点上,区别在于:
- CyclicBarrier的某个线程运行到某个点之后,该线程即停止运行,知道所有的线程都到达这个点,所有线程才重新运行;CountDownLatch则不是,某线程运行到某个点上之后,只是给某个数值-1而已,该线程继续运行
- CyclicBarrier只能唤起一个任务,CountDownLatch可以唤起多个任务
- CyclicBarrier可重用,CountDownLatch不可重用,计数值为0改CountDownLatch就不可再用了
volatile关键字的作用
理解volatile关键字的作用的前提是要理解java内存模型,volatile关键字的作用主要有两个
- 多线程主要围绕可见性和原子性两个特性而展开,使用volatile关键字修饰的变量,保证了其在多线程之间的课件性,即每次读取到volatile变量,一定是最新的数据
- 代码底层执行不想我们看到的高级语言---java程序这么简单,他的执行时Java代码---> 字节码---> 根据字节码执行对应的C/C++代码---> C/C++代码被编译成汇编语言---> 和硬件电路交互,现实中,为了获取更好的性能JVM可能会对指令进行重排序,多线程下可能会出现一些意想不到的问题。使用volatile则会对禁止语义重排序,当然这也一定程序上降低了代码执行效率
从时间角度而言,volatile的一个重要作用就是和CAS结合,保证了原子性,详细的可以参见java.util.concurrent.atomic包下的类,如AtomicInteger
什么是线程安全
如果你的代码在多线程下执行和在单线程下执行永远都能获得一样的结果,那就是线程安全的
线程安全也是有几个级别的:
- 不可变:像String、Integer、Long这些,都是final类型的类,任何一个线程都改变不了他们的值,要改变除非新创建一个,因为这些不可变对象不需要任何同步手段就可以直接在多线程环境下使用
- 绝对线程安全:不管运行时环境如何,调用者都不需要额外的同步措施。要做到这一点通常需要付出许多额外的代价,java中标注自己是线程安全的类,实际上绝大多数都不是线程安全的,不过绝对线程安全的类,java中也有,比方说CopyOnWriteArrayList、CopyOnWriteArraySet
- 相对线程安全:也就是我们通常意义上所说的线程安全,像Vector这种,add、remove方法都是原子操作,不会被打断,但也仅限于此,如果有个线程在遍历某个Vector,有个线程同时在add这个Vector,99%的情况下都会出现ConcurrentModificationException,也就是fail-fast机制
- 线程非安全:比如ArrayList、LinkedList、HashMap等都是线程非安全的类
java中如何获取到线程dump文件
死循环、死锁、阻塞、页面打开慢等问题,打线程dump是最好的解决问题的途径。所谓线程dump也就是线程堆栈,获取到线程堆栈有两步:
- 获取到线程的pid,可以通过使用jps命令,在linux环境下还可以使用ps -ef | grep java
- 打印线程堆栈,可以通过使用jstack pid命令,在linux环境下还可以使用kill -3 pid
另外,Threa类提供了一个getStackTrace()方法也可以用于获取线程堆栈,这是一个实例方法,因此该方法适合具体线程实例绑定的,每次获取到的是具体某个线程当前运行的堆栈
一个线程如果出现了运行时异常会怎么样
如果这个异常没有被捕获的话,那么这个线程就停止执行了。另外重要的一点是:如果这个线程持有某个对象的监视器,那么这个对象监视器会被立即释放
如何在两个线程之间共享数据
通过线程之间共享对象就可以了,然后通过wait/notify/notifyAll/await/signal/signalAll进行唤起和等待,比方说则色队列BlockingQueue就是为线程之间共享数据而设计的
sleep方法和wait方法的区别
sleep方法和wait方法都可以用来放弃cpu一定的时间,不同点在于如果线程持有某个对象监视器,sleep方法不会放弃这个对象的监视器,wait方法会放弃对象监视器。sleep方法是给定时间自动醒来,wait需要唤醒,sleep方法是Thread类,wait方法是Object类,sleep方法会抛出异常,wait方法必须要在同步代码块里使用(需要获取对象监视器)
生产者消费者模型的作用是什么
这个问题很理论,但是很重要:
- 通过平衡生产者的生产能力和消费者的消费能力来提升整个系统的运行效率,这是生产者消费者模型最重要的作用
- 解耦,这是生产者消费者模型附带的作用,解耦意味着生产者和消费者之间的联系少,联系越少越可以独自发展而不需要受到相互的制约
ThreadLocal有什么用
简单说ThreadLocal就是一种以空间换时间的做法,在每个Thread里面维护了一个以开地址法实现的ThreadLocal.ThreadLocalMap,把数据进行隔离,数据不共享,自然就没有现成安全方面的问题了
为什么wait()方法和notify()/notifyAll()方法要在同步快中被调用
这是JDK强制的,wait()方法和notify()/notifyAll()方法在调用钱都必须先获得对象的锁
wait()方法和notify()/notifyAll()方法在放弃对象监视器时有什么区别
wait()方法和notify()/notifyAll()方法在放弃对象监视器的时候区别在于:
- wait方法立即释放对象监视器,notify/notifyAll方法则会等待线程剩余代码执行完毕才会放弃对象监视器
为什么要使用线程池
避免频繁地创建和销毁线程,达到线程对象的重用。另外,使用线程池还可以根据项目灵活地控制并发的数目
怎么检测一个线程是否持有对象监视器
Thread类提供了一个holdsLock(Object obj)方法,当且仅当对象obj的监视器被某条线程持有的时候才会返回true,注意这是一个static方法,这意味着“某条线程”指的是当前线程
synchronized和ReentrantLock的区别
synchronized是和if、else、for、while一样的关键字,ReentrantLock是类,这是二者本质区别。既然ReentrantLock是类,那么它就提供了比synchronized更多更灵活的特性,可以被继承,可以有方法,可以有各种各样的类变量,ReentrantLock比synchronized的扩展性体现在几点上:
- ReentrantLock可以对获取锁的等待时间进行设置,这就避免了死锁
- ReentrantLock可以获取各种锁的信息
- ReentrantLock可以灵活地实现多路通知
另外,二者的锁机制其实也是不一样的。ReentrantLock底层调用的是Unsafe的park方法加锁,synchronized操作的应该是对象头中mark word
ConcurrentHashMap的并发度是什么
ConcurrentHashMap的并发度就是segment的大小,默认为16,这意味着最多同时可以有16条线程操作ConcurrentHashMap,这也是ConcurrentHashMap对HashTable的最大优势,任何情况下,Hashtable能同时又两条线程获取Hashtable中的数据吗?
ReadWriteLock是什么
首先明确一下,不是说ReentrantLock不好,只是ReentrantLock某些时候有局限。如果适用ReentrantLock,可能本省是为了防止线程A在写数据、线程B在读数据造成的数据不一致,但这样,如果线程C、线程D也在读数据,读数据是不会改变数据的,没有必要加锁,但是还是加锁了,降低了程序的性能。
因为这个,才诞生了读写锁ReadWriterLock。ReadWriterLock是一个读写锁接口,ReentrantLockReadWriterLock是ReadWriterLock接口的一个具体实现,实现了读写的分离,读锁是共享的,写锁是独占的,读和读之间不会互斥,读和写、写和读、写和写之间才会互斥,提升了读写的性能
FutureTask是什么
FutureTask表示一个异步运算的任务。FutureTask里面可以传入一个Callable的具体实现类,可以对这个异步运算的任务的结果进行等待获取、判断是否已经完成、取消任务等操作。当然,由于FutureTask也是Runnable接口的实现类,所以FutureTask也可以放入线程池中
Linux环境下如何查找哪个线程使用cpu最长
- 获取项目的pid,jps或者ps -ef | grep java
- top -H -p pid,顺序不能改变
这样就可以打印出当前的项目,每条线程占用的cpu时间的百分比。注意这里打出的是LWP,也就是操作系统原生线程的线程号
使用“top -H -p pid” + “jps pid”可以很容易地找到某条占用cpu高的线程的线程堆栈,从而定位占用cpu高的原因,一般是因为不当的代码操作导致了死循环。
最后提一点,“top -H -p pid”打出来的LWP是十进制的, “jps pid”打出来的本地线程号是十六进制的,转换一下,就能定位到占用cpu高的线程的当前线程堆栈了
java编程写一个会导致死锁的程序
真正理解什么事死锁,这个问题其实不难,几个步骤:
- 两个线程里面分别持有两个Object对象:lock1和lock2.这两个lock作为同步代码块的锁
- 线程1的run()方法中同步代码块现货区lock1的对象锁,Thread.sleep(xx),时间不需要太多,50毫秒差不多了,然后接着获取lock的对象锁。这么做主要使为了防止线程1启动一下子就连续获得了lock1和lock2两个对象的锁
- 线程2的run()方法中同步代码块先获取lock2的对象锁,接着获取lock1的对象锁,当然这时lock1的对象锁已经被线程1所持有,线程2肯定是要等待线程1释放lock1的对象锁
这样,线程1“睡觉”睡完,线程2已经获取了lock2的对象锁了,线程1此时舱室获取lock2的对象锁,便被阻塞,此时一个 死锁就形成了
怎么唤醒一个阻塞的线程
如果线程是因为调用了wait()、sleep()或者join()方法而导致的阻塞,可以中断线程,并且抛出InterruptedException来唤醒它;如果线程遇到了IO阻塞,无能为力,因为IO是操作系统实现的,Java代码并没有办法直接接触到操作系统
不可变对象对多线程有什么帮助
不可变对象保证了对象的内存可见性,对不可变对象对的读取不需要进行额外的同步手段,提升了代码执行效率
什么是多线程的上下文切换
多线程的上下文切换是指CPU控制权由一个已经正在运行的线程切换到另外一个就绪并等待获取CPU执行权的线程的过程
如果你提交任务时,线程池队列已满,这时会发生什么
这里区分一下:
- 如果使用的是无界队列LinkedBlockingQueue,也就是无界队列的话,没关系,继续添加任务到阻塞队列中等待执行,因为LinkedBlockingQueue可以近乎认为是一个无穷大的队列,可以无限存放任务
- 如果使用的是有界队列比如ArrayBlockingQueue,任务首先会被添加到ArrayBlockingQueue中,ArrayBlockingQueue满了,会根据maximumPoolSize的值增加线程数量,如果增加了线程数量还是处理不过来,ArrayBlockingQueue继续满,那么则会使用拒绝策略RejectedExecutionHandler处理满了的任务,默认是AbortPolicy
java中用到的线程调度算法是什么
抢占式。一个线程用完cpu之后,操作系统会根据线程优先级、线程饥饿情况等数据算出一个总的优先级并分配下一个时间片给某个线程执行
Thread.sleep(0)的作用是什么?
这个问题和上面那个问题是相关的。由于Java采用抢占式的线程调度算法,因此可能会出现某条线程常常获取到CPU控制权的情况,为了让某些优先级比较低的线程也能获取到CPU的控制权,可以使用Thread.sleep(0)手动触发一次操作系统分配时间片的操作,这也是平衡CPU控制权的一种操作
什么是自旋
很多synchronized里面的代码只是一些很简单的代码,执行时间非常快,此时等待的线程都加锁可能是一种不太值得的操作,因为线程阻塞涉及到用户态和内核态切换得问题。既然synchronized里面的代码执行的非常快,不妨让等到锁的线程不要被阻塞,而是在synchronized的边界做循环,这就是自旋。如果做了多次忙循环发现还没有获得锁,再阻塞,这样可能是一种更好的策略
什么是Java内存模型
Java内存模型定义了一种多线程访问Java内存的规范。Java内存模型要完整讲不是这里几句话能够说清楚的,简单总结一下Java内存模型的几部分内容:
- java内存模型将内存分为了主内存和工作内存。类的状态,也就是类之间共享的变量,是存储在主内存中的,每次Java线程用到这些主内存中的变量的时候,会读一次主内存中的变量,并让这些内存在自己的工作内存中有一份拷贝,运行自己线程代码的时候,用到这些变量,操作的都是自己工作内存中的那一份。在线程代码执行完毕之后,会将最新的值更新到主内存中去
- 定义了几个原子操作,用于操作主内存和工作内存的变量
- 定义了volatile变量的使用规则
- happens-before,即先行发生规则,定义了操作A必然先行发生于操作B的一些规则,比如在同一个县城内控制流前面的代码一定先行发生于控制流后面的代码,一个释放锁unlock的动作一定先行于发生于后面对于同一个锁进行锁定lock的动作等等,只要符合这些规则,则不需要额外做同步措施,如果某段代码不符合所有的happens-before规则,则这段代码一定是线程非安全的
什么是CAS
CAS,全称为Compare and Swap,即比较-替换。假设有三个操作数:内存值V、旧的预期值A、要修改的值B,当且仅当预期值A和内存值V相同时,才会将内存值修改为B并返回true,否则什么都不做并返回false。当然CAS一定要volatile变量配合,这样才能保证每次拿到的变量是主内存中最新的那个值,否则旧的预期值A对某条线程来说,永远是一个不会变的值A,只要某次CAS操作失败,永远都不可能成功
什么是乐观锁和悲观锁
- 乐观锁:就像它的名字一样,对于并发间操作产生的线程安全问题持乐观状态,乐观锁认为竞争不总是会发生,因此它不需要持有锁,将比较-替换这两个动作作为一个原子操作舱室去修改内存中的变量,如果失败则表示发生冲突,那么久应该有相应的重试逻辑
- 悲观锁:还是像它的名字一样,对于并发间操作产生的线程安全问题持悲观状态,悲观锁认为竞争总是会发生,因此每次对某资源进行操作时,都会持有一个独占的锁,就像synchronized,不管三七二十一,直接上了锁就操作资源了
什么是AQS
简单说一下AQS,AQS全称为AbstractQueuedSychronizer,翻译过来应该是抽象队列同步器。
如果说java.util.concurrent的基础是CAS的话,那么AQS就是整个Java并发包的核心了,ReentrantLock、CountDownLatch、Semaphore等等都用到了它。AQS实际上以双向队列的形式连接所有的Entry,比方说ReentrantLock,所有等待的线程都被放在一个Entry中并连成双向队列,前面一个线程使用ReentrantLock好了,则双向队列实际上的第一个Entry开始运行。
AQS定义了对双向队列所有的操作,而只开放了tryLock和tryRelease方法给开发者使用,开发者可以根据自己的实现重写tryLock和tryRelease方法,以实现自己的并发功能。
单例模式的线程安全性
老生常谈的问题了,首先要说的是单例模式的线程安全意味着:某个类的实例在多线程环境下只会被创建一次出来。单例模式有很多种的写法,我总结一下:
(1)饿汉式单例模式的写法:线程安全
(2)懒汉式单例模式的写法:非线程安全
(3)双检锁单例模式的写法:线程安全
Semaphore有什么用
Semaphore就是一个信号量,它的作用是限制某段代码块的并发数。Semaphore有一个构造函数,可以传入一个int型整数n,表示某段代码最多只有n个线程可以访问,如果超出了n,那么请等待,等到某个线程执行完毕这段代码块,下一个线程再进入。由此可以看出如果Semaphore构造函数中传入的int型整数n=1,相当于变成了一个synchronized了。
Hashtable的size()方法中明明只有一条语句“return count”,为什么还要做同步
这是我之前的一个困惑,不知道大家有没有想过这个问题。某个方法中如果有多条语句,并且都在操作同一个类变量,那么在多线程环境下不加锁,势必会引发线程安全问题,这很好理解,但是size()方法明明只有一条语句,为什么还要加锁?
关于这个问题,在慢慢地工作、学习中,有了理解,主要原因有两点:
(1)同一时间只能有一条线程执行固定类的同步方法,但是对于类的非同步方法,可以多条线程同时访问。所以,这样就有问题了,可能线程A在执行Hashtable的put方法添加数据,线程B则可以正常调用size()方法读取Hashtable中当前元素的个数,那读取到的值可能不是最新的,可能线程A添加了完了数据,但是没有对size++,线程B就已经读取size了,那么对于线程B来说读取到的size一定是不准确的。而给size()方法加了同步之后,意味着线程B调用size()方法只有在线程A调用put方法完毕之后才可以调用,这样就保证了线程安全性
(2)CPU执行代码,执行的不是Java代码,这点很关键,一定得记住。Java代码最终是被翻译成机器码执行的,机器码才是真正可以和硬件电路交互的代码。即使你看到Java代码只有一行,甚至你看到Java代码编译之后生成的字节码也只有一行,也不意味着对于底层来说这句语句的操作只有一个。一句"return count"假设被翻译成了三句汇编语句执行,一句汇编语句和其机器码做对应,完全可能执行完第一句,线程就切换了。
线程类的构造方法,静态块是被哪个线程调用的
这是一个非常***钻和狡猾的问题。请记住:线程类的构造方法、静态块是被new这个线程类所在的线程所调用的,而run方法里面的代码才是被线程自身所调用的。
如果说上面的说法让你感到困惑,那么我举个例子,假设Thread2中new了Thread1,main函数中new了Thread2,那么:
(1)Thread2的构造方法、静态块是main线程调用的,Thread2的run()方法是Thread2自己调用的
(2)Thread1的构造方法、静态块是Thread2调用的,Thread1的run()方法是Thread1自己调用的
同步方法和同步快,哪个是更好的选择
同步块,这意味着同步块之外的代码是异步执行的,这比同步整个方法更提升代码的效率。请知道一条原则:同步的范围越小越好。
借着这一条,我额外提一点,虽说同步的范围越少越好,但是在Java虚拟机中还是存在着一种叫做锁粗化的优化方法,这种方法就是把同步范围变大。这是有用的,比方说StringBuffer,它是一个线程安全的类,自然最常用的append()方法是一个同步方法,我们写代码的时候会反复append字符串,这意味着要进行反复的加锁->解锁,这对性能不利,因为这意味着Java虚拟机在这条线程上要反复地在内核态和用户态之间进行切换,因此Java虚拟机会将多次append方法调用的代码进行一个锁粗化的操作,将多次的append的操作扩展到append方法的头尾,变成一个大的同步块,这样就减少了加锁-->解锁的次数,有效地提升了代码执行的效率。
高并发、任务执行时间短的业务怎样使用线程池?并发不高、任务执行时间长的业务怎样使用线程池?并发高、业务执行时间长的业务怎么样使用线程池
(1)高并发、任务执行时间短的业务,线程池线程数可以设置为CPU核数+1,减少线程上下文的切换
(2)并发不高、任务执行时间长的业务要区分开看:
a)假如是业务时间长集中在IO操作上,也就是IO密集型的任务,因为IO操作并不占用CPU,所以不要让所有的CPU闲下来,可以加大线程池中的线程数目,让CPU处理更多的业务
b)假如是业务时间长集中在计算操作上,也就是计算密集型任务,这个就没办法了,和(1)一样吧,线程池中的线程数设置得少一些,减少线程上下文的切换
(3)并发高、业务执行时间长,解决这种类型任务的关键不在于线程池而在于整体架构的设计,看看这些业务里面某些数据是否能做缓存是第一步,增加服务器是第二步,至于线程池的设置,设置参考(2)。最后,业务执行时间长的问题,也可能需要分析一下,看看能不能使用中间件对任务进行拆分和解耦。