iPhone 16nm vs. 14nm - Halfgeleiders: Is kleiner ook beter?

Door witeken op zondag 18 oktober 2015 08:00 - Reacties (25)
Categorie: -, Views: 8.043

(Wie dit artikel liever leest als PDF voor een optimale leeservaring: klik hier)
Noot: De PDF-versie is niet up-to-date.


iPhone 16nm vs. 14nm – Halfgeleiders: Is kleiner ook beter?

Deze blog schrijf ik naar aanleiding van Tweakers’ recent nieuwsbericht ‘Apple: verschil in accuduur tussen iPhone 6s-modellen is klein’ [1]. In dat artikel wordt een voor de leek opmerkelijke en paradoxale claim gepresenteerd: dat de iPhone met TSMC’s 16nm-procedé sneller is en minder verbruikt dan de variant geproduceerd met Samsungs 14nm. Tijdens het schrijven van dit artikel kwam ook een bericht naar buiten dat Intel op termijn de A-socs van Apple zou produceren [2]. In dit artikel geef ik hier een zeer diepe bespreking van, waarin het belangrijkste van de moderne halfgeleiderindustrie wordt belicht. Onder andere Moore’s Law en Dennard’s Law passeren de revue.

1. Filosofische beschouwing

Ik hou er vaak van om mijn uitleg te beginnen met een filosofischer, meer algemene beschouwing van het onderwerp waar ik het over wil hebben. Na dat algemene beeld wil ik wat dieper ingaan op de actualiteit van de dag.

Een beetje een algemeen thema, eigenlijk, voor een Tweakblog met de naam Wisdom: onwetendheid. Onwetendheid is alomtegenwoordig in de wereld; waar kennis is, is ook gebrek aan kennis, bij mensen die weinig weten over het onderwerp in kwestie. Dit lijkt een simpel truïsme, maar je mag het niet onderschatten. Mensen zonder kennis gaan immers de cruciale nuances niet kennen, alle details, zoals de fysische of wetenschappelijke verantwoording voor uitspraken. Men gaat gemakkelijk misleid worden, bijvoorbeeld door marketing. Mensen hebben de neiging om te generaliseren en ‘algemene waarheden’ toe te passen, aangezien ze specifieke kennis ontbreken. Als gedachte-experiment moet je maar eens denken aan iets waar je zelf veel over weet, en hoe je anderen wellicht al in de fout hebt zien gaan als het op redenaties en meningen over dat onderwerp aankwam. Dit is zonder meer het geval bij de onderwerpen waar Tweakers over schrijft.

Daarom is het noodzakelijk te luisteren naar mensen met verstand van zaken (die uitsluitend het doel hebben te informeren), en je bewust te zijn van wat je wel weet, en wat je niet weet.

Om dit hier toe te passen. Wie een beetje vertrouwd is met computers, zal weten dat zij evolueren volgens wat men noemt Moore’s Law. Die stelt dat het aantal transistors exponentieel toeneemt, tegenwoordig een verdubbeling elke pakweg tweeënhalf jaar. Dit doet men door transistors te verkleinen en ze dichter bij elkaar te bouwen. Daarnaast zal je wellicht ook weten dat transistors steeds sneller of in ieder geval zuiniger worden. In het algemeen daalt het aantal joules per instructie, of stijgt met andere woorden de performance per watt.

De trend lijkt dus duidelijk te zijn: bij elk shrink van het procedé wordt een transistor beter. Als een bedrijf dus een lager getalletje als procedé aangeeft, moet dat proces dus beter zijn. Logisch?

2. Nanometers tellen

Dit is echter waar de fysische realiteit in het spel komt. Een transistor is namelijk niet gewoon een getalletje dat je elke twee jaar met een factor 0.7 verkleint, maar is heel wat complexer dan dat. Toch zit er uiteraard wel een kern van waarheid in de vaststelling dat kleiner beter is. Daarmee begin ik.

High-level

Om die, tegenwoordig utopische, realiteit te kunnen beschrijven, moeten we teruggaan naar het microscopische tijdperk (µm). Het vriendelijke regime waar men tot rond de millenniumwissel in vertoefde, waar een transistor nog groter is dan ultraviolette straling en je het woord kwantummechanica nog niet hoeft te kennen. Uit die tijd stamt niet alleen Moore’s Law, maar ook Dennard’s Law, ook bekend als Dennard scaling.

Dennard heeft de regeltjes waarmee men de feature sizes van transistors schaalt en hun gevolgen geformaliseerd in wetmatigheden. Beschouw volgende afbeelding:

http://image.slidesharecdn.com/mooresameh-141009003903-conversion-gate02/95/moores-law-observations-from-2009-4-638.jpg?cb=1412816737
http://image.slidesharecd...9-4-638.jpg?cb=1412816737

Om Moore’s Law te volgen moet je k gelijkstellen aan de wortel van twee. Zoals je kan zien gebeuren er mooie dingen wanneer je dit doet: het voltage en de stroom worden lager, de transistor wordt sneller. Waar het kwantitatief op neerkomt, is als volgt. Als je een eendimensionale eenheid met deze factor k kleiner maakt, wordt het oppervlak kleiner in het kwadraat, dus halveert die. Het voltage neemt ook met een factor k af. Als je de formule voor verbruik neemt:

http://i272.photobucket.com/albums/jj163/idontcare_photo_bucket/Intel%20Core%20i7-2600K/PtotalVccTGHz.png
http://i272.photobucket.c...7-2600K/PtotalVccTGHz.png

Wat ons interesseert is Pdynamic oftewel het verbruik voor het schakelen van de transistor, dat bij een goed ontworpen chip en procedé het gros van het verbruik inneemt (zie de volledige analyse van i7 2600K vs. 3770K van halfgeleideringenieur Idontcare bij [3]). Verbruik schaalt kwadratisch bij stijgend of dalend voltage. Dus het verbruik halveert eveneens. Dat brengt ons bij het laatste lijntje van Dennards regels: het verbruik per oppervlak blijft gelijk als je elke feature van een transistor mooi volgens de regels schaalt. En om het af te maken neemt de snelheid ook nog eens toe met factor k.

In theorie kan men als compromis een kleiner procedé gebruiken om de kloksnelheid (en dus de snelheid van de chip) met een mooi percentage op te schroeven, wat transistors toe te voegen en het verbruik hetzelfde te houden. In de praktijk had je een GHz-race, en voegde men meer transistors toe dan het procedé toeliet, door de die area te verhogen. Uit bovenstaande formule volgt dat verbruik evenredig met kloksnelheid schaalt. Dat vergt wel een hoger voltage, wat je dubbel voelt, en meer transistors die schakelen per keer verhogen het verbruik nog verder (dat laatste uiteraard zonder impact op W/cm²).

Hier dus de praktijk:

http://www.extremetech.com/wp-content/uploads/2014/08/IBM_SYNAPSE_20140807_003.jpg
http://www.extremetech.co..._SYNAPSE_20140807_003.jpg

http://userweb.eng.gla.ac.uk/jeremy.watling/pics/power.gif
http://userweb.eng.gla.ac.uk/jeremy.watling/pics/power.gif en http://www.nature.com/nph...es/nphoton.2007.35-f2.jpg

Dit alles kunnen we samenbrengen in volgende veelzijdige en fascinerende grafiek:

http://www.extremetech.com/wp-content/uploads/2015/04/CPU-Scaling.jpg
http://www.extremetech.co...s/2015/04/CPU-Scaling.jpg

Het bereiken van de limiet op vlak van vermogen viel ongeveer tegelijk met het einde van de klassieke Dennard scaling (130nm), wat het nog extra pijnlijk heeft gemaakt: je ziet de kloksnelheid die al exponentieel stijgt nog sneller toenemen voor de muur keihard bereikt wordt bij circa 4GHz en 100W. Het voltage is sindsdien grofweg constant gebleven, de kloksnelheid ook, en de hoeveelheid instructies die per seconde verwerkt wordt had men met de komst van out-of-order ook al ruimschoots boven de één gekregen. Het viel allemaal stil en dus is men beginnen focussen op verbruik en voor de desktop was het nuttig nog een aantal cores toe te voegen, maar niet veel meer dan dat. Je kan niet om de harde natuurwetten heen.

Voor GPU’s is de situatie rooskleuriger omdat zij wel veel voordeel halen uit de exponentiële trend van transistors. Ook voor mobiele socs en voor laptops is er nog meer voordeel te halen omdat de trend voor efficiëntie ook nog blijft doorgaan [4].

Tot zover de kwantitatieve high-level-benadering van Dennard’s Law. Hoe zit het nu met de kwalitatieve oorzaken daarvan en wat is er gebeurd op low-level-niveau?

Low-level

Daarvoor moet je weten wat een transistor precies is. Beschouw volgend schema van een transistor:

http://www.mdpi.com/materials/materials-07-02913/article_deploy/html/images/materials-07-02913f4-1024.png
http://www.mdpi.com/mater...rials-07-02913f4-1024.png

Als je kijkt naar een klassieke planar-transistor uit het tijdperk van Dennard scaling, dan zie je links de source. De stroom loopt door de Si-channel, die een bepaalde lengte en breedte heeft, naar de drain.

De stroom wordt gecontroleerd door een voltage op de gate te plaatsen: naarmate dat hoger wordt, verhoogt de stroom van de drain exponentieel tot je bij het threshold voltage komt, waar de stroom goed van source naar drain kan gaan. Dit wordt weergegeven met een subthreshold slope.

http://electroiq.com/wp-content/uploads/2014/01/finfets_1.jpg
http://electroiq.com/wp-c...ads/2014/01/finfets_1.jpg of http://www.silvaco.com/te...02/nov/a1/finfet_fig3.gif of http://image.slidesharecd...s-6-638.jpg?cb=1424934309 (midden)

Idealiter wil je dat als er geen voltage is, de stroom volledig uit staat, en dat bij het kleinst mogelijke voltage er meteen een goede stroom is. Beide zijn echter niet mogelijk – een transistor is strikt gezien niet helemaal digitaal. Zelfs als je transistor uit staat, zal er wat lekstroom zijn, genaamd subthreshold leakage. Aan/uit draait dus om het verschil tussen de stroom wanneer de transistor aan en uit staat. Men wilt normaal ongeveer 10.000x zoveel stroom als je transistor aanstaat. Om dat te verkrijgen, moet je het voltage met een bepaalde hoeveelheid verhogen. Men duidt dit aan met het aantal mv/dec, of voluit millivolt per decade. Een decade staat hier voor een verhoging van 10x van de stroom. Idealiter wil je dat het aan mv zo laag mogelijk is. De theoretische limiet voor een conventionele transistor is minimaal 60mV/dec. Volgens Intel heeft planar een slope van circa 100mv/dec, terwijl dat bij FinFET minder dan 80mV/dec is, zelfs richting de 70. Dat betekent dat je minstens 320mV of 0.32V nodig hebt. Normaal gaat men echter niet zo dicht bij de threshold voltage komen, bijvoorbeeld door de invloed van temperatuur en van variatie bij de productie (je wilt een hoge betrouwbaarheid). Zeker als je een hoge kloksnelheid wilt, heb je een hoog voltage nodig rond de 1V -- hoe hoger de frequentie, hoe hoger het voltage uiteraard. Bedrijven als Intel zijn wel bezig met near-threshold voltage (NTV) computing te onderzoeken.

Als je even negeert wat op het schema van de transistor staat, dan bestond de gate tot eind vorig decennium uit erg gedoteerd Si (polysilicon). Doteren (Engels: doping) betekent dat je onzuiverheden in het silicium aanbrengt met een valentie-elektron te veel of te weinig: dit is wat halfgeleiders hun interessante karakteristieken geeft. Wat de gate van de channel isoleert, is de SiO2 gate dielectric of gate oxide. Die heeft een bepaalde oxide thickness, en samen met het materiaal van de dielectric bepaalt heeft dat een invloed op de threshold voltage: hoe dunner de oxide, hoe beter.

Verder zitten deze transistors op een bepaalde afstand van elkaar: de transistor of gate pitch genoemd. Zoals ik straks ga uitleggen bestaat een transistor tegenwoordig uit fins, dus heb je nu ook een fin pitch.

Tot slot heb je nog de metalen lijnen van de interconnect die zich op een gelijkaardige afstand als de gate pitch van elkaar bevinden. De interconnect wordt ook wel de back-end of line, of BEOL genoemd (i.t.t. de FEOL: de transistor), en bestaat tegenwoordig uit tot 13 (Intel 14nm) lagen van steeds groter wordende, tegenwoordig koperen lijnen. Die verbinden de transistors met elkaar en zorgen voor de overdracht van data, wat een hoop energie kost. De hogere lagen (de transistor bevindt zich onderaan) worden steeds groter omdat de interconnect slechter wordt als je die verkleint. Dit is tegenwoordig ook een redelijk groot probleem waar men steeds oplossingen voor zoekt. Vroeger was de interconnect bijvoorbeeld van Al gemaakt. Intel introduceerde als eerste bedrijf air gaps bij 14nm bij twee lagen om de isolatie te verbeteren: letterlijk gaten met lucht i.p.v. glas om de relatieve permittiviteit (dielectric constant) te verlagen naar één, het laagst mogelijke.

Een klein weetje is dat er twee manieren zijn om de interconnect stack te bouwen: 1D of 2D. Die twee benamingen slaan op de hoeveelheid dimensies die je op een laag van de interconnect kunt benutten. Bij 2D kan je zowel in de lengte als de breedte lijntjes printen, bij 1D kan je maar één richting per laag benutten. Het voordeel van 2D is dat het makkelijker voor de designer is. Het nadeel is dat het complexer om te fabriceren is. Daarom is sinds kort ook TSMC op 1D overgegaan, bij 16nm, terwijl Samsung nog 2D gebruikt. Ik ga geen uitspraak doen over de invloed die dit heeft op de dichtheid: ik hoor dat 2D een voordeel van misschien 15% heeft, terwijl Intel dit ontkent. In ieder geval heb je voor 1D wel meer lagen nodig.

http://electroiq.com/chipworks_real_chips_blog/wp-content/uploads/sites/7/2014/10/06_Inner_Die_Seal_168232-c-a_branded.png
http://electroiq.com/chip...al_168232-c-a_branded.png en http://images.anandtech.com/doci/8367/14nmInterconnect.jpg

Samen zorgen die twee getallen voor de grootte van de transistor (lengte x breedte of interconnect x gate pitch). De performance van een transistor is echter niet afhankelijk van de dichtheid van de transistors, maar is afhankelijk van de lengte van de gate en de architectuur van de transistor, en de interconnect speelt ook een rol.

Moore’s Law

Wat je volgens Dennard’s Law doet is alles met een bepaalde factor k schalen: de gate pitch, de interconnect, de lengte van de channel/gate. Wat men in de praktijk deed tijdens de GHz-race was de gate veel meer verkleinen dan de regels aangaven ten voordele van de kloksnelheid. De gate was dus tot voor kort steeds kleiner dan de naam van het procedé: rond de dertig à veertig nanometer, maar is daar blijven steken de laatste nodes. Door FinFET begint men dit terug kleiner te maken, bij Intel van 26nm bij de 22nm-node tot 20nm nu, een relatief grote verkleining [10]. De gate en interconnect pitch daarentegen schaalde men minder agressief dan de naam van het procedé aangaf, maar wel heel regelmatig. Tegenwoordig is een transistor qua oppervlakte zo groot:

http://1.f.ix.de/imgs/18/1/4/3/6/7/2/6/Tabelle-Feature-Intel-14nm-7f6c642e65c6d5e1.png
http://1.f.ix.de/imgs/18/...14nm-7f6c642e65c6d5e1.png

De SRAM cell area is een interessant benchmark omdat het erg veel gebruikt wordt in chips, van de cache tot in de modem. Het bestaat meestal uit 6 transistors en is sneller dan RAM (latency).

http://xtreview.com/images/6deformation.jpg
http://xtreview.com/images/6deformation.jpg

Merk op dat niets hier rond de 14nm is. TSMC had haar 16nm(+) evengoed 14nm kunnen noemen, wordt hier duidelijk gezien het verschil met Samsung niet groot is, terwijl dat met Intel wel zo is. De volgende node van elk bedrijf wordt 10nm genoemd, ook al zullen de onderlinge verschillen, vooral tussen Intel en de rest, even groot zijn. De reden dat dit verschil bestaat (naam versus realiteit) is omdat de naam steeds een factor 0.7 (of zelfs nog meer) kleiner wordt, maar men meestal eerder rond 1.9x in transistordichtheid schaalt. Recente uitzondering hierop is Intel, dat zich vanaf 14nm als doel heeft gesteld meer dan de historische trend te schalen per node, en aangegeven heeft dit te doen tot minstens 7nm. Dit kan je zelf ook berekenen: zoals ik eerder zei moet je de twee onderste kolommen met elkaar vermenigvuldigen van de gate en interconnect, en de oppervlaktes die je uitkomt met elkaar delen om ze te vergelijken. Zo heeft 14nm 2x de dichtheid van 22nm, wat in de praktijk zelfs 2.2x is omdat men de hoeveelheid fins per transistor heeft kunnen terugdringen. Een FinFET-transistor bestaat uit meerdere fins voor hogere performance; bij planar kon men de breedte van de channel aanpassen.

Wat nog interessanter is, is het verschil tussen Intel en TSMC/Samsung berekenen. Het gemiddelde voordeel van Intel is -35% of 1.54x. Op basis van wat Intel gepubliceerd heeft kan je berekenen dat 10nm 2.1x de dichtheid van 14nm zal hebben, terwijl TSMC onlangs bekend heeft gemaakt dat haar 10nm een factor 0.52x schaalt in oppervlakte. Het verschil in dichtheid zou dan al 1.70x worden. Dat is ongeveer wat je kreeg toen Intel van 32nm naar 22nm ging, dat begint dus al op een volledige node te lijken. De reden hiervoor is als volgt. Intel is een bedrijf dat van oudsher processors maakt voor laptops, desktops en servers. Voor Intel was het dus zinloos om procedés met een hogere dichtheid na te streven dan nodig, omdat performance belangrijker is, dus Intel liep wat dat betreft wat achter, als je bijvoorbeeld 32nm en 28nm vergelijkt. Verschil is wel dat Intels procedé van een bepaalde node-naam eerder uitkwam, waardoor het relatief gelijk opging. Sinds 14nm focust Intel zich echter veel meer op dichtheid om economische redenen, waardoor het bedrijf meer schaalt dan de competitie.

(Ter verduidelijking nog dit. Mensen zeggen soms dat Intel niet goed is als foundry wegens net genoemde vaststelling dat het procedé op high-end CPU's is geoptimaliseerd. Anno 2015 is dit echter zeker niet meer het geval. Intel heeft tegenwoordig een zeer flexibel procedé dat voor veel doeleinden gebruikt kan worden. Er is zowel een gewone als een SoC-variant; er is HP, SP, LP, ULP; de interconnect stack kan veranderd worden voor hogere dichtheid, betere kosten of prestaties; etc. -- zie bv. de 22nm-presentatie bij leesvoer.)

Daarnaast is er nog iets gebeurd. Hierna ga ik het hebben over de prestaties en verbruik van de transistor in plaats van de dichtheid, maar laat ik alvast verklappen dat 20nm niet zo’n verbetering is, met hogere lekkages en maar een kleine verbetering op vlak van gebruik. Om een 20nm-node tot zijn recht te laten komen, heb je FinFET nodig. Dus heeft iedereen (buiten Intel dat al sinds 2012 FinFET heeft) beslist om een jaar na 20nm een versie met FinFET in plaats van planar uit te brengen. Het marketingteam zag zijn kans: waar ze het laatste decennium steeds achterliepen, konden ze die achterstand nu verbloemen door die 20nm-versie met FinFET om te dopen tot 16/14nm. De volgende shrink zullen ze 10nm noemen, terwijl dat oorspronkelijk eigenlijk de shrink naar 14nm zou geweest zijn. Alles is dus verschoven, en wanneer je nu berichten hoort over 5nm, heeft men het eigenlijk op wat men eerst 7nm had genoemd. Wat je dus zult zien is dat de 10nm van al de rest erg op de 14nm van Intel lijkt, met nog die ‘achterstand’ die Intel traditioneel had een beetje zichtbaar. In de praktijk krijg je dus deze theoretische grafiek:

http://farm9.staticflickr.com/8125/15650137820_be301f008c_b.jpg
http://farm9.staticflickr...50137820_be301f008c_b.jpg

Op dit x-as jaar van introductie, op de y-as de gate pitch x metal pitch. Je ziet dat Intel achterliep bij 45nm, 32nm en 22nm (in vergelijking met 45, 28 en 20): op mijn beeldscherm meet ik drie keer een halve centimeter verschil, terwijl dat bij 14nm vs. 10nm zakt naar 0.3cm. Merk trouwens de aanhalingstekens op die Intel bij de anderen heeft geplaatst. Wat mij betreft terecht, aangezien het erg misleidend is om het getal te halveren terwijl je slechts één shrink hebt gedaan.

Wat ik hier tot slot nog over moet zeggen is dat er nog meerdere andere dingen zijn die de dichtheid kunnen beïnvloeden. Ik heb eerder al gezegd dat je een procedé kan aanpassen: je kan bijvoorbeeld de interconnect stack wijzigen voor dichtheid of snelheid. Verschillende “smaken” en libraries van een procedé kunnen verschillende eigenschappen en feature sizes hebben. Er zijn zelfs meerdere manier om transistors te tellen, bijvoorbeeld het aantal logische transistors versus de layout-transistors [11]. Dus met vergelijkingen van dichtheid in de praktijk – op chipniveau in plaats van transistorniveau – moet je voorzichtig zijn. Op zich mag het dus niet verwonderen als je ziet dat een mobiele 14nm Core-processor tot ~3GHz ontworpen voor het duurdere segment een mindere dichtheid heeft dan een 20nm smartphone-soc van bijvoorbeeld Apple waarvan alleen de twee cores iets boven een GHz komen, en de verschillen in hoe je transistors kan tellen kunnen dit nog vergroten (Intel gebruikt steeds de conservatieve getallen).

Zoals onderhand hopelijk duidelijk is geworden, is Moore’s Law vooral een economische wet, en heeft met snelheid, verbruik of efficiëntie weinig te maken, tenzij voor GPU’s die steeds meer cores kunnen blijven gebruiken voor snelheid. Maar de hoeveelheid transistors per mm² is nog maar de eerste factor. Het andere wat een invloed heeft, is de prijs per mm². Als een wafer immers zou verdubbelen in prijs, zou je weinig hebben aan dubbel zoveel transistors. Die is lange tijd redelijk constant gebleven, zo’n tien procent hoger per jaar, maar is sinds 22nm en 14nm eerder richting de 30 procent opgeschoven. Om dat te compenseren en om dus toch een lagere prijs per transistor te krijgen, focust Intel zich tegenwoordig meer op dichtheid, wat hen ook lukt. Bij TSMC klagen zowel Nvidia als ARM over het stagneren van de prijs per transistor [5].

Om het overzicht te bewaren. Ik was aan het uitleggen hoe een traditionele transistor eruit ziet en waar hij uit bestaat. Ik heb het eerst over de metal en gate pitch gehad in de loop van de geschiedenis, met al een vermelding dat de gate length, die mede verantwoordelijk is voor de kloksnelheid van de transistor, rond de 30nm is blijven steken (let op dat voor kloksnelheid ook de interconnect en zelfs het microarchitecturale design van de chip een rol spelen). Dan kwam deze uitweiding.

De belangrijkste (relevantste) takeaway uit deze uitweiding over Moore’s Law is dat er slechts een klein verschil is qua dichtheid bij TSMC en Samsung, ondanks het verschil in benaming. Beide nodes nemen gewoon hun 20nm BEOL en vervangen de FEOL door een FinFET. Aangezien de gate en metal pitch enkel iets zeggen over hoeveel plaats een transistor inneemt, kan je aan de hand van de dichtheid onmogelijk zeggen welk procedé het meest efficiënt is (performance/watt).

Dennard’s Law

Ik hervat nu dus mijn behandeling van (het stoppen van) Dennard’s Law met het kwalitatieve aspect – over de transistor zelf in plaats van hun grootte. Dat zal ons meer leren over hoe het komt dat een procedé meer of minder verbruikt. Neem om te beginnen volgende afbeelding over de lengte van de gate:

http://spectrum.ieee.org/image/1951338
http://spectrum.ieee.org/image/1951338 en http://regmedia.co.uk/2013/07/25/lg_scaling.jpg

De gate length is inderdaad agressief geschaald, en zat dan een paar nodes lang tegen zijn limiet aan. De reden hiervoor is leakage, dat rond het jaar 2000 een serieus probleem is geworden. Het was niet mogelijk om de gate nog kleiner te maken. Er zijn meerdere soorten leakage, en ik weet kwantitatief niet goed welke belangrijk zijn en wat hun oorzaken precies zijn. Een voorbeeld is lekstroom van de channel naar het substraat. Een grote oorzaak voor leakage is kwantummechanisch. Hetzelfde fenomeen dat ervoor zorgt dat de zon kan branden, zorgt ervoor dat je elektronen verliest: quantum tunneling. Er is een bepaalde kans dat een elektron door een barrière kan gaan, en die kans wordt snel groter naarmate de ‘muur’ kleiner wordt wanneer je het kwantummechanische regime binnenkomt. Dus ook al is een ster niet dicht en heet genoeg, toch zorgt probabilistische tunneling ervoor dat kernfusie wel kan plaatsvinden.

De (isolerende) barrière waar ze doorheen gaan is bijvoorbeeld die tussen de gate en de channel: de gate oxide. Die heeft men namelijk ook steeds verkleint zoals Dennard scaling gebiedt, maar men is op een gebrek aan atomen gestuit. De gate dielectric is namelijk niet zo groot, rond één nanometer (bij 65nm), maar is wel belangrijk om de gate kleiner te kunnen maken. Als je de gate dielectric niet meer kleiner kunt maken, wat niet meer kon i.v.m. leakage (al heb je bij 1nm sowieso niet veel ruimte meer), kan je de gate length ook niet verkleinen, en kan je de transistor niet sneller maken. Na 130nm is de snelheid van een transistor (gate delay, zie begin artikel bij Dennard's Law) minder gestegen dan het voorgeschreven tempo -- net als de switching energy trouwens, maar omdat die klassiek halveerde, is de winst daar nog steeds behoorlijk (zie presentatie van 22nm onder leesvoer). Hoewel we nog niet op het einde van Moore’s Law zijn, is er dus wel al een eerste, en belangrijk, onderdeel van een transistor dat het moeilijk krijgt.

Er zijn twee manieren om het probleem van leakage op te lossen. Je kan de transistor aanpassen om de mobiliteit/snelheid te verhogen, en je kan hem aanpassen om de leakage en het verbruik terug te dringen. Ik heb geen idee wat voor talloze kleine dingen men elke node doet, maar sinds de 90nm-node van Intel zijn er in ieder geval drie heel grote verbeteringen aan de transistor toegepast, met een vierde die op til staat voor 2017 (Intel). De rest van de industrie volgde dezelfde cadans, maar dan dan één node later, namelijk vanaf 65nm.

De eerste is strained silicon [6]. Door middel van het gebruiken van SiGe dat als substraat dient voor de Si aan de source en drain worden de siliciumatomen uitgerekt en verhoogt de mobiliteit. Bij 90nm voor Intel en 65nm bij de rest.

De volgende grote wijziging heeft Intel in 2008 doorgevoerd (45nm), terwijl TSMC in 2012 volgde (28nm), en maakt gebruik van de tweede manier om lekkage te verminderen. High-k metal gate (HKMG) [7] is exact de oplossing voor het probleem dat ik heb uitgelegd. Een tweeledige oplossing, in feite. Herinner je dat de gate oxide te dun is geworden: namelijk zo’n vier of vijf monolagen(!). De oplossing is een materiaal gebruiken met een hogere diëlektrische constante (relatieve permittiviteit), in het Engels een high-k dielectric. Dit zorgt ervoor dat het materiaal zich als een dunner materiaal gedraagt, maar in feite dus dikker is om zo de lekstroom tegen te gaan. Een zeldzaam geval waarbij je iets groter kan maken om het beter te maken, al wil je de high-k ook nog steeds liefst zo dun mogelijk maken.

http://www.3dnews.ru/_imgdata/img/2007/01/29/39396.jpg
http://www.3dnews.ru/_imgdata/img/2007/01/29/39396.jpg

De tweede wijziging aan de gate is de gate zelf, die men niet meer met gedoteerd polysilicon maakt, maar met een metaal. Dit is mede om fabricatieredenen gedaan. Metaal heeft ook een lagere elektrische weerstand, dus dat is nog een bonus. Ik laat het aan de lezer om zelf op te zoeken over gate-first en gate-last, maar gezien iedereen op gate-last is overgegaan is dat niet belangrijk. De metal gate vind je ook terug op het schema van de transistor.

http://www.legitreviews.com/images/reviews/450/penyrn_2.jpg
http://www.legitreviews.com/images/reviews/450/penyrn_2.jpg

Tot slot heb je de Tri-Gate of FinFET of 3D-transistor: 2012 Intel (22nm), 2015 TSMC en Samsung (bij 20nm, maar 14/16 genoemd). De FinFET is de derde grote wijziging aan de transistor. Zoals de drie benamingen het samenvatten is de FinFET driedimensionaal: de channel wordt rechtop gezet waardoor je een dunne fin hebt (circa 8nm breed), en de gate gaat rond de drie zijden. Dit zorgt ervoor dat je meer controle hebt over de stroom die erdoor loopt: de lekstroom van source naar drain wordt kleiner en je kan het voltage verlagen. Zoals eerder al vermeld is de subthreshold slope aanzienlijk kleiner.

http://si.wsj.net/public/resources/images/MK-BL837_INTEL_G_20110504183304.jpg
http://si.wsj.net/public/...NTEL_G_20110504183304.jpg

http://images.anandtech.com/reviews/cpu/intel/22nm/benefits.jpg
http://images.anandtech.c...u/intel/22nm/benefits.jpg

Bij 14nm heeft Intel weer een tweede, sterk verbeterde generatie geïmplementeerd, zoals het ook bij strained silicon en hkmg heeft gedaan. De fins zijn hoger en rechthoekiger geworden. Ze kunnen dichter bij elkaar geplaatst worden. De variatie is verminderd waardoor er minder fins nodig zijn om dezelfde performance te hebben. Nog enkele afbeeldingen: http://images.anandtech.com/doci/8367/14nmFinfet3.png en http://cdn.wccftech.com/w...d-Generation-Tri-Gate.jpg en http://cdn.wccftech.com/w...14nm-Transistor-Fin-1.jpg. TSMC en Samsung hebben hun eerste node met FinFET respectievelijk 16nm en 14nm genoemd, ook al is het verschil met 20nm verder beperkt. Hoeveel de drie 16/14nm-transistors op zich van elkaar verschillen op kwantitatief niveau is momenteel onbekend. Het is dus niet mogelijk om op basis van theoretische kennis voorspellingen te doen over welke fabrikant de snelste A9 heeft, al is algemeen aanvaard dat Intel voorop loopt (2e generatie en kleinere feature sizes versus 1e generatie van anderen).

Wat gaat de toekomst brengen? Op basis van wat Intel heeft gepubliceerd en gezegd en de trend om elke tweede node iets nieuws te introduceren, is het heel waarschijnlijk dat Intel de overstap naar het post-siliciumtijdperk maakt bij 10nm in de tweede helft van 2017 [8]. In plaats van silicium wordt de channel van een III-V-halfgeleider (n-type) en Ge (p-type) gemaakt. Zij hebben een hogere mobiliteit dan silicium, zoals strained silicon. Het threshold voltage zal ook lager worden, voor mobiele toepassingen.

Voor de duidelijkheid: n-type en p-type refereren naar hoe de Si gedoteerd is, met een element uit groep III (p-type, hole) of V (n-type, vrije elektron). Samen worden ze complementair gebruikt als CMOS opdat er enkel energie nodig is om de transistor te schakelen. Voor nog meer duidelijkheid: als ik III-V zeg als volgende technologie heb ik het niet over het doteren, maar over het materiaal zélf dat silicium vervangt in de channel.

Daarnaast zou Intel misschien een quantum well gebruiken (QWFET).

Voor Samsung en TSMC gebeurt er niets al te bijzonder bij 10nm (2017), net zoals Intels 14nm. Omdat zij een naam hebben overgeslagen (14nm), zullen zij pas bij 7nm in de verre toekomst overschakelen op een ander channel dan Si. Hoewel ik het weinig plausibel acht, hoor ik op SemiEngineering vooral commentaar over SiGe in plaats van Ge en pessimisme over III-V.

Als je dit alles bijeenraapt in een vergelijkende grafiek:

http://www.kitguru.net/wp-content/uploads/2014/07/intel_tech_lead.png
http://www.kitguru.net/wp...14/07/intel_tech_lead.png en http://vrworld.com/Data/2...Transistor_Leadership.jpg

De belangrijkste takeaway van dit stuk is dat de karakteristieken van een transistor vooral afhankelijk zijn van zijn architectuur, van het specifieke recept hoe hij gemaakt wordt, niet zozeer van zijn grootte. Hoe rechthoekig is de fin? Hoe hoog is die? Etc. Zo heeft TSMC naast haar 16nm nog een zuinigere 16nm Plus-uitvoering klaar die tevens qua dichtheid Samsung benaderd (zie vergelijking dichtheid), en weer een verbetering van haar transistor bij 10nm (naast een shrink).

Ook niet onbelangrijk zijn trouwens de yields. Hier komt de alombekende silicon lottery in het spel. Als je mindere eisen aan verbruik en prestaties stelt (voltage nodig voor specifieke frequentie), kan je meer chips houden die bij strengere eisen weggegooid zouden zijn.

Conclusie

Aangezien er geen publieke bronnen zijn over de transistors van Samsung en TSMC (voor zover ik weet), kunnen we onmogelijk a priori voorspellingen maken over wat het beste procedé is. Op vlak van dichtheid hebben we wel zowel theoretische als praktische data, die overeenkomen en Samsung een kleine voorsprong geven. Wat ik echter niet genoeg kan benadrukken is dat

1. de naam het procedé meer op marketing gestoeld is en je helemaal niets over het eigenlijke procedé leert; en
2. het oppervlak dat de transistor inneemt of de dichtheid van transistors je in dit post-Dennard tijdperk helemaal niets zegt over het verbruik ervan.

Die tijd is al lang voorbij. Dennard scaling is tot de grote ontzetting van alle desktop- en processorliefhebbers al meer dan een decennium dood. Reden is leakage dat een groot probleem is geworden, en het opraken van atomen om de gate oxide te verkleinen.

De praktijktests zouden ons leren dat TSMC de beste transistor heeft gemaakt van de twee, ten koste van wat time to market (TTM) en een beetje dichtheid, maar vermoedelijk wel met betere yields volgens de geruchtenmolen. Hierop moet echter de kritische noot gemaakt worden dat de sample size niet van statistische waarde is, en dat er sindsdien andere tests gedaan zijn die het grote verschil in Geekbench nuanceren [9]. Ik kan het niet laten, maar los daarvan, bevindt Intel zich nog op eenzame hoogte, als pioniers, voor de rest uit.

Tot slot kan je je nog afvragen welk verschil dit in de praktijk gaat maken. Mensen zijn steeds snel om naar de SoC, of zelfs naar de modem, te wijzen, maar de realiteit is dat die componenten weinig verbruiken tenzij ze actief en intensief gebruikt worden door bijvoorbeeld games. De meeste energie gaat naar het scherm. Sowieso zijn de 20nm-socs met FinFET een grote verbetering op vlak van efficiëntie in vergelijking met hun planar-voorganger (A8) op 20nm.

http://images.anandtech.com/doci/6936/Screen%20Shot%202013-05-06%20at%2011.18.36%20AM.png
http://images.anandtech.c...%20at%2011.18.36%20AM.png

Om af te ronden, hoewel het interessant is om twee identieke producten op equivalente procedés van twee fabrikanten te vergelijken, ging mijn voornaamste interesse in dit artikel uit om deze actualiteit te koppelen aan een overzicht van de moderne halfgeleiderindustrie. Wat dat betreft heb ik de berichtgeving over Apple als haak gebruikt om de rest aan te koppelen. Ik heb getracht de lezer een appreciatie te geven van de complexiteit van halfgeleiders.



Bronnen en leesvoer

[1] nieuws: Apple: verschil in accuduur tussen iPhone 6s-modellen is klein
[2] nieuws: Gerucht: Intel werkt aan soc voor Apple-apparaten
[3] http://forums.anandtech.com/showthread.php?t=2281195
[4] http://spectrum.ieee.org/...law-for-energy-efficiency en http://spectrum.ieee.org/.../outperforming-moores-law
[5] http://www.extremetech.co...2nm-essentially-worthless en http://www.extremetech.co...ds/2014/02/Cortex-A17.jpg
[6] https://en.wikipedia.org/wiki/Strained_silicon
[7] http://spectrum.ieee.org/...design/the-highk-solution
[8] http://semiengineering.com/one-on-one-mark-bohr/ en http://www.realworldtech.com/intel-10nm-qwfet/
[9] http://anandtech.com/show...t-for-tsmc-and-samsung-a9 en http://arstechnica.com/ap...ry-life-of-two-apple-a9s/ en http://www.tomshardware.c...amsung-vs-tsmc,30306.html en http://www.eetimes.com/au...tion_id=36&doc_id=1328041
[10] Zie IEDM 2014 paper van 14nm (Lgate): http://www.intel.com/cont...edm-2014-presentation.pdf. Cf. Lgate van vorige nodes: https://upload.wikimedia....tel_gate_length_trend.PNG. En zie ook volgende afbeeldingen: http://www.nature.com/nna...icle/nnano.2010.89-f1.jpg en http://www.xbitlabs.com/images/cpu/presler/lgate.jpg en http://www.nanowerk.com/news/id1452.jpg.
[11] http://www.anandtech.com/...and-995m-are-both-correct

* Inleiding halfgeleiderindustrie: https://www.youtube.com/watch?v=NGFhc8R_uO4
* De nuances van Moore’s Law: http://spectrum.ieee.org/...oores-law-its-complicated + links in artikel en http://spectrum.ieee.org/...s/devices/transistor-wars
* Inleiding halfgeleiders: http://www.anandtech.com/...s-technology-and-industry
* Uitleg MOSFET en problemen: https://en.wikipedia.org/wiki/MOSFET#MOSFET_scaling
* Threshold: https://en.wikipedia.org/wiki/Threshold_voltage en https://en.wikipedia.org/wiki/Subthreshold_slope en http://www.realworldtech.com/near-threshold-voltage/
* Intel planar vs FinFET (22nm): http://www.intel.com/cont...adership-presentation.pdf
* Intel 14nm: http://www.intel.com/cont...2014-idf-presentation.pdf en http://intelstudios.edges...4/archive/wh/archive.html
* Dielectric constant: https://en.wikipedia.org/wiki/Relative_permittivity
* Inleiding semiconductor physics: https://www.youtube.com/w...P5YfI_CCQEa6UVi1RvrOPRpgR (voor andere, kortere filmpjes: zoek ‘semiconductors’)

Wie dit een informatief artikel vond en de ruwweg tien uur die ik eraan besteed heb wilt erkennen, kan overwegen hem op te geven als kandidaat voor blog van de maand. Indien niet, ben je vrij om hieronder je feedback te plaatsen. Dit is de eerste keer dat ik een artikel van deze lengte publiceer, dus het niveau zal allicht niet optimaal zijn.

tweakers - blog van de maand nominatie
plaats deze banner onder je eigen blog


Update:
18/10 om 1:00: Dit blog was al geschreven voor het nieuws van zaterdag dat Intel op termijn de soc voor de iPhone zou produceren. Ook al refereer ik daarnaar in het begin, verder ga ik er dus niet op in. Ik heb echter onder het nieuwsbericht zelf enkele gedachten geschreven: witeken in 'nieuws: Gerucht: Intel werkt aan soc voor Apple-apparaten'.

19/10 om 1:20:
Eén iets wat ik misschien duidelijker hadden kunnen zeggen is dat Dennard scaling is opgehouden bij 130nm, vandaar alle transistorinnovaties die vanaf 90nm gekomen zijn en nog lang zullen komen. Als je een 130nm-transistor neemt en die verkleint naar moderne feature sizes van een 14nm node zonder aanpassingen, dan zou die zonder twijfel erg veel slechter zijn dan zelfs de gewone 130nm, dus laat staan 14nm.

Wat ik daarnaast nog duidelijker wil maken, is wat alle fabrikanten buiten Intel gedaan hebben. Ik heb in mijn artikel meermaals naar slides van Intel gerefereerd, waar sommigen misschien wat problemen mee hebben in verband met betrouwbaarheid, dus laat ik een objectieve, neutrale partij aan het woord, namelijk ASML over wat dus feitelijk haar klanten zijn.

http://i.imgur.com/bDlN7Lm.png
http://i.imgur.com/bDlN7Lm.png

22/10 om 22:30:
Ik heb het artikel nog eens aandachtig nagelezen op spel- en andere fouten of slordigheden, op onduidelijkheden, en ik heb aldus over heel het artikel een reeks -- relatief kleine -- wijzigingen en toevoegingen aangebracht om de kwaliteit te verbeteren.