テスラ AI DAY スーパーカット

        www.youtube.com

 

テスラのAIデーの、ニューラル・アルゴリズム及びシミュレーション部分のスーパーカットです。

 

ここで解説されている手法は実務でも利用されているものもあり、その点にモートがあるわけではありません。しかしそれらをすべて統合し、人間の視覚野のシミュレーションともいうべきシステムを構築してしまったこと、それを用いて大規模にトレーニングするためのデータおよび演算環境をそろえてしまっていること。

 

これは他社では絶対に真似できません。

 

テスラに唯一近いアプローチを採用している企業は、ジョージ・ホッツのC3.AI (シンボル $AI)ですが、フォーカスしている市場が異なること、データ収集においてはお話にならないことなど、自動運転に関してはテスラに大きく引き離されています。

 

また、とりわけLiDARを利用して3Dマップを作っているそれ以外の無数の他社のエンジニアは「とりあえずデモを出して何も知らない役員をゴマかしているけど、この技術の先に本当に自動運転が実現できる未来があるのか?」と自問していることでしょう。

 

その他社の役員は、自社の自動運転の「デモのためのデモ」を見て悦にいっているとともに、それを使っていかに顧客を目くらましするかを日々考えていることでしょう。

 

アンドレイ:アーケティクチャー全体:ベクタースペースの生成

②アショック:オートラベリング

アンドレイ:データ収集

④アショック:シミュレーション

 

の順番で話が進みます。

 

トピックは以下です。

 

 

〇イーロンが登壇

f:id:stockbh:20211103154630p:plain

what we want to show today is that tesla is much more than an electric car company that we have deep AI activity in hardware on the inference level on the training level

 

we're arguably the leaders in real world AI as it applies to the real world those of you who have seen the full self-driving beta i can appreciate

 

the rate at which the tesla neural net is learning to drive this is

 

a particular application of AI but there's more

 

there are applications down the road that will make sense

 

i want to encourage anyone who is interested in solving real-world AI problems at either the hardware or the software level to join tesla or consider joining tesla

 

〇ANDREJが登壇

i lead the vision team here at tesla autopilot and i'm incredibly excited to be here to kick off this section

 

giving you a technical deep dive into the autopilot stack and showing you all the under the hood components that go into making the car drive by itself in the vision

 

component what we're trying to do is we're trying to design a neural network that processes the raw information

 

which in our case is the eight cameras that are positioned around the vehicle and they send those images and we need to process that in real time into the vector space

 

and this is a three-dimensional representation of everything you need for driving

 

so this is the three-dimensional positions of lines edges curbs traffic signs traffic lights cars their positions orientations depth velocities and so on

 

〇これをやりたいんですけどね。

f:id:stockbh:20211103154953p:plain

here i'm showing the video of the raw inputs that come into the stack and then neural net processes that into the vector space

 

and you are seeing parts of that vector space rendered in the instrument cluster on the car

 

what i find fascinating about this is that we are effectively building a synthetic animal from the ground up

 

the car can be thought as an animal.

 

it moves around it senses the environment and acts autonomously and intelligently

 

we are building all the components from scratch in-house

 

so we are building all the mechanical components of the body the nervous system which is all the electrical components

 

and for our purposes the brain of the autopilot and specifically for this section the synthetic visual cortex

 

now the biological visual cortex actually has quite intricate(入り組んだ) structure and a number of areas that organize the information flow of the human brain

 

in your visual cortexes light hits the retina(網膜)

 

it goes through the LGN all the way to the back of your visual cortex

 

then goes through areas v1 v2 v4 the IT

 

the venture on the dorsal streams and

 

the information is organized in a certain layout

 

when we are designing the visual cortex of the car

 

we also want to design the neural network architecture of how the information flows in the system

 

〇視覚野のアナロジー

f:id:stockbh:20211103155334p:plain

the processing starts when light hits our artificial retina and we are going to process this information with neural networks

 

now i'm going to roughly organize this section chronologically(年代順に)

 

starting off with the neural networks

 

what they looked like four years ago when i joined the team and how they have developed over time

 

four years ago the car was mostly driving in a single lane going forward on the highway

 

and it had to keep lane and it had to keep distance away from the car in front of us

 

and at that time all of processing was only on individual image level

 

so a single image has to be analyzed by a neural net

 

and make little pieces of the vector space

 

process that into little pieces of the vector space

 

so this processing took the following shape

 

we take 1280 by 960 input and this is 12 bit integers streaming in at roughly 36 hertz

 

now we're going to process that with the neural network

 

〇レジデュアルNN→レグネッツ

f:id:stockbh:20211103155650p:plain

so instantiate(インスタンス化する) a feature extractor backbone

(レジデュアルNNを使った特徴抽出バックボーン)

 

in this case we use residual neural networks

 

we have a stem and a number of residual blocks connected in series

(ステムとレジデュアルブロックス

now the specific class of resnets that we use are called regnets

 

regnets offer a very nice design space for neural networks

(レグネッツによるNNデザインスペース)

because they allow you to nicely trade off latency and accuracy

(レイテンシとアキュラシのトレードオフ

 

〇REGNETS

f:id:stockbh:20211103160116p:plain

now these regnets give us a number of features as an output at different resolutions in different scales

 

so in particular on the very bottom of this feature hierarchy

 

we have very high resolution information with very low channel counts

ボトム(160*120*64)→ディティール把握

and all the way at the top we have low spatial,low resolution but high channel counts

トップ(20*15*512)→概要とコンテクストを把握

so on the bottom we have a lot of neurons that are really scrutinizing the detail of the image

 

and on the top we have neurons that can see most of the image and have a lot of that scene context

 

〇BiFPN

f:id:stockbh:20211103160206p:plain

then we like to process this with feature pyramid networks(フィーチャーピラミッドネットワーク:FPN)

 

in our case we like to use BiFPNs

 

residual NN = Regnets

feature pyramid networks = BiFPNs

 

and they get to multiple scales to talk to each other effectively and share a lot of information

 

so for example if you're a neuron all the way down in the network

 

you're looking at a small patch and you're not sure this is a car or not

 

ihelps from the top players are useful

 

like hey you are actually in the vanishing point of this highway

 

and so you can disambiguate that this is probably a car

 

〇検出を担当するヘッドでの、車両の検出ケース

f:id:stockbh:20211103160415p:plain

after BiFPN and a feature fusion across scales

 

then we go into task specific heads(単体のヘッド)

 

so for example if you are doing object detection

 

we have a one stage yolo like object detector here

 

where we initialize a raster(ラスターイメージ) and there's a binary bit per position telling you whether or not there's a car

 

and then in addition to that if there is a car

 

here's a bunch of other attributes you might be interested in

 

so the x y with height offset or any of the other attributes like what type of a car is this and so on

 

so this is for the detection by itself

 

〇単体のヘッドとハイドラネットの違い

f:id:stockbh:20211103161111p:plain

now very quickly we discovered that we don't just want to detect cars

 

we want to do a large number of tasks

 

for example we want to do traffic light recognition and detection a lane prediction and so on

 

quickly we converge in this kind of architectural layout

 

where there's a common shared backbone and then branches off into a number of heads

 

so we call these therefore hydranets and these are the heads of the hydra

 

this architectural layout has a number of benefits

以下はハイドラネットの利点

1

number one because of the feature sharing we can amortize the forward pass inference in the car at test time and so this is very efficient to run

 

because if we had to have a backbone for every single task that would be a lot of backbones in the car

 

2

number two this decouples all of the tasks so we can individually work on every one task in isolation

 

and for example we can upgrade any of the data sets or change some of the architecture of the head and so on

 

and you are not impacting any of the other tasks and so we don't have to revalidate all the other tasks which can be expensive

 

3

and number three because there's this bottleneck here in features

 

so we cache these features to disk and

 

when we are doing these fine tuning workflows, we only fine-tune from the cached features up and we only fine tune the heads

 

in terms of our training workflows

 

we will do an end-to-end training run 

 

once in a while where we train everything jointly

 

then we cache the features at the multi-scale feature level

 

and then we fine-tune off of that for a while

 

and then end-to-end train once again and so on

 

〇画像上(2D)でのラベリング

f:id:stockbh:20211103161311p:plain

so here's predictions that we were obtaining several years ago from one of these hydro nets

 

again we are processing individual images and we're making a large number of predictions about these images

 

here you can see predictions of the stop signs the stop lines the lines the edges the cars the traffic lights the curbs whether or not the car is parked all of the static objects like trash cans cones and so on and

 

everything here is coming out of the Hydra net

 

so that was all fine and great

 

but as we worked towards FSD we quickly found that this is not enough

 

where this first started to break(ほころび始めた、破綻し始めた) was when we started to work on smart summon(スマート・サモンで)

 

i am showing some of the predictions of only the curb detection task

 

and i'm showing it for every one of the cameras

 

so we'd like to wind our way around the parking lot to find the person who is summoning the car

 

now the problem is that you can't just directly drive on image space predictions (カメラ画像により表示されている映像(2D)、その中をドライブしていくやり方ではうまくいかなかった。)

 

you actually need to cast them out and form a vector space around you

 

〇 オキュパンシートラッカー(ダメ)

f:id:stockbh:20211103161652p:plain

we attempted to do this using c++ and developed the occupancy tracker(オキュパンシー・トラッカー) at the time

 

here we see that the curb detections from the images are being stitched up across camera scenes across camera boundaries

 

and over time there have been two major problems with the setup

以下問題点

1

number one we very quickly discovered that tuning the occupancy tracker and all of its hyper parameters was extremely complicated

 

you don't want to do this explicitly by hand in c++

 

you want this to be inside the neural network and train that end-to-end

 

2

number two we very quickly discovered that the image space is not the correct output space

 

you don't want to make predictions in image space

 

you really want to make it directly in the vector space

 

〇2Dラベリングを、ベクタースペースに投影してみると。。。

f:id:stockbh:20211103161830p:plain

here's a way of illustrating the issue

 

i'm showing on the first row the predictions of our curves

 

and our lines in red and blue they look great in the image

 

but once you cast them out into the vector space

 

things start to look really terrible and we are not going to be able to drive on this

 

you can see how the predictions are quite bad and the reason for this is because you need to have an extremely accurate depth per pixel in order to actually do this projection

(この方式だと、1ピクセル毎の超正確な深度が必要→それは無理)

 

and so you can imagine just how high of the bar it is

 

to predict that depth in these tiny every single pixel of the image so accurately

 

and also if there's any occluded area where you'd like to make predictions

 

you will not be able to predict it because it's not an image space concept

 

〇カメラごとに検出して、フュージョンする問題点

f:id:stockbh:20211103162034p:plain

2

the other problems with this is also for object detection

 

if you are only making predictions per camera then sometimes you will encounter cases like this

 

where a single car actually spans five of the eight cameras(8カメラ中5カメラをスパンする車両)

 

so if you are making individual predictions

 

then since no single camera sees all of the car and you're not going to be able to do a very good job of predicting that whole car

 

and it's going to be incredibly difficult to fuse these measurements

 

〇マルチカメラ画像をどのようにベクタースぺースに統合していったのか

f:id:stockbh:20211103162342p:plain

so instead we'd like to take all of the images and simultaneously feed them into a single neural net and directly output in vector space

 

now this is very easily said much more difficult to achieve

 

but roughly we want to lay out a neural net in this way

 

where we process every single image with a backbone and then we want to fuse them

 

and we want to re-represent the features

 

from image space features to directly vector space features

(イメージ空間フィーチャーズとベクトル空間フィーチャーズの違い)

and then go into the decoding of the head

(それを各ヘッドでディコーディング)

 

2-1 トランスフォーマー(今流行りの手法)

so there are two problems with this problem

 

number one how do you actually create the neural network components that do this transformation

 

you have to make it differentiable so that end-to-end training is possible

 

2-2 ベクトル空間向けの特徴量の抽出

number two if you want vector space predictions from your neural net

 

you need vector-specific based data sets

 

just labeling images and so on is not going to get you there

 

you need vector space labels

 

for now i want to focus on the neural network architectures

 

i'm going to deep dive into problem number one

 

〇BEVのある部分と、各カメラ画像のどの部分が対応しているのか

f:id:stockbh:20211103162736p:plain

we're trying to have this bird's eye view prediction instead of image space predictions

 

for example let's focus on a single pixel in the output space in yellow

 

and this pixel is trying to decide

 

Am i part of a curb or not

 

where should the support for this kind of a prediction come from in the image space

 

we know how the cameras are positioned and

 

they're extrinsic and intrinsic so we can roughly project this point into the camera images

 

and the evidence for whether or not this is a curve may come from somewhere here in the images

 

the problem is that this projection is really hard to actually get correct

 

because it is a function of the road surface and the road surface could be sloping up or sloping down

 

also there could be other data dependent issues for example there could be inclusion due to a car

 

so if there's a car occluding this part of the image

 

then actually you may want to pay attention to a different part of the image

 

not the part where it projects

 

and because this is data dependent it's really hard to have a fixed transformation for this component

 

トランスフォーマーの使用

f:id:stockbh:20211103163023p:plain

so in order to solve this issue we use a transformer(トランスフォーマー) to represent this space

 

this transformer uses multi-headed self-attention(マルチヘッド・セルフアテンション)

 

and blocks off it in this case

 

we can get away with even a single block doing a lot of this work effectively

 

what this does is you initialize a raster(ラスターイメージ) of the size of the output space

 

and you tile it with positional encodings(ポジショナル・エンコーディングズ)

 

with size and coses in the output space

 

and then these get encoded with an MLP into a set of query vectors(クエリ―ベクトル)

 

and then all of the images and their features also emit(放出する) their own keys and values

 

and then the queries keys and values feed into the multi-headed self-attention

 

what's happening is that every single image piece is broadcasting what it is a part of in its key

 

i'm part of a pillar in roughly this location

 

and i'm seeing this kind of stuff and that's in the key

 

then every query is along the lines of hey i'm a pixel in the output space at this position

 

and i'm looking for features of this type then the keys and the queries interact multiplicatively

 

and then the values get pulled accordingly

 

and so this re-represents(空間の再表象) the space

 

and we find this transformation to be very effective if you do all of the engineering correctly

 

this again is very easily said difficult to do

 

you need to do all of the engineering correctly

 

〇カメラキャリブレーション

f:id:stockbh:20211103163253p:plain

so one more thing you have to be careful with some of the details here when you are trying to get this to work

 

in particular all of our cars are slightly cockeyed in a slightly different way

 

and so if you're doing this transformation from image space to the output space

 

you really need to know what your camera calibration is

 

and you need to feed that into the neural net

 

and so you could definitely just like concatenate(文字列を結合する)the camera calibrations of all of the images

 

and somehow feed them in with an MLP

 

but we found that we can do much better by transforming all of the images into a synthetic virtual camera(シンセティック・バーチャル・カメラ)

 

using a special rectification(整流) transform

 

〇レクティフィケーション→コモンバーチャルカメラ

f:id:stockbh:20211103163436p:plain

so this is what that would look like

 

we insert a new layer right above the image which is rectification layer(整流レイヤー)

 

it's a function of camera calibration and it translates all of the images into a virtual common camera(バーチャル・コモン・カメラ)

 

so if you were to average up(次々と平均値を求める) a lot of repeater images(リピーターカメラの画像) for example which faced at the back

 

without doing this you would get a kind of a blur

 

but after doing the rectification transformation(整流トランスフォーメーション)

 

you see that the back mirror gets really crisp(クッキリとした)

 

this improves the performance quite a bit

 

〇ドライバブルなベクタースペースの生成

f:id:stockbh:20211103163607p:plain

so here are some of the results on the left we are seeing what we had before

 

and on the right we're now seeing significantly improved predictions coming directly out of the neural net

 

this is a multi-camera network predicting directly in vector space

 

it's basically night and day you can actually drive on this

 

this took some time and some engineering and incredible work from the AI team to actually get this to work and deploy and make it efficient in the car

 

this also improved a lot of our object detection

 

〇マルチカムとシングルカムの性能差

f:id:stockbh:20211103163730p:plain

so for example here in this video i'm showing single camera predictions in orange

 

and multi-camera predictions in blue

 

if you can't predict these cars if you are only seeing a tiny sliver of a car

 

your detections are not going to be very good

 

and their positions are not going to be good

 

but a multi-camera network does not have an issue

 

here's another video from a more nominal sort of situation

 

and we see that as these cars in this tight space across camera boundaries

 

there's a lot of jank that enters into the predictions

 

and the whole setup just doesn't make sense especially for very large vehicles like this one

 

and we can see that the multi-camera networks struggle significantly less with these kinds of predictions

 

so at this point we have multi-camera networks and they're giving predictions directly in vector space

 

but we are still operating at every single instant in time(個々の瞬間画像)  completely independently

 

〇画像のみの場合の問題点→記憶の欠如

f:id:stockbh:20211103163938p:plain

so very quickly we discovered that there's a large number of predictions we want to make that actually require the video context and we need to figure out how to feed this into the net

 

in particular is this car parked or not

 

is it moving? how fast is it moving? is it still there? it's temporarily occluded

 

or for example if i'm trying to predict the road geometry ahead

 

it's very helpful to know the signs or the road markings that i saw 50 meters ago

 

〇ビデオニューラルネットアーケティクチャー

f:id:stockbh:20211103164128p:plain

so we try to insert video modules(時系列データを認識するビデオモジュール)into our neural network architecture and this is one of the solutions that we've merged on

 

 we have the multi-scale features as we had them from before

 

and what we are going to now insert is a feature queue module(フィーチャー・キュー・モジュール)

 

that is going to cache some of these features over time

 

and then a video module that is going to fuse this information temporally

 

and then we're going to continue into the heads that do the decoding

 

now i'm going to go into both of these blocks one by one

 

also in addition notice here that we are also feeding in the kinematics(キネマティクス/運動学)

 

this is basically the velocity and the acceleration that's telling us about how the car is moving

 

so not only are we going to keep track of what we're seeing from all the cameras

 

but also how the car has traveled

 

〇フィーチャーキューモジュール

f:id:stockbh:20211103164310p:plain

so here's the feature cue and the rough layout of it

 

we are basically concatenating(連結する) these features over time

 

and the kinematics of how the car has moved

 

and the positional encodings and that's being concatenated encoded and stored in a feature queue

 

and that's going to be consumed by a video module

 

now there's a few details again to get right

 

in particular with respect to the pop and push mechanisms

 

and when do you push

 

〇時間と空間の記憶

f:id:stockbh:20211103164558p:plain

here's a cartoon diagram illustrating some of the challenges

 

there's going to be the ego cars coming from the bottom and coming up to this intersection here

 

and then traffic is going to start crossing in front of us

 

and it's going to temporarily start occluding some of the cars ahead

 

and then we're going to be stuck at this intersection for a while and just waiting our turn

 

this is something that happens all the time and it's a cartoon representation of the challenges

 

so number one with respect to the feature queue and when we want to push into a queue

 

obviously we'd like to have a time-based queue

 

where for example we enter the features into the queue say every 27 milliseconds

 

and so if a car gets temporarily occluded

 

then the neural network now has the power to be able to look and reference the memory in time

 

and learn the association that hey even though this thing looks occluded right now

 

there's a record of it in my previous features

 

and i can use this to still make a detection

 

for example suppose you're trying to make predictions about the road surface and the road geometry ahead

 

and you're trying to predict that i'm in a turning lane and the lane next to us is going straight

 

then it's really necessary to know about the line markings and the signs

 

and sometimes they occur a long time ago

 

and if you only have a time-based queue(時間ベースのキュー) you may forget the features

 

while you're waiting at your red light

 

so in addition to a time-based queue we also have a space-based queue(空間ベースのキュー)

 

we push every time the car travels a certain fixed distance

 

in this case we have a time based queue and a space-based queue to feed to cache our features

 

and that continues into the video module

 

〇ビデオモジュール

f:id:stockbh:20211103165048p:plain

now for the video module we looked at a number of possibilities of how to fuse this information temporally

 

so we looked at three-dimensional convolutions transformers, axial transformers

(3Dコンボリューション・トランスフォーマーズ、アクシャル・トランスフォーマーズ)

 

in an effort to try to make them more efficient recurrent neural networks (RNN) of a large number of flavors

 

〇空間RNNビデオモジュール

f:id:stockbh:20211103165219p:plain

i want to spend some time on is a spatial recurrent neural network video module(空間RNNビデオ・モジュール)

 

because of the structure of the problem we're driving on two-dimensional(2D) surfaces

 

we can actually organize the hidden state into a two-dimensional lattice(2Dラティス)

 

and then as the car is driving around

 

we update only the parts that are near the car and where the car has visibility

 

so as the car is driving around

 

we are using the kinematics to integrate the position of the car in the hidden features grid

 

and we are only updating the RNN at the points where we have that are nearby us

 

〇多様な空間認識が生まれる

f:id:stockbh:20211103165411p:plain

here's an example of what that looks like

 

the car is driving around

 

and we're looking at the hidden state of this RNN

 

and these are different channels in the hidden state(短期記憶、ワーキングメモリの役割を果たす)

 

so after optimization and training this neural net

 

some of the channels are keeping track of different aspects of the road

 

for example the centers of the road the edges the lines the road surface and so on

 

f:id:stockbh:20211103165634p:plain

so this picture is looking at the mean of the first 10 channels for different traversals of different intersections in the hidden state

 

there's cool activity as the recurrent neural network is keeping track of what's happening at any point in time

 

and you can imagine that we've now given the power to the neural network

 

to actually selectively read this memory and write to this memory

 

so for example if there's a car right next to us and is occluding some parts of the road

 

then now the network has the ability to not to write to those locations

 

but when the car goes away and we have a good view

 

then the recurring neural net can say okay we have very clear visibility we definitely want to write information about what's in that part of space

 

〇空間RNN

f:id:stockbh:20211103165845p:plain

here's a few predictions that show what this looks like

 

here we are making predictions about the road boundaries in red

 

intersection areas in blue road centers and so on so

 

we're only showing a few of the predictions here

 

just to keep the visualization clean

 

and yeah this is done by the spatial RNN(空間RNN)

 

and this is only showing a single clip

 

a single traversal but you can imagine there could be multiple trips through here

 

and number of cars a number of clips could be collaborating to build this map

 

which is an HD map

 

except it's not in a space of explicit items

 

The “HD map”is in a space of features of a recurrent neural network

 

the video networks also improved our object detection

 

〇ビデオネットワークによる、ドロップの改善

f:id:stockbh:20211103170151p:plain

(オクルードされた場合に、ビデオモジュールでは2台の車両は、ディテクトされているのに、シングルフレームでは、ドロップしている)

so in this example i want to show you a case where there are two cars over there and one car is going to drive by and occlude them briefly

 

so look at what's happening with the single frame predictions

 

and the video predictions as the cars pass in front of us

 

so that makes a lot of sense so a quick playthrough through what's happening when both of them are in view

 

the predictions are roughly equivalent

 

and you are seeing multiple orange boxes

 

because they're coming from different cameras

 

when they are occluded the single frame networks drop the detection

 

but the video module remembers it and we can persist the cars

 

and then when they are only partially occluded

 

the single frame network is forced to make its best guess about what it's seeing and it's forced to make a prediction and it makes a terrible prediction

 

but the video module knows that there's only a partial

 

knows that this is not a very easily visible part right now and doesn't actually take that into account

 

〇深度と加速度の改善

f:id:stockbh:20211103170448p:plain

we also saw significant improvements in our ability to estimate depth and especially velocity

 

so here i'm showing a clip from our remove the radar push

 

where we are seeing the radar depth and velocity in green

 

and we were trying to match or even surpass the signal just from video networks alone

 

and what you're seeing here is in orange

 

we are seeing a single frame performance

 

and in blue we are seeing again video modules and so you see that the quality of depth is much higher

 

and for velocity

 

the orange signal, you can't get velocity out of a single frame network

 

so we just differentiate depth to get that but the video module is right on top of the radar signal

 

and so we found that this worked extremely well for us

 

〇現段階の全体図

f:id:stockbh:20211103170658p:plain

so here's putting everything together this is what our architectural roughly looks like today

 

we have raw images feeding on the bottom

 

they go through a rectification layer to correct for camera calibration

 

and put everything into a common virtual camera

 

we pass them through regnet's (residual networks) to process them into a number of features at different scales

 

we fuse the multi-scale information with BiFPN

 

this goes through transformer module to re-represent it into the vector space

 

in the output space this feeds into a feature queue in time

 

or space that gets processed by a video module like the spatial rnn

 

and then continues into the branching structure of the hydra net

 

with trunks and heads for all the different tasks

 

so that's the architecture roughly what it looks like today

 

and on the right you are seeing some of its predictions which visualize both in a top-down vector space

 

and also in images this architecture has been definitely complexified from just very simple image-based single network about three or four years ago

 

and continues to evolve

 

now there's still opportunities for improvements that the team is actively working on

 

you'll notice that our fusion of time and space is fairly late in neural network terms

 

we can do earlier fusion of space or time

and do cost volumes or optical flow like networks on the bottom

 

or our outputs are dense rasters(ラスタ)

 

and it's actually pretty expensive to post-process some of these dense rasters in the car

 

and we are under very strict latency requirements so this is not ideal

 

we actually are looking into all kinds of ways of predicting

 

just the sparse structure(スパース・ストラクチャー) of the road

 

maybe point by point or in some other fashion that is that doesn't require expensive post processing

 

but this basically is how you achieve a very nice vector space

 

 

 

 

〇インド出身のアショクが登壇

最適化問題を解く

f:id:stockbh:20211110172128p:plain

hi everyone my name is ashok i lead the planning and controls auto labeling and simulation teams

 

the visual networks take dense video data and then compress it down into a 3D vector space

 

the role of the planner is to consume this vector space and get the car to the destination while maximizing the safety comfort and the efficiency of the car

 

even back in 2019 our planner was pretty capable driver

 

it was able to stay in the lanes make lane changes as necessary

 

and take exits of the highway

 

but cdc(市街地) driving is much more complicated

 

there are structured lane lines and vehicles do much more free from driving

 

then the car has to respond to all of curtains and crossing vehicles and pedestrians doing funny things

 

〇プランニングにおける問題点

f:id:stockbh:20211110172334p:plain



what is the key problem in planning

 

1,number one the action space is very non-convex(非凸型) and

→局所最適に陥ってしまうケースが数多くあるということ

 

2,number two it is high dimensional

 

what I mean by non-convex is there can be multiple possible solutions that can be independently good but getting a globally consistent solution is pretty tricky

 

so there can be pockets of local minima that the planning can get stucked into

 

and secondly the high dimensionality comes because the car needs to plan for the next 10 to 15 seconds

 

and needs to produce the position velocities and acceleration or this entire window

 

there are many parameters to be produced at runtime

 

discrete search(離散検索、個別探索) methods are really great at solving non-convex problems

 

because they are discrete they don't get stuck in local minima(局所最小、局所最適、部分最適)

 

whereas continuous function optimization(連続最適化) can easily get stuck in local minima and

 

produce poor solutions that are not great

 

on the other hand for high dimensional problems

 

a discrete search sucks

 

because it does not use any graded information(グレーディド・インフォ) so literally has to go and explore each point to know how good it is

 

whereas continuous optimization use gradient-based methods(確率勾配法) to very quickly go to a good solution

 

〇ハイブリッドプランニングによる、局所最適の回避

f:id:stockbh:20211110172505p:plain



our solution to this problem is to break it down hierarchically

 

first use a coarse search method(コアース・サーチ) to crunch down(踏みつける、かみ砕く) the non-convexity and come up with a convex corridor

→コンベックスな問題に置き換える

 

and then use continuous optimization techniques to make the final smooth trajectory

→のちに連続的最適化

 

〇多くのプランニングを走らせる

f:id:stockbh:20211110172752p:plain



let's see an example of how the search operates

 

so here we're trying to do a lane change

 

in this case the car needs to do two back-to-back(連続) lane changes to make the left turn up ahead

 

for this the car searches over different maneuvers

 

the first one is a lane change that's close by

 

but the car breaks pretty harshly so it's pretty uncomfortable

 

the next maneuver tried is the lane change

 

it speeds up 

 

goes in front of the other cars and do the lane change bit late

 

but now it risks missing the left turn

 

we do thousands of such searches in a very short time span

 

because these are all physics-based models these futures are very easy to simulate

 

and in the end we have a set of candidates and we finally choose one based on the optimality conditions of safety comfort and easily making the turn

 

so now the car has chosen this path

 

and you can see that as the car executes this trajectory

 

it matches what we had planned

 

the cyan(水色) plot on the right side is the actual velocity of the car

 

and the white line be underneath was a plan

 

so we are able to plan for 10 seconds here and able to match that when you see in hindsight(後知恵、後付け、後から)

 

so this is a well-made plan

 

〇自分以外の物体のプランニング

f:id:stockbh:20211110173010p:plain



when driving alongside other agents it's important to not just plan for ourselves but instead we have to plan for everyone jointly

 

and optimize for the overall scenes traffic flow

 

in order to do this what we do is we literally run the autopilot planner on every single relevant object in the scene

(関連するすべてのオブジェクトにオートパイロット・プラナーを走らせる)

 

〇道を譲りあうケース

f:id:stockbh:20211110201451p:plain



here's an example of why that's necessary

 

this is an auto corridor i'll let you watch the video for a second

 

there was autopilot driving an auto corridor going around parked cars cones and poles

 

here there's a 3D view of the same thing

 

the oncoming car arrives now and autopilot slows down a little bit

 

but then realizes that we cannot yield to them because we don't have any space to our side but the other car can yield to us instead

 

so instead of just blindly breaking here

 

they can pull over and should yield to us because we cannot yield to them

 

and assertively(自信を持って) makes progress

 

a second oncoming car arrives now this vehicle has higher velocity

 

we literally run the autopilot planner for the other object

 

so in this case we run the panel for them that object's plan

 

now goes around their parked cars

 

and then after they pass the parked cars goes back to the right side of the road for them

 

since we don't know what's in the mind of the driver

 

we actually have multiple possible futures for this car

 

one future is shown in red the other one is shown in green

 

and the green one is a plan that yields to us

 

but since this object's velocity and acceleration are pretty high

 

we don't think that this person is going to yield to us

 

and they are actually going to go around these parked cars

 

so autopilot decides that okay i have space here

 

this person's definitely gonna come so i'm gonna pull over

 

so as autopilot is pulling over we notice that

 

the car has chosen to yield to us

 

based on their yaw rate and their acceleration

 

and autopilot immediately changes his mind

 

and continues to make progress

 

this is why we need to plan for everyone

 

because otherwise we wouldn't know that this person is going to go around the other parked cars

 

and come back to their side

 

if we didn't do this autopilot would be too timid(臆病)

 

and would not be a practical self-driving car

 

〇損失関数の最小化

f:id:stockbh:20211110201801p:plain

f:id:stockbh:20211110202138p:plain

 

so now we saw how the search and planning for other people set up a convex valley

 

finally we do a continuous optimization to produce the final trajectory

 

that the planning needs to take

 

the gray width area is the convex corridor(コンベクス・コリドー)

 

and we initialize the spline in heading and acceleration

 

parameterized or the arc length of the plan

 

and you can see that continuously the compromisation makes fine-grained changes to reduce all of its costs

 

some of the costs are distance from obstacles traversal time and comfort

 

for comfort you can see that the lateral acceleration plots on the right have nice trapezoidal shapes

 

on the right side the green plot that's a nice trapezoidal(台形の) shape

 

and if you record on a human trajectory

 

this is pretty much how it looked like

 

the lateral(側面、側部) jerk(躍度、加加速度、単位時間あたりの加速度の変化率) is also minimized

 

so in summary we do a search for both us and everyone else in the scene

 

we set up a convex corridor and then optimize for a smooth path

 

together these can do some really neat things like shown above

 

〇複雑なケース

f:id:stockbh:20211110202609p:plain



but driving looks a bit different in other places like where i grew up from

 

it's very much more unstructured cars and pedestrians cutting each other harsh braking honking it's a crazy world

 

we can try to scale up these methods but it's going to be really difficult to efficiently solve this at runtime(運転しているその瞬間ごとに)

 

instead what we want to do is using learning based methods

 

and i want to show why this is true

 

so we're going to go from this complicated problem to a much simpler toy parking problem

 

but still illustrates the core of the issue

 

here this is a parking lot, the ego car is in blue and needs to park in the green parking spot here

 

so it needs to go around the curbs the parked cars and the cones shown in orange here

 

there's a simple baseline it's A-star

 

A-star is the standard algorithm that uses a ladder space search(ラダースペースサーチ)

 

and in this case the heuristic here is the Euclidean distance to the goal

 

ブルートフォース

f:id:stockbh:20211110203213p:plain



you can see that it directly shoots towards the goal but very quickly gets trapped in a local minima and it backtracks(引き返す) from there

 

and then searches a different path to try to go around this parked car

 

eventually it makes progress and gets to the goal but it ends up using 400,000 nodes for making this

 

obviously this is a terrible heuristic

 

we want to do better than this

 

ブルートフォース+ガイド

f:id:stockbh:20211110204600p:plain

so if you added a navigation route to it and has the car to follow the navigation route

 

while being close to the goal this is what happens

 

the navigation route helps immediately

 

but still when it encounters cones or other obstacles

 

it basically does that same thing as before

 

backtracks and then searches the whole new path

 

this poor search has no idea that these obstacles exist

 

it literally has to go there and has to check if it's in collision

 

and if it's in collision then back up

 

the navigation heuristic helped but still took 22,000 nodes

 

we can design more these heuristics to help the search make go faster

 

but it's really tedious(うんざり、退屈) and hard to design a globally optimal heuristic

 

even if you had a distance function from the cones that guided the search

 

this would only be effective for the single cone

 

モンテカルロツリー探索

f:id:stockbh:20211110205115p:plain


what we need is a global value function(グローバル・バリュー関数)

 

so instead of what we want to use is neural networks to give this heuristic for us

 

the vision networks produces vector space and we have cars moving around in the vector space

 

this looks like a atari game and it's a multiplayer version

 

so we can use techniques such as alpha zero etc that was used to solve GO and other atari games to solve the same problem

 

so we're working on neural networks that can produce state and action distributions

 

that can then be plugged into Monte-Carlo Tree Search(モンテ・カルロ・ツリーサーチ) with various cost functions

 

some of the cost functions can be explicit cost functions

 

like distance, collisions, comfort, traversal time etc

 

but they can also be interventions from the actual manual driving events

 

we train such a network for this simple parking problem

 

so here again same problem

 

〇オーダーオブマグニチュードの改善

f:id:stockbh:20211110205607p:plain

let's see how MCTモンテカルロツリー) searched us

 

so here you notice that the plan is basically able to make progress towards the goal in one shot

 

to notice that this is not even using a navigation heuristic just given the scene

 

the plan is able to go directly towards the goal

 

all the other options you're seeing are possible options

 

it does not choose any of them just using the option that directly takes it towards the goal

 

the reason is that the neural network is able to absorb the global context of the scene

 

and then produce a value function that effectively guides it towards the global minima(全体最適)

 

as opposed to getting stuck in any local minima

 

so this only takes 288 nodes

(40万→2万→300)

 

and several orders of magnitude less than what was done in the A-star with the equilibrium distance heuristic

 

プラナーの設計

f:id:stockbh:20211110211418p:plain

this is what a final architecture is going to look like

 

the vision system is going to crush down the dense video data into a vector space

 

it's going to be consumed by both an expressive planner and a neural network planner

 

in addition to this

 

the neural network planner can also consume intermediate features of the network

(エクスプレッシブ・プラナー、NNプラナー、インターミディエートフィーチャーズ)

together this producer trajectory distribution

 

and it can be optimized end to end both with explicit cost functions(顕示コスト関数) and human intervention and other data

 

this then goes into explicit planning function(顕示プランニング関数)

 

that does whatever is easy for that and produces the final steering and acceleration commands for the car

 

with that we need to now explain how we train these networks

 

and for training these networks we need large data sets

 

 

アンドレイが再び登壇

the story of data sets is critical

 

so far we've talked only about neural networks but neural networks only establish an upper bound on your performance

 

many of these neural networks have hundreds of millions of parameters and these hundreds of millions of parameters they have to be set correctly

 

if you have a bad setting of parameters it's not going to work

 

so neural networks are just an upper bound

 

you also need massive data sets to actually train the correct algorithms inside them

 

now in particular I mentioned we want data sets directly in the vector space

 

and so the question becomes how can you accumulate

 

because our networks have hundreds millions of parameters

 

how do you accumulate millions and millions of vector space examples

 

that are clean and diverse to train these neural networks effectively

 

so there's a story of data sets and how they've evolved

 

on the side of all of the models and developments that we've achieved

 

when i joined roughly four years ago we were working with a third party to obtain a lot of our data sets

 

unfortunately we found quickly that working with a third party to get data sets for something this critical was just not going to cut it

 

the latency of working with a third party was extremely high and honestly the quality was not amazing and so in the spirit of full vertical integration at tesla

 

we brought all of the labeling in-house and

 

over time we've grown more than one thousand person data labeling org

 

that is full of professional labelers who are working very closely with the engineers

 

so actually they're here in the us and co-located with the engineers here in the area as well

 

and so we work very closely with them and we also build all of the infrastructure ourselves for them from scratch

 

so we have a team we are going to meet later today that develops and maintains all of this infrastructure for data labeling

 

for example i'm showing some of the screenshots of some of the latency throughput and quality statistics that we maintain about all of the labeling workflows

 

and the individual people involved and all the tasks and how the numbers of labels are growing over time

 

we found this to be quite critical and we're very proud of this

 

〇数年前のラベリング

f:id:stockbh:20211110212600p:plain

in the beginning roughly three or four years ago most of our labeling was in image space(2D labeling)

and this takes quite time to annotate(注釈をつける、ラベリングする) an image like this

 

and this is what it looked like where we are drawing polygons and polylines

 

on top of these single individual images

 

as we need millions of vector space labels

 

this method is not going to cut it

 

〇4Dラベリング

f:id:stockbh:20211110212704p:plain

 

 

quickly we graduated to three-dimensional or four-dimensional labeling

 

where we directly label in vector space(多変数空間) not in individual images

 

so here is a clip and you see a very small reconstruction of the ground plane on which the car drove

 

and a little bit of the point cloud here that was reconstructed

 

and what you're seeing here is that the labeler is changing the labels directly in vector space

 

and then we are reprojecting those changes into camera images

(カメライメージへはあくまでプロジェクションしてるだけ。ラベリングはベクタースペースで行われる)

 

so we're labeling directly in vector space and this gave us a massive increase in throughput

 

because if it is labeled once in 3D and then you get to reproject

 

but even this was actually not going to cut it

 

because people and computers have different pros and cons

 

so people are extremely good at things like semantics but computers are very good at geometry reconstruction triangulation tracking

 

and for us it's much more becoming a story of how do humans and computers collaborate to actually create these vector space data sets

 

and so we're going to now talk about auto labeling which is the infrastructure we've developed for labeling these clips at scale

 

 

〇インド出身のアショクが再び登壇

こういうふうにラベリングしたいんだが。

f:id:stockbh:20211110214156p:plain



even though we have lots of human labelers

 

the amount of training data needed for training the network significantly outnumbers them

 

we invested in a massive auto labeling pipeline

 

here's an example of how we label a single clip

 

a clip is entity that has dense sensor data

 

like videos,IMU data,GPS automatically etc

 

this can be 45 second to a minute long

 

these can be uploaded by our own engineering cars or from customer cars

 

we collect these clips and then send them to our servers

 

where we run a lot of neural networks offline to produce intermediate results

 

like segmentation masks depth point matching etc

 

this then goes to a lot of robotics and AI algorithms to produce a final set of labels

 

that can be used to train the networks

 

〇NeRFの利用

f:id:stockbh:20211110221238p:plain

one of the first tasks we want to label is the road surface

 

typically we can use splines or meshes to represent the road surface

 

but because of the topology restrictions

 

those are not differentiable and not amenable(従順) to producing this

 

so what we do instead from last year is in the style of neural radiance fields work (NeRF:ニューラルネットワークによる三次元空間表現手法)

 

we use an implicit representation to represent the road surface

 

here we are querying xy points on the ground

 

and asking for the network to predict the height of the ground surface

 

along with various semantics(セマンティクス:個々の部分の意味) such as curves lane boundaries road surface rival space etc

 

given a single xy we get a z together these make a 3D point

 

and they can be re-projected into all the camera views

 

so we make millions of such queries and get lots of points

 

these points are re-projected into all the camera views

 

on the top right here, we are showing one such camera image with all these points re-projected

 

now we can compare this re-projected point with the image space prediction of the segmentations

 

and jointly optimizing this all the camera views across space and time

 

and produces an excellent reconstruction

〇ベクトル空間上で、再構成されたロードをプロジェクション

f:id:stockbh:20211110221622p:plain

here's an example of how that looks like

 

so here this is an optimized road surface that is reproduction to the eight cameras that the car has

 

and across all of time

 

and you can see how it's consistent across both space and time

 

〇運転しながらベクトル空間を生成している

f:id:stockbh:20211110221800p:plain

so a single car driving through some location can sweep out some patch around the trajectory using this technique

 

but we don't have to stop there

 

so here we collected different clips from different cars at the same location

 

and each of fleet sweeps out some part of the road

 

〇生成されたベクトル空間を相互に組み合わせる

f:id:stockbh:20211110221903p:plain



now we can bring them all together into a single giant optimization

 

so here these 16 different trips are organized

 

using various features such as road edges lane lines

 

all of them should agree with each other

 

and also agree with all of their image space observations

 

together this produces an effective way to label the road surface

 

not just where the car drove but also in other locations that it hasn't driven

 

the point of this is not to build HD-maps or anything like that

 

it's only to label the clips through these intersections

 

so we don't have to maintain them forever

 

as long as the labels are consistent with the videos that they were collected

 

then humans can come on top of this

 

clean up any noise or add additional metadata to make it even richer

 

〇ポイントクラウド

f:id:stockbh:20211110222128p:plain



we don't have to stop at just the road surface

 

we can also arbitrarily(任意に) reconstruct 3D static obstacles

 

here this is a reconstructed 3D point cloud from our cameras

 

the main innovation here is the density of the point cloud

 

typically these points require texture to form associations from one frame to the next frame

 

but here we are able to produce these points even on textured surfaces

 

like the road surface or walls

 

and this is really useful to annotate(注釈をつけて、ラベリングすること) arbitrary obstacles

 

that we can see on the scene in the world

 

〇利点その1 後知恵

f:id:stockbh:20211110222355p:plain

one more cool advantage of doing all of this on the servers offline is that

 

we have the benefit of hindsight(後知恵)

 

this is a super useful hack

 

because say in the car then the network needs to produce the velocity

 

it just has to use the historical information and guess what the velocity is

 

but here we can look at both the history but also the future

 

we can cheat and get the correct answer of the kinematics like velocity acceleration etc

 

〇利点その2 パーシステンシー

f:id:stockbh:20211110222630p:plain



one more advantage is that we have different tracks

 

but we can switch them together even through occlusions

 

because we know the future

 

we have future tracks

 

we can match them and then associate them

 

here you can see the pedestrians on the other side of the road are persisted

 

even through multiple occlusions by these cars

 

this is really important for the planner

 

because the planner needs to know if it saw someone it still needs to account for them even they are occluded

 

so this is a massive advantage

 

〇ベクトル空間の生成に成功

f:id:stockbh:20211110222805p:plain

combining everything together

 

we can produce these amazing data sets

 

that annotate all of the road texture all the static objects and all the moving objects even through occlusions

 

producing excellent kinematic labels all you can see how the cars turn smoothly

 

produce really smooth labels all the pedestrians are consistently tracked

 

the parked cars obviously zero velocity so we can know that cars are parked

 

so this is huge for us

 

this is one more example of the same thing you can see how everything is consistent

 

we want to produce a million labeled clips of such and train our multi-cam video networks(マルチカム・ビデオ・ネットワーク) with such a large data set

 

and want to crush this problem

 

we want to get the same view that's consistent that you're seeing in the car

 

〇レアケースでのドロップ

f:id:stockbh:20211110223320p:plain

we started our first exploration of this with the Remove The Radar project

 

we removed it in a short time span like within three months

 

in the early days of the network

 

we noticed for example in lower security conditions the network can suffer understandably

 

because obviously this truck just dumped a bunch of snow on us and it's really hard to see

 

but we should still remember that this car was in front of us

 

but our networks early on did not do this because of the lack of data in such conditions

 

〇フリートからデータ収集

f:id:stockbh:20211110223441p:plain

f:id:stockbh:20211110223552p:plain




so what we did was that we asked the fleet to produce lots of similar clips

 

and the fleet responded it

 

it produces lots of video clips where shit's falling out of other vehicles

 

and we've sent this through auto leveling pipeline

 

that was able to label 10k clips within a week(1週間で1万ビデオクリップのラベリング)

 

this would have taken several months with humans labeling

 

so we did this for 200 of different conditions

 

and we were able to very quickly create large data sets

 

and that's how we were able to remove radar

 

〇もうドロップしない。レーダーもいらない。

f:id:stockbh:20211110223911p:plain

so once we train the networks with this data

 

you can see that it's totally working and keeps the memory that this object was there

 

〇ベクトル空間からシミュレーションへ

f:id:stockbh:20211110224132p:plain

f:id:stockbh:20211110224235p:plain


finally we wanted to get a cyber truck into a data set for remove the radar

 

can you all guess where we got this clip from

 

it's rendered it's our simulation

 

it was hard for me to tell initially and it looks very pretty

 

in addition to auto labeling

 

we also invest heavily in using simulation for labeling our data

(シミュレーションとオート・ラベリングの関係)

 

so this is the same scene as seen before but from a different camera angle

 

so a few things that i wanted to point out

 

for example the ground surface it's not a plane asphalt there are lots of cars and cracks and tower seams there's some patchwork done

 

on top of it vehicles move realistically

 

the truck is articulated even goes over the curb and makes a wide turn

 

the other cars behave smartly they avoid collisions they go around cars

 

and also brake and accelerate smoothly

 

Autopilot is driving the car with the logo on the top and it's making unprotected left turn

 

〇シミュレーション上ではすべてが完璧にラベリングされている

f:id:stockbh:20211110224416p:plain

since it's a simulation, it starts from the vector space so it has perfect labels

 

here we show a few of the labels that we produce

 

these are vehicle cuboids with kinematics

 

depth surface normals segmentation but

 

アンドレア・カパーシー may name a new task that he wants next week

 

and we can very quickly produce it

 

because we already have the vector space and we can write the code to produce these labels quickly

 

〇シミュレーションが有効となるケース

f:id:stockbh:20211110224548p:plain



so when does simulation help

 

  • データの入手が難しいケース

number one it helps when the data is difficult to source(手に入れる) as large as our fleet is

(テスラほどのオートパイロット搭載車両数を持ってしても)

 

it can be hard to get some crazy scenes like this couple

 

they run with their dog running on the highway while there are other high-speed cars around

 

this is a rare scene but still can happen

 

and autopilot still needs to handle it

 

  • ラベリングに膨大な作業が必要な時

it helps when data is difficult to label

 

there are hundreds of pedestrians crossing the road

 

this could be a manitoban downtown people crossing the road

 

it's going to take several hours for humans to label this clip

 

and even for automatic labeling algorithms

 

this is really hard to get the association right

 

and it can produce bad velocities

 

but in simulation this is trivial

 

because you already have the objects

 

you just have to spit out the cuboids and the velocities

 

  • クローズド・ループにおける適正行動を導入したいとき

finally it helps when we introduce closed loop behavior

 

where are the cars and where it needs to be

 

in a determining situation or the data depends on the actions

 

this is the only way to get it reliably

 

all this is great

 


1

f:id:stockbh:20211110224806p:plain


f:id:stockbh:20211110225034p:plain

what's needed to make this happen

 

number one accurate sensor simulation again

 

the point of the simulation is not to produce pretty pictures

 

it needs to produce what the camera in the car would see

 

and what other sensors would see

 

here we are stepping through different exposure settings of the real camera on the left side

 

and the simulation on the right side

 

we're able to match what the real cameras do

 

in order to do this we had to model a lot of the properties of the camera

 

in our sensor simulation starting from sensor noise motion blur optical distortions even headlight transmissions even like diffraction patterns of the wind shield etc

 

we don't use this just for the autopilot software

 

we also use it to make hardware decisions such as

lens design

camera design

sensor placement or even headlight transmission properties

 

2

f:id:stockbh:20211110225857p:plain

second we need to render the visuals in a realistic manner

 

you cannot have what in the game industry called jaggies

 

these are aliasing(エイリアシング) artifacts that are a dead giveaway

 

this is simulation we don't want them

 

so we go through a lot of paints to produce a nice special temporal anti-aliasing

 

we also are working on neural rendering techniques(ニューラル・レンダリング) to make this even more realistic

 

in addition we also used Ray-tracing to produce realistic lighting and global illumination

 

3

f:id:stockbh:20211110230345p:plain

we obviously need more than four or five cars

 

because the network will easily overfit(過学習、過剰最適化)

 

because it knows the sizes

 

so we need to have realistic assets like the moves on the road

 

we have thousands of assets in our library

 

and they can wear different shirts and actually can move realistically

 

we also have a lot of different locations mapped and created environments

 

we are actually 2000 miles of road built and this is almost the length of the roadway from the east coast to the west coast of the united states

 

in addition we have built efficient tooling to build several miles more on a single day on a single artist

 

but this is just tip of the iceberg

 

4

f:id:stockbh:20211110230543p:plain

actually as opposed to artists making these simulation scenarios

 

most of the data that we use to train is created procedurally using algorithms

 

these are all procedurally created roads with lots of parameters

 

such as curvature various trees cones poles cars with different velocities

 

and the interaction produce an endless stream of data for the network

 

but a lot of this data can be boring because the network may already get it correct

 

what we do is we also use ML based techniques to put up

 

for the network to see where it's failing at and to create more data around the failure points of the network

 

we try to make the network performance better in closed loop

 

5

f:id:stockbh:20211110230923p:plain

so in simulation, we want to recreate any failures that happens to the autopilot

 

on the left side you're seeing a real clip that was collected from a car

 

it then goes through our auto labeling pipeline to produce a 3D reconstruction of the scene

 

along with all the moving objects combined with the original visual information

 

we recreate the same scene synthetically and create a simulation scenario entirely out of it

 

and then when we replay autopilot on it

 

autopilot can do entirely new things and

 

we can form new worlds new outcomes from the original failure

 

this is amazing because we don't want autopilot to fail in actual fleet

 

when it fails we want to capture it and keep it to that bar

 

機械学習によるレンダリングの向上

f:id:stockbh:20211110231225p:plain



we can also use neural rendering techniques to make it look even more realistic

 

we take the original video clip

 

we create a synthetic simulation from it and then apply neural rendering techniques on top of it

 

this one is very realistic and looks like it was captured by the actual cameras

 

i'm very excited for what simulation can achieve

 

but this is not all because networks trained in the car already used simulation data

 

we used 300million images(3億枚)  with almost half a billion labels(5億ラベル)

 

and we want to crush down all the tasks that are going to come up for the next several months

 

with that I invite ミラン to explain how we scale these operations and really build a label factory and spit out millions of labels

f:id:stockbh:20211110231451p:plain



 

 

テスラ財務現状&予測 AUG-2021 by James Stephenson

Thank you James for everything you have done to the Tesla community.

ジェームスさん、いつもテスラコミュニティに貢献してくださり、ありがとうございます。

twitter.com

 

 

 1

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821141031p:plain

全体の生産量、売上など

 2

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821141306p:plain

売上の推移

 

 

3

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821141437p:plain

モデル別販売台数

2021年は年間85万台生産いきそう。YoYで75%成長ペース。

 

4

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821141705p:plain

3とYグローバル販売台数

 

5

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821141838p:plain

今後2年間の生産台数予測

生産台数の増加分ほとんどは、オースティンとベルリンからもたらされるであろう。

 

 

 

6

https://twitter.com/ICannot_Enough/ 

f:id:stockbh:20210821142037p:plain

修正EBITDAの推移と予測

 

償却、株式ベース報酬に影響されない指標なので、企業の収益性を図る上で重要な指標

 

 

7

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821142239p:plain

過去12か月(TTM)ベースでの各種利益指標

 

9

f:id:stockbh:20210821142510p:plain

排出権の売上

今後ますます排出権収入は縮小していくでしょう

 

 

 

10

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821142643p:plain

CEO株式報酬の推移

This is a non-cash expense excluded from Adjusted EBITDA and Non-GAAP Earnings.

It will not exceed $2.283B ($1.784B of which has already hit) over the plan's 10-year life.

 

11

https://twitter.com/ICannot_Enough/ 

f:id:stockbh:20210821142846p:plain

売上1ドルあたりの内訳

自動車部門の売上にエナジー部門が追い付いていない

 

 

12

https://twitter.com/ICannot_Enough/ 

f:id:stockbh:20210821143040p:plain

売上1ドルあたりの使い道

 

テスラが配当を支払うか、自社株買いする日も遠くはないでしょう

 

 

14 

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821143926p:plain

工場別、モデル別の生産台数

 

直近では、上海のモデルYの生産ペースがカギとなるね~

 

17

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821145215p:plain

1台当たりの売上とグロスマージンの推移

 

1台当たりの売上は、3とYの増加によって当然ながら減っているが、にもかかわらず、粗利益率は上昇している。どうしてなの?

 

この「マジック」は「ギガ上海の生産効率の上昇」によって達成されている

 

18

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821145429p:plain

まとめ①

 

19

 

f:id:stockbh:20210821145502p:plain

まとめ②

20

https://twitter.com/ICannot_Enough/

f:id:stockbh:20210821145535p:plain

まとめ③

 

 

 

 

25

f:id:stockbh:20210822085828p:plain

予想 デリバリー、生産効率

 

 

 

26

f:id:stockbh:20210822085922p:plain

予測 工場別生産台数

 

 

56

f:id:stockbh:20210822090435p:plain

予測 エネルギー事業

 

58

f:id:stockbh:20210822090608p:plain

ギャップとノンギャップのリコンシリエーション

 

 

 

 59

f:id:stockbh:20210822090841p:plain

ペグレシオ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

AIデー向けお勉強シリーズ③:ジェームス・ドウマさんその2

www.youtube.com

  (Ep. 258)

テスラのAI担当であるアンドレア・カパーシーが2020年2月に、機械学習エンジニア向けのカンファレンス Scaled ML で行った講演の内容をもとに、ドウマさんが、テスラFSDの最近のイノベーションの一つであるBEVについて語ってくださっています。

 

この動画の視聴目的はBEVのアーケティクチャーの把握と、FSDへの影響を把握することです

 

BEVの設計自体は他の企業でも行えるでしょうが、使い物になるまでのプロセスには大きなチャレンジが待ち受けています。

 

バックボーン

f:id:stockbh:20210507153156p:plain

 

BEVにデータが供給されるまでのアーキテクチャ

f:id:stockbh:20210507153202p:plain

 

フュージョンの様子

f:id:stockbh:20210507153222p:plain

 

スーペース・ディテクション

f:id:stockbh:20210507153256p:plain

 

BEVを経由した場合のアウトプットデータ

f:id:stockbh:20210507153302p:plain

 

 

 

個別のトピックは以下です

 

機械学習エキスパート向けのリクルーティング講演

・バックボーン(個々のカメラネット)(図)

・個々のピクセルの関連性に基づいて処理

・演算のアウトプットを、モニター上の各カメラ画像に重ねて出力する

・動体検出

・道路上のライン検出

・道路のエッジの検出

・これらは車載用のNNによる検出

・8台のカメラ

・運転用に使用されるのは主に7台のカメラ

・フロントに3台、サイドに各2台ずつ

・メイン(通常→車2台分くらいの前方)

・フィッシュアイ(180度→サイドビューとの連携用)

・ナロー(90度のテレフォトビュー→200フィートくらいの前方)

・ピラー( 側面から前方)×2

・リピーター(フェンダーについてるやつ→後方用)×2

・後ろのライセンスプレート上に、リアビューカメラ

・APの初期バージョンでは、フロントの2つのカメラしか使っていなかった

・次にピラーの統合

・次にリピーターの統合

・この頃になるとAPは自動でレーンチェンジするようになっていた

・この2年で、サイドカメラの仕事量、使用量が増大

・すべのカメラにバックボーンNNが備わっている(図)

・フロントカメラには複数のバックボーン

・最新版では、動体検出、静体検出、道路ライン、道路エッジなどのメイン機能のために、それぞれ完全に独立したバックボーンが実装されている

・AP自体は現在でも、HD2 HD2.5 搭載車上でも機能している。

・ただしFSD用のNN大きさは、AP用の20倍もあるので、HD2.5上では実行できない

・もしかしたらHD2.5の上で走らせようとおもえば、実行自体はできるかもしれない

・以前はパースペクティブ・ビュー

・現在はBEV

・両者の違い

・a map of everything の生成 (ベクトル・スペース上での)

パースペクティブ・ビュー上で、車はどこにあるのか?という質問を実行

パースペクティブ・ビュー上でのキューボイドで、答えを返してきていた

・BEV上で、このBEVビューの中で車はどこにあるのか?という質問を実行

・100フィートか、200フィート上から見下ろしたとして(つまり高さを捨象して)、その視点のから見て、車の周囲の状況を記述しなさい、という質問をする

・その上で、車の位置、歩行者の位置、道路上の白線、縁石などをBEV上にプロジェクションさせる(パースペクティブ・ビュー上ではなくて)

・必要に応じて人間用インターフェース画面上にも表示させる

・パーキングロットでのスマートサモンにおける周囲状況の認識の劇的な改善(図)

・駐車場での自動運転は、ある意味で道路よりも難しい

・geometry、trigonometryアプローチは使い物にならなかった

・それらは画像認識の世界では、古典的なアプローチだった

・画像上のピクセル間の距離からの情報を、三角関数的なアルゴで、実際の距離に置き換えていたが、車両の近傍以外では上手に機能しなかった

・とりわけ水平線上の対象物の認識誤差は、ヒドかった

・geometryアプローチの放棄

・BEVの導入し、NNアプローチをメインの方法に据える

・劇的な改善

・グラウンド・トゥルースとその近似画像

・NNアプローチはすべてが新しい手法

・とりあえずの結果を出す(Demo out)のであれば、geometryアプローチで先ず始めるのは、自然なことだった

・フロントガラス自動ワイパー機能の度重なる改善

・テスラ車に、もはやレインセンサーは付いていない

・ジェネラル・デザイン・フィロソフィー 1.0と2.0

・複数の画像を統合して、統合画像を生成する

・各カメラ画像は、部分的に重なっている

・隣接したカメラと、エッジなどがコンシステントでなければならない

・スティッチアップ

・最低でも画像のローテ―ションが必要(temporal moduleにおける)

・それを並べると、時間経過を確認することができる

・1秒間前に見たものと、現在のものと、1秒後に見るもの、それらの間には高い確率的な連続性を想定できる

・時系列に並べた統合画像それ自体を、相互にチェックさせることができる。

・8フレームぐらいをローテーションして、相互チェックして、ベリフィケーションして、信頼性を高めている

・(ここでの議論に限れば)バックボーンは、もはや直接アウトプットを生成していない。そのアウトプットをフュージョン・レイヤー(ベクトル空間)へ供給している

・(ただそ。従来からの「バックボーンの演算データを、直接アウトプットへ供給」ルートが完全に消滅しているわけではない。)

・それを時間的な整合性もチェックしつつ、BEVにも投影

・信頼度のさらなる向上(図)

・ここでは、図より visceral difference (直感的な違い)を把握してほしい。

・アウトプットの目的対象が持つべきコンシステンシー

・テンポラル・モジュールによる時間的統合で、動体の存在のみならず、その動く方向、速度もより正確に認識できるようになった。

・アカデミアでは、BEV的なアプローチに関する論文は数年前から少しづつ出ていた

・アカデミアで論文が出た半年後くらいに、テスラからその成果を踏まえたその機能がリリースされることはよくある。

・(BEVアーケティクチャーを設計すること自体はテスラではなくても可能である。ただ学習のためのデータを集める方法にチャレンジがある)

・テスラは新しい機能を導入したとき、それまでの機能をすぐには捨てることはない。基本的には継ぎ足しで対応している。大まかなアーキテクチャーは、ほとんど温存してる。

・新しい機能の改善が十分に進み、もはや過去の機能を搭載することが意味をなさなくなるまで、そのままにしているのだろう。

・現在でもバックボーンは直接いくつかのアウトプットを供給している。

(FSD画面上ではBEVによるものか、バックボーンによるものかは識別できないはず。)

・このようなアプローチを数多くの機能で、同時進行で採用している

・BEVは二次元なので、高さがわからない。道路が極端に傾斜していたりするケースでは認識の難易度があがる。

・これはカメラビューレベルで対処しなければならない問題

・BEVによるアウトプットは、グランド・トゥルースの完璧な近似ではないが、FSDに必要な主要な特徴をすべて備えている

・FSDにおけるBEVの活用度合いの大幅な増加

・geometryアプローチのリファインメントよりも、BEVの導入の方が性能の飛躍をもたらした

・when you get these cameras to cross-correlate against each other and cross-correlate against time

・BEVでシングル・フレームから生成されるアウトプットの精度 と

 BEVでタイム・コンポ―ネントを考慮して生成されるアウトプットの精度 を比べた場合

 タイム・コンポーネントの方が必須度、優先度が高いだろう

・4Dでのトレーニン

・時間も考慮したフレーム群でのトレーニングが進めば、静止画像でのトレーニングはそれよりもたやすい

オートノミー・デー(2019年4月)時点では、テスラはBEVについては言及しなかった

・おそらく2019年中頃からBEVの採用・開発を加速させていったのだろう

・NNコミュニティでは、時間的統合は昔から大きな課題だった。

・その有効性はだれもが認識していたが、実現する方法がわからなかった。

・(BEV空間へのプロジェクションを前提とした、スティッチアップとローテションの様々なノウハウに、時間的統合におけるイノベーション・ブレークスルーが詰め込まれているのであろう)

・BEVを経由する(という目的のために各カメラ画像から特徴を抽出していく)という方法でなくても、ブルート・フォース的に、パースペクティブ・ビュー上に直接オブジェクトをアウトプットさせるという方法もありえたかもしれない。

・過去の事例:グーグルのアニメーション空間の中での、別の視点の生成の実験

・一定の成果は残したが、訓練時間、計算コストの問題で現実的に採用できるソリューションとはならなかった

・small enough and sample efficient enough でなければならない

・例えば囲碁もブルート・フォース的に問題解決することはできない

・問題をある程度限定して、答えを出す

・解決すべき問題はコンピューテショナリーにトラクタブルでなければならない。

 

 

 

Tesla's Latest FSD Breakthrough: BEV Explained w/ James Douma (Ep. 258)

 

DAVE 

so this is the most recent talk that Karpathy's done that has a decent amount of detail in it

 

and so that's why if what you are interested in understanding what's FSD beta

 

how is it different from what AP was before the non-FSD version and where is it going

 

what have they changed then this is like a good reference for that

 

you looked into from Tesla's full self-driving code

 

did that match up with some of the stuff that karpathy was talking about in his talk

 

DOUMA

i'm not really looking at code so much

 

i'm looking at the architecture of the NNs

 

we sort of figured out a way to figure out what the architecture of the NNs

 

that they some of the NNs

 

the ones that aree really big in the car

 

it's also possible to look at the code

 

it's a lot harder to interpret what's going on in the code and

 

that's a pretty significant undertaking

 

whereas at least for me having looked at a bunch of these things

 

just looking at the shape of the NN

 

it's kind of a fingerprint

 

you look at the shape of the NN and it gives you a pretty good idea

 

of what they're trying to do with this NN

 

because different NNs are for different objectives

 

they have different shapes

 

because we've got a few different snapshots

 

we saw the NNs a couple of years ago

 

we saw them a year ago and so we can look at the evolution and get an idea about

 

what's working for Tesla what's not

 

what they're experimenting with

 

 

DAVE

in karpathy’s talk he talked about Pseudo LiDAR image depth mapping and the overall architecture of Tesla FSD

 

 

DOUMA

the Karpathy in his talk he spends about the first half of it doing a general introduction to

 

what Tesla is doing like their development approach

 

for an audience the audience for this talk is people who know a lot about machine learning and who don't know very much about Tesla

 

so the first half he basically explains Tesla and your audience probably knows that part so i'd skip it

 

and then about halfway through he starts talking

 

and showing some examples of internal stuff that they're working on

 

that is recent developments in what they're doing and in particular i wanted to talk about things

 

that i thought were relevant to people's experience

 

and helping people understand what the NNs in AP are trying to do in particular

 

let's start with backbone here a minute

 

so this is a slide that shows one camera in the car conveys this

 

it takes an image that image gets a little bit of pre-processing

 

and then it feeds through the camera nets

 

and what karpathy here is describing as a backbone

 

and so this is basically a big NN

 

this just basically takes all these pixels

 

it processes them

 

looking at relationships between the pixels

 

according to the way that it's been trained

 

and then it squirts out a number of outputs

 

now he has three examples here

 

he shows moving objects

 

in this frame it's showing a box around a car

 

and then road lines and in this image

 

it's highlighting the lines in the center of the road markings

 

and then road edges

 

this output is the frame marked up showing where curve is here on the edge

 

these are examples of outputs

 

that a single backbone network on a single camera

 

might put out in the networks that are actually in the cars

 

we see anywhere from dozens to 100 of these outputs

 

depending on the camera obviously

 

the front camera side cameras they don't all look for exactly the same thing

 

they look for generally similar kinds of things

 

so that wasn't interesting

 

there's eight cameras

 

most of the driving is done with seven of the cameras

 

on the front of the car there are three cameras that look straight ahead

 

there's a fish eye which got almost 180 degree field of view

 

then there's what's called the main camera

 

which has about a 90 degree field of view it's a very recognizable field view

 

and they have narrow which is a telephoto view

 

it's looking well down the road narrow is interested in things that are a couple hundred feet down the road

 

main is interested in stuff that's close to the car within a couple of vehicle links

 

fisheye basically pulls in things from the side

 

if you're sitting in an intersection fisheye can also show you a certain amount to the left and to the right

 

so then there's four cameras on the sides of the car

 

there's two in the pillars that

 

basically look to the side and forward

 

then there's a set of repeater cameras which

 

repeater is the it's like a little turn signal indicator

 

that's on  the front fender of the car on the side of it

 

so the Tesla's they have a camera that looks backwards

 

from each side of the car

 

so that's seven cameras

 

three to the front

 

and then two on each side there's another camera

 

which sits above the license plate and

 

when you back up your car it's the camera that shows you the rear view

 

the NNs are also capable of using that well

 

you don't tend to see the rear view camera used in a lot of the NNs

 

for instance the BEVs are they're totally dominated by the other seven cameras

 

 

 

DAVE

have you noticed over time Tesla incorporating more of the camera data views into their NNs

 

 

DOUMA

in early versions of AP

 

some years ago they were using like two of the front cameras for a really long time

 

and then they started incorporating the pillars

 

and then the repeaters came in

 

around the time

 

navigation on AP where it could start doing lane changes on its own

 

then it was really using all the cameras for the first time

 

really integrating everything

 

they've always done a lot of processing

 

on the front cameras

 

those are obviously really important to being able to drive the car

 

but the amount of work that they do on the side cameras

 

has increased a lot over the last 24 months or so

 

and so now all the cameras are basically have really big networks

 

and they're all doing a lot of processing but of course

 

there's three cameras to the front of the car

 

and some of the front cameras actually

 

have more than one backbone

 

they have multiple backbones that are specialized on different kinds of subsets

 

in this example Karpathy shows like

 

moving objects, road lines, and road edges

 

in the most recent version of networks

 

i saw they actually have completely different backbones for these big categories of objects

 

like they have a separate one

 

for moving objects

 

and a separate one for static stuff on the road and so on

 

 

 

DAVE

Is this more of a HD3 thing

 

where the old hardware just probably couldn't process fast enough all of the camera data

 

or did you see in the old hardware also used of all of the cameras

 

 

 

 

DOUMA

Navigation on AP was deployed before HD3 came out

 

but they're probably pretty close together in time

 

now that AP actually works fine on the older on the hardware 2.5 and hardware 2 versions of the car

 

but the amount of stuff that i see in FSD networks is way out of old hardware

 

it's 20 times too big to run on the hardware 2.5 processor

 

so they're definitely not running that on hardware 2.5

 

but the all of the functions that I saw in networks up until I started seeing FSD networks

 

it seemed like it was being scaled so that it could fit in hardware 2.5

 

so now Karpathy in this talk

 

he leads up to an explanation of the BEV networks and

 

using a NN how to develop this BEV

 

Tesla has recently gone to asking the car to give it a map of everything

 

asking a NN to generate a map of everything (Vector space they call it)

 

that's around the car in one field

 

and previously they had perspective views

 

if you ask to PVs "show me where the cars are"

 

and it would show you in the cameras field of view

 

like here's a car here's a car here's a car by putting boxes around those

 

the BEV it asks the network to take a step back

 

imagine you were looking at the car from 100 feet up or 200 feet up

 

and imagine all the area around the car

 

and then asking the network

 

tell me where the cars and the pedestrians and the road lines and the curbs are

 

in this view (vector space derived view)

 

one of the first places that this became really valuable to Tesla

 

and a really good test bed for this is smart summon

 

so they have this advanced summon feature where you can

 

call the car to come to you from across a parking lot

 

in parking lots

 

it's really hard to tell

 

where the car is supposed to drive

 

they're not nearly as well delineated as driving on roads are

 

the car, the curbs can be in all of these complicated patterns

 

they wanted to do was

 

having the NN to tell me where is it safe to drive in the parking lot

 

and so he's talking in this section about how they tackled that problem

 

originally they had tackled that problem just with geometry

 

which is you have a camera and it's a projection onto the world

 

and you can use trigonometry to say

 

if i see the curb at this point in the picture (2D)

 

it must be at this position relative to the car in the real world

 

and they were using that to try to estimate

 

where the boundaries of

 

where it was safe to drive was

 

and they were getting that works pretty well

 

when you're really close to the car

 

but there's a lot of difference

 

if you look out the side of the car

 

it's pretty easy to tell when something is five feet from the car versus ten feet from the car

 

but when you're looking 40 feet from the car

 

and you're trying to tell if something is 40 versus 45 feet away

 

that's a lot harder to do

 

to understand that distance

 

the geometric approach wasn't doing it for them

 

when they switched using a NN for this BEV approach

 

they suddenly started getting much better results

 

so this is what the ground truth is 

 

in other words this is what it would actually look like on a map

 

and then here's what the geometric thing was showing us and it looks terrible

 

then here's what the BEV NN was telling us and

 

it's perfect it's like a really good match to the ground truth map

 

so you can see there what a leap forward it was

 

for them to step away from geometric approach to understanding the environment

 

having a NN take a bunch of camera views

 

and try to show what the world looks like

 

 

 

 

DAVE

when they were doing this a smart summon was the expectation that

 

a geometric approach, geometry approach would actually work

 

and then as they hit limitations

 

they're trying to explore other solutions with NNs

 

and so was this like on the fly adaptations

 

we're trying to solve this problem and

 

we're throwing different things at it

 

and then the NNs came out to be the winner

 

 

 

 

DOUMA

it's a little of both

 

i think their expectation is that

 

in the long run the NNs will win a lot of this stuff

 

but in the short run

 

NNs are new and the best way to use a NN to solve a problem can be not very obvious

 

and a lot of the geometric techniques are mature

 

they've been around for a really long time so

 

if they need to do something today

 

an approach they can take is

 

use a geometric approach to just get going

 

and then you start trying different things with the NN

 

to figure out what the right way to do it with a NN is

 

and looking at how the different NNs evolved over time

 

my favorites was the windshield wiper thing

 

because every time I saw a NN

 

the windshield(フロントガラス) wiper network it had radically transformed

 

like it wasn't this arc

 

where they started with this

 

and then they gradually moved in some direction

 

it went all over the place they did all kinds of things

 

trying to get the windshield wiper to work

 

that was an example of where they didn't think it was going to be that hard

 

when they started out and then it turned out to be surprisingly hard

 

and they had a whole bunch of experiments

 

and then eventually they found something that worked pretty well for them

 

and that's what they're doing now

 

 

he talks a little bit about their general design philosophy here

 

 

now when they tried to do the NN

 

how did they change stuff that was in the car

 

so now what they want to do to be able to use the NN to solve this problem

 

to understand the thing

 

you need to rotate the view at minimum

 

you need to be able asking the camera what would I see from above

 

in the field of view that you've got

 

then you want to put all the cameras together(fusion)

 

because no camera can see all the way around the car

 

and because the cameras really overlap a lot in their fields of view

 

they can act as a check on each other

 

and check overlapping parts

 

because each camera wants to see a consistent view

 

and its edge has to be consistent with the adjacent camera

 

the cameras all together end up being a good consistency check for all of them

 

so essentially when you try to put them all together and make it make sense

 

the accuracy of everything gets a lot better

 

so then another thing that you can do

 

once you've integrated all the cameras into a scene (virtual mono camera)

 

it should also make sense across time

 

there's continuity between what i saw a second ago

 

and what i see now

 

and what i will see a second from now

 

so another consistency check that all these things can do is

 

i do my top down BEV

 

and now i want to stitch several seconds of those together and

 

ask them to cross check each other and

 

then my accuracy goes up again

 

and this is what you see them doing here

 

he's just got an example of five cameras here

 

one from the front and four on the sides

 

and then this is what we were looking at before that was the backbone

 

now this time the backbone isn't making these outputs down directly

 

instead what the backbone is doing is

 

it's extracting all these features

 

and it's feeding them into another NN that takes the output from the individual camera networks

 

and it makes a unified view

 

the unified view combines all of them together

 

the next stage is the temporal one

 

where you look at several unified views over time

 

like maybe eight frames

 

so you take the last eight synthesized views that you have

 

and you ask them to all be consistent

 

so you have a network that that cross-checks all of those against each other

 

(Temporal module)

 

one side effect you get of time is

 

now you can see moving objects

 

if you see a car moving from frame to frame to frame

 

one of the things that this network can output is

 

not only it can just tell you there's a car there

 

but also it can tell you what direction it's moving and how fast it's moving

 

the last thing you do is you ask it to rotate the view

 

so that you're looking down on the car

 

now that you've integrated all this stuff together

 

both across space and across time now we rotate the view

 

and then in the rotated view

 

now we ask it all the things we were asking it before

 

where are the pedestrians

 

where are the road signs

 

where are the road markings

 

curbs and so forth

 

now in the rest of these examples

 

karpathy is using curbs in the summon as an example

 

for what they're doing

 

you would tend to see these benefits across all the different kinds of things

 

that they were trying to do

 

 

 

DAVE

this whole fusion of the different cameras into a BEV(vector space)

 

is this something you think that Tesla has pioneered with or

 

is this something that is growing more common with vision and NNs

 

 

 

DOUMA

Academics have been trying to do this for a little while

 

in the last couple of years

 

there has been several interesting papers out on BEV networks

 

my experience with looking at Tesla's networks is

 

i'll often look at the networks and i'll see some stuff going on

 

and then i'll go to the literature and i'll search for other people doing this

 

and i will frequently find that somebody just came out with a seminal paper on this topic

 

like six months or a year before Tesla did it

 

so they probably are innovating and

 

they're certainly adapting these ideas

 

typically what you see the research having been done on

 

is not exactly what Tesla wants to do

 

they'll be very similar

 

and this inspires Tesla to try something along those lines

 

and then they figure out how to adapt it to what they're trying to do

 

 

 

DAVE

you've got this fusion BEV and

 

then it seems Karpathy is saying that they're relying on this BEV

 

increasingly more over time to drive

 

how do you think they're managing these two views

 

meaning you have the old kind of forward-facing view

 

then you have this newer kind of BEV

 

when do you rely on the BEV versus when do you rely on the old forward-facing view

 

is there some type of switching going on or

 

do they have to match up or how does the logic work with that

 

 

 

DOUMA

AP's a product that's in development it has an arc

 

they do lots and lots of small revisions that they push out to the fleet

 

and for the most part what they do is they introduce new functionality

 

and then they gradually refine it over time

 

so we're at a point in time right now

 

where they still have all the outputs that they got from those backbone nets

 

that were on the original cameras

 

and they had a bunch of code that they developed

 

because they didn't used to have the BEV stuff

 

so they had some relatively mature functionality

 

that was using those capabilities

 

and they probably still have it in there

 

for instance you saw that

 

in the original backbone thing for instance

 

they have a moving object's output

 

like one of those would be cars

 

but identifying other vehicles that are on the road

 

is a big feature that these networks develop

 

so they had a function that was working reasonably well for quite a while

 

that they had developed to some level of refinement

 

now they bring in the BEV network approach(Vectpr space approach)

 

now the BEV network is answering the same question in a sense

 

but what you don't see is Tesla immediately throwing away the old way of doing it

 

and moving to the new one

 

because in the beginning the old one is going to be pretty competitive

 

because it's fairly refined and the new one is going to have some bugs

 

and it's going to have some accuracy limitations

 

as you use the new one more

 

it's going to get better

 

and once it gets good enough that the old one isn't really adding value anymore

 

then you can drop it

 

and so a lot of features end up being doing this thing

 

where you had the version that you were doing

 

before you come out with the new one

 

and gradually this new one gets better and better and better

 

and eventually "okay we don't need to waste our time on this anymore"

 

and then it comes out

 

and they're simultaneously doing this with a lot of different functions

 

at any given point in time

 

so every snapshot you see some things that are have been thrown away

 

some things that are brand new and being tried out

 

and some things are in a transition in between

 

that's what we're seeing right now with BEV nets

 

BEV nets are showing their success

 

at being able to do this and so they're doing more and more things with the BEV nets

 

they're adding more BEV nets and they're pulling more of the value out

 

i haven't yet seen them deprecate old stuff

 

but that's would be a function of when the BEV nets were doing it so well that you didn't need it anymore

 

there will be some things

 

that the BEV nets won't be good at doing

 

like they can't tell you how tall a bridge is that you're coming up on

 

there's some things that just require that vertical point of view

 

and there will be other things too

 

for instance in the BEV net

 

you can't tell the slope of the ground

 

so if you're driving around a curve and

 

the road is banked or counter banked

 

you don't see that in the BEV net

 

so that's something you always have to do in the camera view(2D)

 

 

we talked about the architecture here

 

they have

 

the backbones

 

they feed into a fusion layer

 

they make it sense across time

 

then they do the top down view,  the BEV view

 

now they're pulling the objects out

 

so this is where Karpathy is showing the success of this method

 

in the specific case of predicting where curbs and parking lots are

 

this is the ground truth

 

so you got a map of the parking lot

 

which maybe you pre-mapped it or maybe you got this from google

 

this is what the geometry is telling them about where the curbs are

 

so you can see this is where the car is

 

it's this blue dot

 

and the stuff that's nearby it's not too bad

 

it's useful within one or two car links

 

you can tell what you don't want to run into

 

but it's not very helpful

 

not very good at helping you understand the shape of this intersection that you're coming to

 

and not very good at like what your options are for navigating it

 

because as you get farther away from the car

 

things get closer to the horizon line

 

the uncertainty of the positioning gets to be really large

 

and then this is the output of the NN(BEV=Vector space) and

 

while you can see that the NN is not a perfect representation of the ground truth

 

it's got all the important features

 

and this was a fairly early version of the BEV net

 

that they had developed in particular for summon

 

what i see in the FSD version of the BEV networks that i was looking at

 

was lots and lots of this BEV net getting used

 

they're using BEV nets everywhere

 

what i wanted to try to give you here was a sense of the visceral difference in the two

 

imagine this

 

if you're here in this car

 

and you're trying to decide okay i want to make a left turn

 

what do i need to do over the next five seconds

 

you look at this it's not too tough

 

i need to turn wide enough to miss this curb

 

and i want to end up going about this way

 

if you go over to this ( geometry ) scene and you try to answer that question

 

this is almost not useful

 

in other words the level of uncertainty that you get

 

just trying to predict these things from the camera views themselves

 

is large enough that you just can't even make sense of the shape of the network

 

so this is the basic what you get with that basic geometric approach

 

now you could refine this

 

you could keep working on the basic geometric approach

 

and you could get better at it by putting things in

 

but when they took the problem away from geometry and

 

they gave it to a BEV network and they told it

 

the constraints are like

 

whatever one camera sees has to make sense for another camera

 

these objects, this space needs to be continuous and make sense

 

and as you move through the scene it needs to be continuous and make sense

 

when you get these cameras to cross-correlate against each other

 

and cross-correlate against time

 

all of a sudden your accuracy gets dramatically better

 

and in this case you can see the differences

 

basically this center image might not be perfect but it's usable

 

they went from something that was totally unusable

 

which they'd worked on a long time they had summon working in parking lots for a while

 

before they went to the BEV nets

 

 

DAVE

so that BEV view in the middle

 

looks like almost exactly the same as the ground truth

 

how much of that is based upon using the BEV net over time

 

over a few seconds versus

 

just like let's say a standstill frame

 

are they able to get that type of accuracy with just a single frame

 

or is that because they're able to see it over a few seconds time

 

 

 

DOUMA

so there are two components to that question

 

say the car wasn't moving

 

you turn on the car

 

it's sitting in one spot

 

it looks out

 

what is it going to see at this intersection

 

so you haven't had any motion

 

it's probably not going to be as good as this but it's not going to be bad

 

 

 

when you are stopped at an intersection

 

you don't get to use the time component nearly as much of orienting yourself in the world

 

but it does add some value

 

it's going to make the network more accurate

 

when the car drives through a scene and it sees a curb move

 

from the distance into the foreground and slide past

 

that has to have a kind of consistency to it

 

in how it moves through

 

it shouldn't jerk

 

it should keep track with the motion of the car

 

so relying on that motion consistency does allow AP to make a bet

 

to be a better judge at any moment in time

 

where that curb is or that object actually is

 

but the place that really has a benefit is

 

when you train these things

 

as soon as you start training that temporal layer

 

your training material has to have time in it

 

so this is when Elon was talking about training in 4D

 

the 3D is including the BEV the top down look

 

we know where all these objects are in space

 

and we're testing against that

 

and the 4D is time

 

where we start stitching these frames together

 

that predicting the time dimension for the NN is really hard

 

and when it gets good at that

 

it's really good at the static frames

 

 

 

 

DAVE

autonomy day in 2019

 

did they mention BEV much at all

 

at that presentation because we fast forward to February of 2020

 

andre Karpathy’s scaled ml and

 

he's basically saying hey this is the big thing

 

we're building a lot of this stuff on

 

but on autonomy day did they have that type of conviction

 

back then or is it something you think

 

in between that today

 

 

 

 

DOUMA

 

They didn't talk about it at autonomy day for sure

 

I don't think they talked about it

 

that the literature doesn't seem to have used this terminology

 

much before a couple of years ago

 

but so Tesla obviously had done a significant amount of internal development of this

 

by February of 2020

 

so they must have started working on it

 

in some capacity around mid-2019 or something

 

and it was around mid-2018 that this started becoming a popular topic out

 

in fact in 2019 you do see a bunch of papers come out so

 

they probably knew generally that they wanted autonomous car

 

NN circles you can go way back and people knew that

 

if you integrated time

 

it was going to be super valuable

 

they just didn't know how to do it

 

what's the right way to do it and

 

they've known for a long time that

 

if you integrated multiple cameras together

 

that was going to be really valuable

 

because there's a way the NNs can cross check themselves

 

the camera NNs and you have to bring all this stuff together

 

and make it make sense

 

it challenges all the networks to get a lot better and

 

once they all get a lot better

 

then the unified view starts to get really good

 

we've known for a long time that

 

this needed to happen

 

it just wasn't clear what the right way to do it

 

there are these brute force approaches that you can take

 

where it's definitely got all the inputs it needs

 

you just put a giant NN on it

 

and you just process it and you train everything against everything else

 

and google did some early experiments several years ago

 

getting a huge cloud of computers

 

and asking them to do this really hard thing

 

proved that certain things were possible but they weren't practical on that scale

 

because you need billions of hours of training

 

so to make it useful in the real world

 

you want to figure out what do I not need to look at

 

what is essential to helping the NN understand this thing

 

that needs to understand to do a good job of this

 

and what's not important

 

and so you gradually whittle away all the things you don't have to do

 

and you get a NN that's small enough and sample efficient enough

 

is like how much data does it take to train this function

 

it's got to be a reasonable number and

 

how much computation does it take

 

that's going to be reasonable

 

we can use a big data center

 

but we can't use a thousand big data centers

 

there are limits

 

it's like the trying to brute force the game of go

 

it seems pretty small it's a 19 by 19 board but

 

they're more go positions than our atoms in the universe

 

i forget like dozens of orders of magnitude

 

there are problems that don't seem very hard

 

but you simply can't brute force them

 

you have to constrain the problem a certain amount

 

before it starts to be tractable

 

that was one of the problems and it continues to be a problem

 

with this whole getting a computer to understand that the world is 3D

 

brute forcing that problem has been intractable

 

google did a couple of really interesting things

 

some guys at google brain did some really interesting things

 

where they just brute force

 

they've made a little cartoon world

 

they really dumbed it down

 

which still has spheres and cones

 

and they wanted to train NN

 

and you would show it one view of the world

 

and you would ask it

 

what would it look like from this other angle

 

where you would give it an arbitrary angle

 

and the amazing thing was they got it to work

 

it took a significant amount of computation and it was very brute force

 

but they showed that the NN will eventually figure that stuff out if the information is there

 

but the approach that they took

 

nobody tried to duplicate that in any product

 

because it just takes too much data

 

and the world has to be too simple for it to work

 

so where's the good middle ground

 

where it's computationally tractable

 

it's a reasonable size NN and a reasonable size amount of data and training time

 

but it works in the real world

 

it deals with all of the complexity of the of the real world

 

and that's been the challenge

 

it's just been in the last couple of years

 

that people have come up with techniques

 

where this started to produce results

 

that were significantly better than what we could do before

 

for a long time they've been able to muddle along

 

but why do this super complicated technique

 

that isn't getting you better results

 

and now they're doing these complicated techniques

 

that are getting dramatically better results

 

and that's one of the things you see in this slide

 

you can see there's a dramatic difference between

 

what they were getting with the geometric technique that was a dominant approach before

 

and what they're getting now 

 

and once again you look at the ground truth

 

it's not perfect but it's a pretty good facsimile of that

 

and it's a dramatic improvement over what they had before

 

 

 

 

 

 

AIデー向けお勉強シリーズ② ジェームス・ドウマさん(機械学習エキスパート)

www.youtube.com

 

ジェームス・ドウマさんです。

 

オートパイロットの初期バージョンから、FSDのいくつかのバージョンに至るまで、中身をハッキングして機械学習の観点から語れる人は、社外ではこの人以外に存在しないでしょう。

 

この2人の対談動画は16本もあります。

 

重複があるとはいえ、すべて中身がパンパンに詰まってる動画なので、一筋縄ではいきません。

 

この動画の視聴目的は

バーズ・アイ・ビュー・ネットワーク(BEV-net)(鳥観図ネットワーク )

のある程度のイメージをつかむことです。

 

BEV-netはテスラ車に実際に搭載される推論用NNにおいて、カギとなる存在です。

 

車両の個々のカメラに実装されているNN

それらをフュージョンしたNN(BEVの1機能)

テスラ社内の開発環境としてのBEV

DOJO

 

など、車両レベルで起こっていることと、企業内、データセンターで起こっていることを分けて整理しないと混乱しがちです。

 

それにしても DOUMA さんなんで日本語しゃべれるのだろう…

 

 

この対談の個別トピックは以下です。

 

・APにおけるステディな改善

・テスラ流のNNへのアプローチ

・NNの巨大化していく様子

・カメラごとのビジョン・NNネットワーク(バックボーン)

・目的変数(従属変数)の大幅な増加

・画面上でのアウトプットの大幅な増加

・アウトプットに基づいて実行されるドライビング・ロジック

・ドライビング・ロジック=コントロール・コード

・カメラの生データに対して、NNが行っている処理

・NNによるパーセプション

・3つのステップ

・パーセプション

・プランニング

・コントロール

・コントロール用プログラムは人間が書く

・プランニングは、人間が書いたコードとNNが生成したコードのミックス

・プランニングは意思決定を含む

・FSDに表示される黄色のsplineはプランニング機能を示している

・プランニングはセンシング(パーセプション)の次の段階

・車両レベルでのNN推論の大部分はパーセプションに費やされている

・車両レベルでのNN推論は、外部環境の理解・知覚が大部分

・目的変数の増大

・目的変数の細分化

・問題ごとに常に新しい機能を開発

・FSD導入時点における飛躍

・NNが巨大化するということは、インプットデータにたいし、より多くの処理を行っているということ

・NNの大規模化は目的変数の増加を可能にする

・大規模化により、通常は出力データの精度(アキュラシー)が増す

・出力データの正確性は確率的に測定されたもの

・目的変数の確率が100%に近づくほど、人間はコントロール・コードが書きやすくなる

・コントロールコードにとっては、確率が100%に近いほど望ましい

・かつては一つのカメラに一つのNN

NVIDIA GP106を使っていた頃の制約

・現在は一つのカメラに複数のNN

・信号停止時、高速走行時など複数のシチュエーションで、それぞれに応じた推論用のNNを切り替えているはず

・動的オプジェクト知覚NN

・静止オブジェクト知覚NN

・専門化された複数のNNも同時に実行されている

・カメラから見て、道路を基準として、それとの相対で動的か静的かを判断

・HD3によって、NNの数を劇的に増やすことが可能となった

フュージョン・アーケティクチャーの説明

・個々のカメラレベルでの実行とフュージョンレベルでの実行

・個々のカメラNNによって2種類の出力データが生成

フュージョン・ネット=コモン・ネット

・コモン・ネットワークへ向けてののデータ出力

・コモン・ネットワークによるフュージョン

・そのフューズド・データは、バーズ・アイ・ビュー・ネットワーク(BEV-Net)へ

フュージョン→ローテーション(テンポラル)→BEV

・BEVはある種の「想像力」を獲得している

・想像力を獲得しているかのような質問を、BEV に投げることができる

・質問を可能にするプラットフォームとしてのBEV

・単純なカメNNは、見えないものを知覚することはできない

・BEVに与えられた2つの役割

・シンセサイズ

・見えないものの存在をguessすること(seeではなくguess)

・FSDでもそれが実行されている様子を見ることができる

・FSDで見えないものをguessしている様子

・BEVは時間の推移も考慮することができる

・各画像を大きなシングル・フレームに統合し、それらを並べることで時系列による分析が可能となった、それをBEVへプロジェクションする

ハッカーコミュニティの解析結果とアンドレア・カパーシーがSCALED ML で語った内容はほぼコンシステント

・NNの大規模化→BEVにおけるトップダウンビュー関連の機能開発→時間的統合

・BEVの持つ2つの役割の言い換え

・1、 各カメラ画像のリコンシリエーション
      →a way of asking the car to reconcile all the different cameras

・マシンへの命令はスペシフィックでなければならない

・マシンが答えを生成できる環境と形式を用意して、マシンに質問する

・(暫定的な)グラウンド・トゥルースの決定 → 損失関数を供給できる

・誤差情報のフィードバック → ネットワークの改善

・2、BEVのもう一つの役割→domain easy to write code or software in

・NNとプログラマーが対話するプラットフォームとしてのBEV

・各カメラ画像をBEVではなく、3D空間へプロジェクションするという方法もありえたはず(車両レベルで)

・BEV空間へのプロジェクションではなくて

・しかし、3D空間への直接のプロジェクションは難易度が高い

・NNに、直接に、世界は3Dだと理解させる方法は、多くの複雑な処理を必要とする

・NNはブランク・スレート

・NNはすべてのアウトプットを、入力データのみから生み出さなければならない

・欲しいのは現実の詳細なモデルではなく、あくまでシンプルでパワフルな、現実のレプリゼンテーションが欲しい

・BEV空間へのプロジェクションで、カメラと物体の位置関係を、NNに認識させることは可能である

・3D空間へのプロジェクションよりも、BEV空間へのプロジェクションの方がシンプルであり、FSDの目的のためにはその方が相応しい

・BEVへのプロジェクションは、現実空間におけるheightやvolumeをある程度捨象している

・(乱暴に言えば「背が高い物体だろうが、低い物体だろうが、車両とぶつかっちゃいけないことには変わりないのだから、高さが同じキューボイドに放り込んでしまえ」「ぶつからないために重要なのは、幅と奥行きであり、高さではない」ということ)

・以前と違ってコードを直接クラッキングすることは非常に難しくなっているので、アウトプットからNNアーキテクチャーを推測するしかなくなっているが、いくつかの方法はある

・BEVへの信頼度の増加

・テスラは過去のNNを捨てているわけではない

・徐々に過去のNNを改良しつつ新規のNNを追加していく

・プランニングのコードを書いていたプログラマーが、BEVを追加する過程においても、過去のNNやそのアウトプットはそのままにしておいて、BEVをインテグレートしていった

the field of view or POV(BEV以前のやり方)

・BEVによって2Dだったものが疑似3Dに

・疑似3Dを並べることにより、時間性考慮した疑似4Dに

・ラベリングの必要性

・テスラもマップを使わないわけではない

・ただしそれはHD3Dマップである必要はない

・Accelerometers:加速度計

DOJOが可能とする2つのトレーニン

・1,ラベリングとその後の学習プロセスの大幅な自動化

・2,self-supervised training

DOJOでNNアプローチが必要だとは限らない

DOJO内部で3Dシーンモデルを構築する際にgeometric priors、geometric analysisで十分な場合もある

・まずは構築された3Dシーンの中で、人間が手動でラベリングしていく

DOJOが構築した3Dシーンモデルの中で、その原ラベリングに基づき、プログラムが自動でラベリングを生成していく

・そのラベリング生成と、精度向上のの過程における学習において、NNを使うことは十分にありうる

・ラベリングは個別のカメラビューNN向けのラベリング、BEV向けのラベリングなど様々な用途が考えられる

DOJOの中では、時間も含めて構築した3D空間の中で自由に往来ができる

DOJOで鍛えたNNをフリートで展開して試す

・2,もう一つのDOJOでのトレーニング方法→ self-supervised training

・これにより「あるカメラからのシーンは、他のカメラからとらえた場合どのように見えるか?」を問える

・カメラ同士のそれぞれの視点からの「推論同士の誤差」が、エラー・ファンクションとなり、学習を推進できる

・カメラの視点はオーバーラップしているから

・もしくはDOJO内部では、この1フレーム後のシーンはどのようなものか、現在までのフレームに基づいて予測せよ、という問いを投げかけることができる

DOJOにはすでに時系列3Dデータが取り込まれているので、問いの答え合わせができる

DOJOで生成された3Dデータのアウトプットは、BEVでも利用できる

・より高い正確性のためには、more nuanced understanding of environmentが必要

・都会の走行では、通行人のボディーランゲージ、ポーズ、モーションさえも理解する必要がある

・膨大なコンピューター演算を可能にするためのDOJO

・ただしそれはFSD向けの演算に特化したシステム

・通常はコンピューターは想像力を持たない

・画像フレームの中に存在しないものを想像することはできない

DOJOの4D空間の中で、あたかもNNが想像力を持っているかのような質問をすることができる

・「つい先ほどまで見えていて、現在は道端に停車しているバスの後ろに隠れているだろう歩行者を想像してください」

・バスに隠れているその歩行者をラベリングするためのフレームは存在しない。だって隠れていて見えないのだから

・バスに隠れる前ののフレームと、バスから出てきた後のフレームなら存在する

・FSDにおける想像力 (FSDで「想像」自体はかなりの程度まで実現されている)

DOJOがその想像力の飛躍を可能にする

・場面ごとの予測は現在のFSDでも行われている

・交差点に差し掛かった時、自転車が近づいて来ているか、その自転車が道端で止まっているかどうかで、車両の挙動は明らかに違う

・聖杯としてのビデオ・オート・ラベリング

DOJOでも最初は人間によるラベリングが必要であろう

・その後DOJOが自分でラベルを生成できるようになれば、人間の仕事はそのラベリングのベリフィケーションとなるだろう

・やがてそのベリフィケーションすらいらなくなるだろう

DOJOは完璧な未来「予測」はできるが、現実に走行しているフリートは「推論」しかできない

・what three-dimensional dynamic model of that scene is most consistent with all the sensors saw all the way through the scene from beginning to end
  →DOJOにはこれがわかる(アタリマエ)

・このグランド・トゥルースに基づいて、NNをトレーニングすることができる

・人を上回る推論能力をNNに持たせることが目標

DOJOはトレーニングの主体ではなく、あくまでNNをその内部でトレーニングさせるための環境

DOJO内部に構成されるのは、カメラからのインプットデータのみから構成された、時系列を持った3D空間であり、NNのトレーニングのために最適化されている

・現在のDOJOの進捗度

DOJOインフラの、ハード&ソフトを構築している段階か?

・NNはセオリー・ドリブンではなく、エンピリカル・ドリブン

・NNのアウトプットを実験前から正確に予測することはできない

DOJOのプロトタイプはすでに完成済みで、そこでの実験も行われていることだろう

・テスラがラベリングのために独自で開発しているツール群も、数千もの特徴を備えたものであろうし、それにより、ラベリング要員の生産性の向上に役立っていることだろうが、それは進行中のプロセスだ

・FSDはここまでで完成!といったプロダクトではなく、常にバージョンアップされ続けていくものだ

・テスラと同規模でテスラと同じ試みをしている企業は存在しない

・ラベリングツールを開発している企業も数多くあるが、テスラほどの規模に対応できるものはないだろう

・テスラはほぼすべてのラベリングツールを自社で開発しているはず、データ規模が大きすぎて、既存のラベリングツールでは対応できないからだ

・おそらくDOJO向けチップのファーストカットは完成させているだろう

・チップが完成しても課題は多い

・電源デザイン、冷却デザイン、コミュニケーションデザインなど大規模データセンターを構築するのは全く別の課題だ

・ただチップを完成させていれば、それを既存のデータセンターの枠組みの中で、ある程度の規模で運用することはできる

・しかしそれはDOJOと呼べるものではないだろう。

DOJOの大規模運用が開始されたときには、NN計算コストが劇的に低下していくことだろう

・(Lidarに関しても多少議論されている)

 

 

 

Revealed: Inside Tesla's FSD Neural Nets w/ James Douma (Ep. 255)

 

DOUMA

the first version of the first Autopilot had a lot more code and very little in the way of NNs in it and over time that has expanded

over the last couple years I’ve seen little snapshots of the NN architectures

looked at what's the state-of-the-art for this particular architecture

like what are they able to achieve with a certain size network

What Tesla is doing is different from what researchers are doing with these network

so from the beginning I was looking at them from that standpoint

and up until FSD beta came out there's a pretty solid steady evolution we could see

the networks they would get bigger occasionally

they would change the structure of the way they were doing

the inputs

the system itself

you can think of it a couple different ways

one way of thinking about it is that

they have a vision network on each camera

what that vision network does is

it takes the video stream coming in from the camera

and it analyzes it

and then it produces a bunch of outputs for each camera

and the outputs might be

where are the stop signs in this frame

or where are the pedestrians in this frame

or where are the cars

or how far away are the cars that you can see

where are the stop lines

where are the markings

where are the curves

so a single NN they started out with a small number of variables

but over time as it's become more sophisticated

the number of variables that they get out of each camera has grown and grown and grown

and now there are like thousands of them literal

that they're asking for all these networks

for some things multiple cameras get used and the data between the cameras kind of interact

these NNs they're outputting a bunch of these variables

now there's more beyond those outputs

if the front camera, one of NN outputs is where are all the pedestrians in the frame

so the output of that is like a frame with little boxes

around all of where all the pedestrians are

say that's what comes out

so another piece of code has to take and make a decision on the basis of that

this is the driving logic

there's a couple of layers to this

there's the sensors themselves what comes out of them

and then what NNs are doing most is perception

which is taking the raw sensor outputs

and turning it into the kind of information

that you could meaningfully use in an human written program

for instance where are the pedestrians or

where are the center lines or

where is the car located in the lane

that's what i'm calling perception here

so taking the sensor input and turning it into something that's usable

after that there's planning which is given these inputs

what actions should I be taking

to pursue the goal that the car is trying to do

like if it's trying to drive down the street or if it wants to make a right-hand turn

it has to decide okay what are the things I need to do from this point forward

to achieve that goal

and then at the end there's

this layer called control which is

it takes one action at a time

it gets the car to do that

so the control stuff is it actually turns the steering wheel or activates the brakes

and so control is all written by people

the planning part is kind of a mix

at this point probably

i've seen some outputs from the cameras which are clearly intended for planning

they're not just what i'm seeing

the simplest one of those to understand is one of the things that NNs do is

they guess at a path through the scene that's ahead of it

the car is almost always moving forward

so in addition to here are the cars

and here are the lane markings and that kind of stuff

the NN makes a suggestion and it draws this three-dimensional spline

which is just a curve with a couple of bends in it

through the scene ahead of it and that's a recommendation for

where the car probably wants to go

this is the NN looking at this saying

this is probably the way forward

so on a curving road the spline would follow the curve

if you're in a lane and there's a car ahead of you

the spline might go around that car for instance

it'll make some suggestions along those lines so that's a planning function

it's not just a sensing function and

there are other things going on

that we can see in the camera networks

that are planning related

but the overwhelming majority of stuff is just answering questions about

what's the situation outside the car right now

the cars have been doing that for a long time

over time we've seen the networks get bigger and there have been more variables

some of the variables get broken up into small

you can tell that as they bump into problems in the development of particular features

they'll add additional variables to help them refine their understanding of some phenomenon

that they're trying to break down in a way that's easier for the code

that decides what the car is going to do

we saw a really big change when it went to FSD

first of all the network's got a lot bigger

there were a lot more networks and they were a lot bigger than they were before

now when a NN gets bigger that means you're applying a lot more processing to the input

because you're trying to generate more outputs

but a lot of times you just want better accuracy

so the bigger a NN is and the more you train it on

and the more computation you spend on a particular NN

the higher the accuracy of the output could be

so the outputs and NNs they're inherently probabilistic so

when it gives you that little screen and

it's telling you where the pedestrians are

it's drawing little boxes where it thinks it sees pedestrians

and each one of them has a probability associated with it

there's a 60 percent probability there's a pedestrian here

and I think there's a 90 percent here or a 95 percent.

of course what you want is for the NN to be as close to perfectly accurate as possible

especially when it's a really important question

and the bigger you make the network and the more training data

the more accurate those numbers will become

those numbers those probabilities will get a lot closer to 99 percent

and you won't see a lot of 50 60 70 percent things

because that's a problem for the people writing the code

what do you do if the car says I think there's a 60 percent chance

there's a pedestrian in front of you

do you break or do you not

you want the probabilities to get closer to 100 percent and zero percent as the choices

because that makes the programming easier

and it also means that you're going to have fewer overreactions or under reactions that
the vehicle does

and the bigger you make the network and the more data you train it on

the closer you get to that ideal of perfection of always seeing a pedestrian when they're there

always getting seeing the lane markings exactly right and so on

so that's one thing we saw

as we see more networks when we see them get a lot bigger

now previously I described it as if there was one NN per camera

and in the early days it was one NN per camera when they were running on the GP106 the NVIDIA GPU

they had a limited amount of processing power

so they didn't have the luxury of being able to run completely independent networks on every camera

for the purpose of getting different kinds of things

and now what we see is they do run multiple networks on different cameras

and probably the networks are somewhat context dependent

like they might switch networks

depending on whether they're stopped at a light

or driving on a highway or trying to maneuver through an intersection or something

but we also see the networks get kind of specialized

like their networks

that are looking for moving objects

because the moving objects have certain things in common

and if you build a network that just looks at moving objects

for instance the time domain aspects of that kind of stuff are important

then there might be another network for static objects which is to say

things that aren't moving relative to the road

like stop signs and trees and the road itself and curbs they don't move

so we see a proliferation of networks

where a single camera might have two three four

or more networks that all run on and all these networks run in real time


DAVE
I’m wondering what's the state of camera fusion are

and are the NNs being applied to that fusion view

or is it still being applied to individual cameras


DOUMA
they have a fusion architecture

where they take a bunch of cameras

so the individual networks still are still producing the outputs

they also have a really big output

that feeds into a common network

that brings all these cameras together

to create like a single fused view of that

and then the fused networks go into a bird's eye view sort of network after that

and what the bird's eye view network does is

it asks the car to imagine what would the world look like

if I were looking down on the car from a great height

like give me a map of the car and its surroundings

so when you look at the display in the car

if you've watched the FSD videos

that's pretty close to what's coming out of the bird's eye view networks

for instance if you're driving down a road the bird’s eye view network would show the curb next to you

and it would show things that were in the median or on the sidewalk next to you

and things on the other side of them also

the bird’s eye network it'll also guess

if you're driving past a wall or if you're driving past another car

the bird’s eye network doesn't see

what's on the other side of the car which is occluded

the car can't actually see what's on the other side of the car

it'll guess based on what it sees in front of and behind the car

if it sees a curb go extending past a car it'll guess that the curb is extending through

and the bird’s eye network is asked to come to bring together the top-down view from all these different cameras

to synthesize a unified view

and it's also asked to guess about the things that you can't see

and you can see this on some of the FSD videos

where it'll guess sometimes incorrectly about things that it can't see

so when the vehicle is driving past an obstacle

the things on the far side of the obstacle they might vary

or you might see a pedestrian will walk behind a car

and then the network will guess that the pedestrian continues for a little while

and then the pedestrian will vanish because at some point the car's not the AP is no longer sure

if the pedestrian is still there

maybe the pedestrian stopped walking

or maybe they turned and they went some other way

the bird’s eye networks also incorporate time

the camera networks all come together to create a unified view of one frame

and that those get fed into the bird’s eye network

then the bird’s eye network looks back over multiple frames

now so this is something

that is get pretty hard to see in the networks

by the nature of how this stuff goes

so I don't get to see a lot of it

but Karpathy's talked a number of times about this at scaled ML

where he talked in some significant amount of detail

about the architecture they were using in the vision networks and

how they were doing inthe bird’s eye networks

so everything I’ve seen is consistent with what he talked about

so my sense is that

what he talked about on scaled ML a year ago

is a pretty accurate representation of what they're doing on the car

to short answer your question

the network's got a lot bigger

they added a lot of this bird's eye top-down stuff to the systems

and they've added temporal integration

so they're looking across time in addition to just static frames

 

DAVE
how do you think the FSD software

for example the bird's eye view seems like it's giving a broader view

but then you also have this forward facing view

let's say the main view of the forward-facing cameras

let's say something is happening

when you're going through a turn

there's some type of obstacle

the forward facing cameras sees that obstacle

the bird's eyes view might see something a little different

how does the software reconcile those two different views

and what priority does it give

 


DOUMA
the bird's eye view is a product

the car of course it can't see down from the top

it's got no way of directly perceiving that

so bird's eye view it accomplishes kind of two independent things

one of them is that

it's a way of asking the car to reconcile all the different cameras

because if you're looking down from the top

no individual camera can see everything around the car from the top

so if you're going to generate a bird's eye view

essentially you've got a little square map and the cars in the center

that's one way of asking the NN to fuse all the camera views

because the front camera looks forward

and the other cameras look to the side

and if you ask it okay now put all that together

and tell me what the whole picture looks like

you can train NNs to take almost any kind of input

and generate almost any kind of output

but you have to have a way of asking a question that's relevant

so that you're challenging the network to come up with outputs that make sense

so that when you train it

you're training it to makes sense

in the context of what you're trying to accomplish

maybe the most important thing the bird's eye view network approach does is

it asks the car to synthesize to put everything together into a picture

that makes sense

you're asking a question that forces BEV to reconcile the multiple overlapping camera views

because if you don't challenge it to do that

it won't learn to do it

so you want to ask a question that's the simplest question you can ask

that at least includes the thing you want

if what you want is to integrate all the camera views into a holistic understanding of what the car's environment is

one thing you can do is

asking the network what would it look like

given all these camera inputs

what do you think it would look like

if I was looking down on the car from the top

so they're asking that question

and that's something they can answer

so that they can determine a ground truth

and provide an error function to feedback to the network

to challenge it to get better

so that's one thing

the other thing that a bird's eye network does is

it's a domain that's easy to write software in

so imagine that you have to write the software to control the car

if I have a camera view forward

and you've got a pedestrian in front of the car

you have to guess how far the pedestrian is

just having a pedestrian in front of the car isn't sufficient to make a decision

about what you should do

you're driving on a curve and that pedestrian's on a sidewalk

when you ask the NN to create a bird's eye view

you're also generating an output that's an easy output

for a programmer to write rules on

because a programmer can look at the bird's eye output

and he can say okay tell me where the road is

so here's the road

and you can ask the question

is this pedestrian in the road are they not on the road

it's not like “Are they in front of me or not”

once you've asked the NN to create this map of the environment

now your programmers have a map to work with

to make decisions about how they want to control the car

so you're getting two things out of the bird’s eye network

one of them is you're getting a straightforward framework

for fusing all these cameras together to get a kind of holistic view
which is way of asking the network to reconcile what it sees on different cameras

and then you're also getting an output that's actually useful

because the people who are writing the planning code and the dynamic control code

they now have a representation that they can work with

it's easy framework for a human programmer to work with rules inside

so bird's eye networks are a very clever solution to that

you could imagine another thing

I imagined that they were trying to make a full three-dimensional sort of virtual model

the world is three-dimensional

a vehicle that's in front of you it has a height a width and a depth and

it occupies some position relative to you

and so as a human being when you're sitting in a driver's seat

you see another vehicle

you have this sense of that thing in space out ahead of you

that you're in a volume of space and

because that's a simple and accurate representation of the reality that we're in

it's a good framework to be able to understand everything

and to work in

but the thing is

it's really challenging if you're asking the simplest thing

the NN could give you this completely all-encompassing depth with everything

which is complete description of the world

if you ask for that and if you challenge a NN to do that

eventually it'll be able to do it

but it's not the simplest thing you can ask that forces it to figure that out

it is just like asking NN that

well what would this scene look like from a different perspective than I am

that also requires a NN to understand that the world is three-dimensional

and other objects which occupy space separate from the vehicle

a NN it doesn't know any of this stuff

it's a complete blank slate

it doesn't even know what a child knows

when you start with it every single little aspect of what it learns about reality

is something it has to figure out from the data that you're giving it

so you have to ask it questions

that challenge it to come up with simple and powerful representations of the world

that you can also build on to write code to control the vehicle

getting a NN to understand that the world is three-dimensional is actually really challenging

we're giving NN a bunch of 2D images

though they're 2D projections onto a 3D world

but it's got to make decisions in 3D and somehow we have to stimulate it to understand that

it's looking at a three-dimensional world

it's not looking at four or five dimensions I guess it's four in a sense

it's a moving three-dimensional world and that's not at all obvious

in the way that we build the NNs

we have to challenge them to figure that out

and the bird's-eye view is a simple clever solution to stimulating the network to figure that out

because you only have a bird's eye view in a three dimensional universe

 

DAVE
let's say module or the planning code in these in FSD

are they relying more and more on the bird's eye view for planning

because before the bird's eye view

you didn't have that so you're relying more on just the camera view

are you seeing a shift over to more planning on the bird's eye view at all

 

DOUMA
so I’m mostly looking at NN architectures and

I have to infer what they're doing

based on the outputs

the bird's eye view outputs are going to be a lot easier to work with

than the field of view outputs are

I’m sure that they're making very heavy use of that

one of the things that we see in the evolution of these things over time is

when they had a new piece of capability come out

that we were going to see this discontinuous change in how they were doing things

it's never really been that way

they add new networks

they gradually transform the old ones

they consolidate old ones

I haven't seen them really get rid of anything so they still have all the

outputs that they had before

my guess is that

when the people writing the planning code

suddenly had bird's eye top-down stuff

they didn't immediately abandon the way that they'd been doing stuff

they started integrating it into the way they were doing planning

and over time they'll probably rely more and more on it

as they know they can trust it

and they figure out how to use it effectively

and then gradually the ways they were using the field of view or POV representations

will just kind of gradually go by the wayside

but bird's eye view is super powerful

and the integration they get the 4D stuff

they were in 2D before where they had snapshots

and now they're challenging the system to understand that it's a 3D world

and bird's eye view is a important component of how they're doing that

and they're asking NN to understand that

things evolve over time

if you see multiple frames in a row

if a block is traveling through a scene

and it's labeled truck and it's 90 90 90 80 90 you see it five frames in a row

well you're a lot you can be a lot more confident that the truck is actually there

if you see it in multiple frames

and so little variations in the probability

it doesn't affect your confidence that it's actually a truck

if you have to make decisions based on a single snapshot they do affect your confidence.

 


DAVE
how do they test and train like for example

for more stationary objects

the neural net will output different boxes or identify different objects

a cat, a car, a truck etc

then you could train it

you could show them the correct things and

you could go back and correct the incorrect object etc

to make the neural net improve but

with the bird's eye view

do you think some type of training is going on

in terms of correcting incorrect type of things

and how is that training being done


DOUMA
it's not nearly as straightforward as deep neural net training

if you show me where the pedestrians are in this photo

if I have a bunch of photos and I draw boxes around all the pedestrians

I can challenge the NN like this

just give me this output like

here's a pedestrian draw box around it

so I have a bunch of pictures with pedestrians which is pretty straightforward

but if I ask the NN like show me a top-down view

and now put boxes around all the pedestrians

that's a lot harder

so you can do a certain amount of labeling

by pulling in other sources that are naturally top down

as a maps for instance

and this is where it starts getting really interesting

so you can try to synthesize a true top-down view of the environment

and this is when Elon was talking about

video labeling and using DOJO to train in video

and the way that it works is you have a car drive through a scene

all right you capture all the output

from all the cameras the accelerometers

all the other sensors and that kind of stuff

you take all the footage from all those cameras

you put it in DOJO

you put in a really big computer

and that computer walks that data back and forth

and figures out what the ground truth must be

and you don't have to use neural networks to do this

you can use geometric priors and other sort of more straightforward geometric analysis

to figure out what the three-dimensional scene must be in that situation

then you can have a human being look at that three-dimensional scene

on a computer in 3D and say

this is a pedestrian

this is a fire hydrant

these are the lane lines

once the computer's got those labels

it can go back to all the frames that were used to make that scene

and it can label all of those inputs and

it can tell you because it's got the whole 3D scene built inside

if I was looking straight down on the car from the top

this is what I would see it at each instant in time

and you can create this three-dimensional model of the thing

then you can automatically generate all the labels

that you need for training

not just the cameras but also the bird's eye view

for instance DOJO can do a bunch of geometric back-end work on a stream of data

where it knows exactly what happened from the beginning to the end

and it can go back and forth over it a bunch of times

and throw a lot of computation at it

and eventually figure out what the 3D scene is

and generate all the labels what the car has to do with it

we're training a NN to figure out what DOJO can do

with a great deal of computation in the back end

and then DOJO can go figure out all this stuff to create the labels

and then we challenge the NN to do this on the fly while it's driving

so that's one way of doing it

there's another technique which Karpathy also talked about in scaled ML

which is a self-supervised training

in self-supervised training

you do a thing where you challenge a NN to tell you

what a scene looks like from one camera

when it's seen from another camera

or you challenge a NN to tell you

that you're the car is driving down a road at 30 miles an hour

and you look out one of the side cameras at the side of the road

and you see a scene the cameras take 36 frames a second

so 1/36 of a second forward in time the scene

will have shifted slightly

and I can ask the NN tell me what the next frame looks like

you can ask the NN to predict what a different camera would see

or what it will see at some point in the future

those techniques they're called self-supervised because nobody has to label the data

the system supervises itself

it generates its own inputs now

the inputs you're testing against aren't quite as meaningful to a programmer

because I’m not asking it tell me where the pedestrians are

that you're seeing out the side camera

I’m asking it tell me

what the camera will see in 30 milliseconds in the future

but the thing is

in order to be able to do that trick of predicting what it's going to see a moment in the future

or predicting what another camera will see at the same moment in time

it has to figure out a lot of stuff

about what the scene really looks like

and so that's a different trick that you can use

it produces kind of different outputs

it'll give you some of the geometric understanding of the scene

which the bird's eye view also requires

and which the bird's eye uses in a different way

so these things work together

when Tesla started doing this

you could just do scene labeling and you could just ask it

where the pedestrians were in the frame

as the systems become more complicated

and they're looking for greater and greater levels of accuracy

more nuanced understanding of environment is needed

an important thing when you're driving down the road

is what's that pedestrian going to do

so you see a pedestrian standing at a curb

this is a big problem when you drive down the street in San Francisco

you're constantly driving about two feet from a bunch of pedestrians

and there's a lot of difference to how you behave with a pedestrian

who's walking along the sidewalk towards you

and one who's looking at their phone standing on a curb

and you're wondering

if they're going to step out in front of you

so eventually the NNs will have to understand all that stuff in real time too

they're going to have to be able to read the body language and pose and motions

of pedestrians

as well as other vehicles and cyclists and that kind of stuff

so that they can predict what that person's going to do

and take appropriate action in San Francisco

you have to predict what pedestrians are doing and that's a pretty hard challenge

so as the challenges that the network needs to be challenging

as the predictions become more and more challenging

we have to get more and more clever

and not just ask it one way of getting the data

but ask it a bunch of different ways

so eventually when they've got DOJO working

they can really throw a lot of computer power at this

they'll be able to do a lot of that drive-through scene video

three-dimensional labeling back propagate all that stuff

that's really computationally intensive

 

 

DAVE
correct me if i'm wrong

with video labeling

let's say my model 3 goes through a scene

and right now it's using the NN

in my car to identify objects giving it to planning and then control

but with DOJO let's say

we take that video of the scene

we give it to DOJO

DOJO takes it through a super computer

crazy amount of computation doesn't necessarily have to be neural net

or machine learning

but it could be geometric as well and comes up with pretty much a 3D picture of that scene

and then a human labeler can go through that 3D picture scene

label the key objects

the car moving through
the person crossing the street

the dog going

then we can take those labels and then train back the neural nets

so that neural nets are more accurate in how they perceive that scene

so we're using the 3D constructing through DOJO

to create a more accurate picture of the environment

as we label it but then using that to train

the neural nets in the car

so in a sense you're giving these neural nets like super power meaning

they're on a different level now because they're using not only

what DOJO has constructed as the environment

but also you do this tens of millions over scenes

and you train the neural nets to identify the object as good as what let's say DOJO would do

you're giving NN an immense amount of increased accuracy

is that kind of the gist of kind of DOJO and video training

  


DOUMA
you get a lot more accuracy

because essentially you're gonna have a lot more data that's a lot more accurately labeled

so that's one thing that you get out of

but another thing that you get is

if I just label the pictures

and I’m just asking it okay tell me

a human says this is where all the pedestrians are

and I give the unmarked image to a NN

and okay you tell me where the pedestrians are

and then I compare that to reality

I compare that to what the human said

and I generate an error function

I propagate back to improve the network

but one of the things you can't do with that approach is

I can't ask the system to imagine something that's not in the frame

and require it to do a good job of doing that

when we start fusing the networks together

and we build the whole three-dimensional scene

I can start asking

I've got a pedestrian that walked behind an occlusion

a tree a bus or something

and I want the NN to understand that the pedestrian is still there

it's still walking along

I can ask it to imagine that the pedestrian is there

even though I don't have a picture to label

so DOJO can build the whole three-dimensional scene

including objects that are temporarily occluded

and I can ask the NN

tell me what's behind that bus right now

or tell me what's behind that car

because if it's a moving object a human will know this

if you see a car parked across the street from you

and another car transitions through the intersection

you understand that when the car's in the intersection in front of you

the other car is still at the stop light on the other side

humans know that

but neural networks that trained in a simple way, they don't know that

but with the DOJO approach they can do that

because I’m asking the NN to tell me the whole three-dimensional scene

including the stuff it can't see right now

I was super excited the first time I saw the FSD videos

you could see that the network was labeling stuff it couldn't see on the other side of obstacles

because we were giving them imagination


DAVE
so with the whole 3D creation through DOJO

you're mapping these objects and where they're going to be in the future

where they're headed

in a sense predicting

where they're headed through that whole scene but then teaching the neural nets

that movement

you're teaching them how to see ahead


DOUMA
that's the next step

understanding the situation instantaneously

which might include that

where the car is right now and here's its velocity

that's also an instantaneous thing because the vehicle has a velocity

another thing is tell me where the car is going to be in 100 milliseconds or 200 milliseconds

where is that car going to be when I’m 50 feet forward right

that's another level

beyond what we're talking about right now

they are doing that already

you can already see in the FSD videos

the car behaves differently like when

if it approaches an intersection and there's a cyclist coming

it behaves very differently than if the cyclist is stopped at the side of the road

there's already evidence that AP is looking at a scene

and it's predicting what the various dynamic objects in the scene are going to do

and responding to that

in the long run it has to be really good at that we expect that of humans

if you're going to pull out in front of another car

you need to have a sense of where

that car is going to be

when you can get done accelerating up to speed

is my path going to cross that other car's path

at any point in the future

if I do this maneuver so you have to be able to project both your path forward

into the future and the other thing and

understand if there's going to be any undesirable interaction there

 

DAVE

Elon Musk was saying that video auto labeling is the Holy Grail what does he mean by that

 

DOUMA

where you have a car drive through a scene

you take all the data that comes off of the car

you stuff that into DOJO

so DOJO recreates the 3D scene

you can auto label probably almost all that stuff

if so DOJO also has access to these trained NNs of the previous version of the car

so it can run through that scene with those networks and it can do a first pass guess

at where all the stop signs are

and as the networks get better

it's going to be doing a really good job of that

it's going to be 99.999 right so

when they first build DOJO and if they're first building these 3D scenes

they'll have to label a lot of stuff

there'll be a lot of details that DOJO isn't getting

but as it gets better DOJO will be able to build this three-dimensional scene

and pre-label thousands of things in the scene and

so then the human labeler's job will be mostly just verifying that DOJO is right

and of course at the tail end of that you don't even need a human in that loop

DOJO can create vast volumes of labeling data

and then you feed that into the NNs

and you close the loop with fewer humans in the process

right now their labelers are limited

they've only got so many labelers

and it's really labor-intensive

when DOJO is labeling it also knows the future

because DOJO's got the whole clip

the whole 10 or 15 seconds

so DOJO knows what the pedestrian was doing in the future

after your car passed the bus and looked back and saw the pedestrian was there

so whereas the NN on the fly

it obviously you don't know the future

but DOJO gets a whole complete thing

DOJO can run it backwards and forwards and can figure out

what three-dimensional dynamic model of that scene is most consistent with all the sensors saw all the way through the scene from beginning to end

and then we asked the NN at any point in time

to guess at the things the NN doesn't know

and eventually like people it'll get good at those guesses

say you have a pedestrian walk behind a bus

and you imagine the pedestrian keeps walking but maybe the pedestrian stopped

you can't know there's an inherent sort of uncertainty to that

DOJO can know what the pedestrian ultimately did

because it'll know after the car drove past the bus

that the pedestrian did in fact emerge from the back of the bus

and the pedestrians movement was consistent with walking

then DOJO knows what the pedestrian must have been doing

when they were included by the bus

of course the real fleet car will never be able to do on the fly

that because it just can't know the future
all the car can do is make a good guess about that but then that's just a limitation of reality

the networks will eventually get really good at predicting the things which can be predicted

but there will always be things that can't be predicted

you don't know if that the pedestrian trip behind the bus and fell over

that's just hard to predict

 


DAVE
how much of this effort do you think is Tesla

is already doing right now at this moment

creating 3D scenes using that as training is that

something that they're

venturing into right now or is this

something they're kind of waiting for until they get DOJO really up and running

 

DOUMA
They might be building the infrastructure to do that

and it'll be a work in progress for a long time

NN technologies are new enough

anything you want to do is pretty complicated

there's a good chance nobody's done it before

NNs they're very empirical it's not a theory driven domain

we have theories about NNs and why they do what they do

and they're not very good

so you can't use a theory to predict

if I build the NN three times bigger

and I give it this data and I include other data at the same time
well now what will my accuracy be? we can't do that

what we do is we build a rough sketch

and we test the idea to see if it makes sense

you can build a prototype that might be crude

the prototype will help you understand the benefit of doing it

so I think they did that

and they've probably got fairly sophisticated prototypes

now and they're probably building their way up the stack

their tools are going to constantly get better

the tools aren't one or two key features

there are thousands of small features that make the labelers more productive

and that improve the quality and quantity of the output

that you have available for training the networks

FSD is not a product like a toaster where it's just done one day

it'll just keep getting better for a long time

all the way along that every single tool in their arsenal

they'll keep refining as they go

they've probably already prototyped tools that they won't be using in production

for five years or three years or something

and they have other tools that they've been using

for a long time that they're still refining

 

DAVE
how cutting edge is this

Are other people other companies doing stuff like this

Is there anyone else doing this at scale


DOUMA
I don't think there's anybody doing what Tesla's doing at Tesla scale

there are certainly other people who train NNs

and use lots and lots of labeled data

and there are companies that are in the business of just making labeling tools

you have 500 labelers

and here's a tool that they can sit down at their desk

and it'll make them productive and help them avoid errors

so there's a market for those tools there are plenty of companies that are doing that

I kind of doubt anybody else is doing it at the scale that Tesla's doing it right now

I think they probably are building most of the tools that they're using

Because probably none of the commercial tools that are out there

can handle the scale that they're working at

so yes and no

other people are doing it

But I don't think anybody's doing it at the same scale that Tesla are

 

DAVE
do you think by the end of this year

Tesla DOJO will be up and running in some form or fashion

that it will make a significant difference to FSD and how accurate it is

 


DOUMA
so where is DOJO right now

they probably could have the first cut of DOJO silicon done

but DOJO is more than just they have a silicon chip

they want to make

that supports a particular computational architecture that they want

and Elon's already talked about the numerical format that they want to use

which is a numerical format that nobody else builds in silicon

so they're building their own silicon to do this

but to build a system at scale

that uses lots and lots of these chips requires a lot of power design

a lot of cooling design

communications is for these kinds of things is very complicated

and it takes a lot of work to get the communication networks to tile these things together

to build a big machine

and that is a bigger effort than making the silicon

on the other hand you can start using the silicon

if they've got their first version of their chip

they can run off a thousand of those

put them on motherboards go in the back room and pull a google

and use a regular computer racks and get that thing working and

they'll want to do that to start understanding how these things work together

and verify that the chip works and that kind of stuff

is that DOJO?

I think their aspirations are high enough

they want enough sophistication out of this thing

that there's a good chance that they haven't built a full up DOJO at this point

like a full rack of the final design

but they have early versions

my guess is that right now they can probably buy so much computation resources

that the hardware that they've built probably isn't moving the needle on it

will they do that this year?

maybe if they wanted to they could

I don't know if they'll have a final version of DOJO

when they get to where they start scaling DOJO then I think it'll matter

they'll very quickly get to a point

DOJO drops their cost of computation by an order magnitude

like out of the gate

so as soon as they get it for the same amount of money they're spending

they get 10 times as much back-end processing

and that'll move the dial on it for them

when they get that

maybe that'll be this year

AIデー向けお勉強シリーズ① ジェームス・ワンさん(前ARKアナリスト)

www.youtube.com

 

DojoやFSDを含めた、テスラAIのポテンシャルを理解するためのシリーズです。

テスラのAIデーを最大限に楽しむために、Dave Leeさんの動画をもとに勉強していきます。

 

やっぱりARKのアナリストは半端ないな~。このインタビューに知りたかった情報が詰まってる。

 

ご存じの方も多いと思いますが、ワンさんは、ARKに入る前は、NVIDIAで働いていました。金融界で最もGPUに詳しい方でしょう。

 

あとDoumaさんのFSD動画シリーズと、アンドレア・カパーシーのいくつかの講演を踏まえると、テスラのアプローチにかなり接近できると思います。

 

このインタビューのトピックを箇条書きすると

 

・テスラの保有するデータ量

・テスラがNNトレーニングにおいて直面している問題

・トレーニング用と推論用のハードウェアの根本的な違い

・トレーニング用NNと推論用NNの違い

DOJOAWSのアナロジーで語ることの妥当性

・水平展開モデル

・水平展開モデルとしてのNVIDIA

・水平展開モデルに必要とされるカスタマーサービス

・顧客がNVIDIAGPUに求めているもの

・本来は画像処理チップであるGPUニューラルネットの行列演算に利用することの意味

・テスラの保有データを、NVIDIAの既製品でトレーニングさせた場合のコスト(時間、金額、最適化の度合い)

垂直統合モデル

垂直統合モデルとしてのApple

垂直統合モデルとしてのテスラ

Appleとテスラの事業モデルの共通点

・テスラがAIデーで示さなければいけないこと

DOJOのスペックとして示されるべき内容

・OpenAIとGPT‐3

・GPT-3のエコシステム

・自動運転を解決するということは、どのようなAI問題を解決していることになるのか

DOJOをGPT‐3のアナロジーで語る

・画像認識版GPT-3としてのDOJOとそのTAM

・新しいクラスをicrementallyに学習すること、インクリメンタル学習

トランスファー学習の難しさ

・画像認識の一般モデル(ベースレイヤー)

・テスラが解決するの画像認識AI問題とその応用としてのFSD

・応用事例はFSDにとどまらないが、それはテスラの仕事ではない

・モービルアイ終了のお知らせ

 

 

 

Tesla Secret AI w/ James Wang former ARK Analyst (Ep. 318)

 

DAVE
you worked at NVIDIA you understand the chip side

you've analyzed Tesla's hardware etc

we know that Tesla has their so-called hardware3 in their cars

they're probably working on hardware4

now they're been working on this Tesla DOJO supercomputer

neural net training computer for the past year or two

and they're prepping for a possible Tesla AI

what's your take on Tesla DOJO

do they really have to create their own neural net training supercomputer

couldn't they use some other solution

and what are the implications for Tesla creating their own supercomputer

can they use it as a kind of AWS

neural net training as a service or

what's the kind of potential going forward with that

 

 

WANG
i was surprised when they talked about building their own training hardware

because training hardware is a lot more complex to design than inference hardware

inference hardware is the hardware you use to run the neural network

training hardware the hardware you use to create the neural network in the first place

the big difference is during the training hardware you have to feed it a lot of data

and it's the training happens in the data center

whereas inference is you've already got the software you just deploy it

it's like deploying your app on the iPhone

you just run it in the local environment in this case the FSD computer in the car

if you look at AI chip startups there are way more startups doing inference hardware

than training because training is a lot more complicated

when i saw the announcement came out

i was like why do you need to do this and i think it comes down to the fact that

they have a very specific AI problem

and they have the largest quantity of video training data in the world and for a specific application which is driving

i think the only other one you would compare to is YouTube

for this application of driving

they have more data than every car manufacturer included times probably a thousand

it's orders and orders of magnitude more

and if they were to use off-the-shelf hardware

if they were to order a computer from NVIDIA say like build together a cluster of NVIDIA dgx servers

i think it would cost them probably on the order of maybe 100 million dollars or close to that

it would be probably in that range

and the cost for them to build this in-house

given their already have a team for building FSD

is probably on the order of tens of millions of dollars

but that's not even the point

i'm sure it's not about saving 50 million dollars because Tesla's capex is in the billions

it's more about achieving what's not really plausible using off-the-shelf solutions

NVIDIA's hardware is designed to deal with all kinds of neural networks
language

speech

video
pure reinforcement learning

it's designed to solve

their strategies to launch one ship architecture for every industry-vertical

and then address the verticals using software

Tesla has a vertical use case a single use case problem

Tesla just want to solve driving

there are motivations basically saying we have this very specific use case

we have an abnormal amount of data that the current computers and supercomputers out there are not even designed to optimally handle

you would need a lot of them to fit it in

and we already have a generation of experience building our own chips using our internal team

 

think of it this way

Andrea Karpathy has a very specific set of software requirements

he can basically list in 10 bullets

if you can give me a computer with x

how much teraflops

how much memory

what kind of interconnect

and what kind of neural network architecture support

i would be able to train

at what rate

and if you plug in that kind of requirements back into what's available off the shelf or amazon

it probably costs an absurd amount of money

whereas if he looks across the cubicle at the hardware team

and say hey can you build that for me?

Peter(ピーター・バノン:テスラAIチップ設計主任) or whoever's running the show right now

that person will be like

yes we can build a five nanometer chip of this size

we can build a custom interconnect that's perfect for your video

in fact we can size the buffers to match the size of the video buffers
and build a super optimized chip

and attach storage and a memory really close to the chip
and we could probably ship it by the end of this year

and that would allow them to basically leapfrog any competition

not that they have any real competition but it would allow them to essentially take all the data they have

which right now is too large to plausibly fit in the training hardware you can buy off the shelf

but actually make it fit in this custom computer they build

and if they can make it fit

they can train the perfect neural network that would actually solve self-driving

and you optimize that, shrink it, ship it in FSD in the inference size

okay Tesla makes their own internal neural net training clusters

it's great it works well for them

 

DAVE
it seems like there's a couple paths here
one path is

fine it's an internal neural net training computer fine who cares Tesla does

and the results and the benefits are purely FSD

another route to go

can they use this stuff that they've learned and that they've built

to do something else

are there other business lines

can they open it up a service

is there any potential for that

is that even like some revenue that's significant or not what's your take on that

their own training hardware

 

 

WANG
it's easy to like go down the road of

oh you have a chip now you can build an AWS or diversify your business

i don't think that's how it works at all for this kind of thing

the whole point of this is how vertical are you.

your first business decision your first strategy decision you make as a business is

are you a horizontal business or a vertical business

If your are in a horizontal business

you build a component like NVIDIA and you try to sell it to as many people as possible

 

if you're a vertical business model like Apple

you build a very specialized thing for yourself and you keep it damn well to yourself and you don't give anyone and

if anyone even builds something that even looks like it

you sue the hell out of them

those are the only two business models that make sense

anything in the middle doesn't make sense

it's very confused and it's not optimized for anything

Tesla is pursuing the vertical strategy

even if lthey shouldn't have the desire to share this with anyone

because it's just literally throwing away your competitive advantage in the wind

and it's not like this is part of the mission of accelerating sustainable energy

this is not battery technology where it's just good for the environment  if you share it

this is proprietary software technology that will help you differentiate against everyone else
doing it it's not part of that open ethos

 

and secondly horizontal business models have entirely different requirements

and operating realities than vertical business models if you want to sell this chip

as a service now you have to build out a whole team that is about supporting your customers use cases

let's say Tesla is like okay we're all image based sensor array

we have no lidar and and this is why we built the chip

this way you try to sell it to someone that's using lidar

they'll be like oh can you add support for a lidar image map

can you add support for this buffer that buffer

soon you're just like you need a whole team to service customers

that's not what Tesla does

Tesla does not service the needs of VW and GM

they're in the business of serving their own teams first and foremost

 

just looking through the lens of Apple

i wrote a blog on this

Tesla through the lens of Apple

the strategy is exactly the same

they're going to make their own things the absolute best first and foremost

and that's their level of differentiations against competitors

they neither have the desire nor does it make any business sense to make it horizontal

because it slows them down and it makes no significant revenue

 


DAVE
elon musk was saying that Tesla can become one of the largest AI companies in the world

at least like shallow-minded, not deep-minded like google but

and you've got this whole Tesla AI day coming up

and if you look at historically their events

with autonomy day and battery day

they have been very significant like strategy events five or ten year foundational events

that they've hosted for a Tesla AI day

one angle you could say

they'll just showcase some of the stuff they're working on autonomy or whatever that narrow case

but my question is like does that really deserve a whole Tesla AI day

 then it's also in light of elon's recent comments

that they could possibly become one of the largest AI companies
is there something else you think that Tesla can showcase or really make Tesla AI day about

the other angle is like elon's saying hey we tried to solve autonomy but on the way along the way

we've had to solve a lot of real world AI problems as a physical world navigation

all this stuff in the busy world of humans and bikes and kids and pedestrians all this stuff and

there's a lot of expertise built up with that

that is not just for you're trying to solve autonomy

but you've built up all this extra real world solutions and expertise

like where is this headed

do you see potential for Tesla to get into other real world applications like robots like drones

 

WANG
that's interesting i wasn't aware AI day is coming

that's very interesting the last time they did i think was a battery day and they showcased some advances

the most obvious thing they need to show is material progress on FSD

because they've been in beta and trialing this out

they've made promises that they've broken over and over again

they need to show a demo that's far more compelling than the palo alto demo they did a few years ago

i think something on the order of complexity of busy streets san francisco

they need to show a like draw dropping demo

to put some of this criticism and skepticism from the press behind them

i think they may talk about certainly DOJO and the kind of the infrastructure side of

how they're going to differentiate and the mechanisms of training

on large-scale video data which is no one is doing

those are probably nuts and bolts

but if you were to speculate on future places they could go

what's interesting is Open AI has provided a perspective on what business you can build with really large scale models

Open AI started off as a research organization for AI like the deep mind of the US
but evolved to a commercial company
and their first product is a product called GPT-3

and it is a generative language model basically a neural network that can write call it english and it's very generalized in the sense that

it not only writes English it can write poetry
it can translate between languages
it can write JavaScript

it because it was trained on the entire corpus of text on the internet

so it's read every stack overflow

it's read every programming manual

it can actually output code

when you train across an extremely large data set

you can basically learn all the sub use cases expressed in that data set

what Tesla potentially could build with its video data set

is a generalized computer vision data set

if the result of DOJO and all this data is

with very little human labeling
it can build a neural network that has robust understanding of images and video

you could think of that as a GPT-3 equivalent but for video
and that could perhaps be deployed in all kinds of adjacent industries

it could be deployed in surveillance security robotics
there are many applications that could become conceivably a SaaS product or
like a API that they could offer to developers
that could just generate pure software revenue


DAVE
if you are solving real world AI where

you actually with vision have to identify not only every single object

but also have to identify its velocity how fast it's moving it's distance from you and from others

and make predictions on where things are going as well

you're solving all of these problems with understanding real world AI

actually maybe creating a 3d type of understanding of what's going on

this type of expertise in real world can possibly apply to many other scenarios or use cases

one angle is Tesla could possibly go into physical robots or drones where they it needs that type of real world understanding

another angle is maybe they can open it up as a web service or API or something
where if Tesla has not just data set but this neural net vision platform

where they can identify not just objects but again it's like everything going around in that environment

they could let other companies other people latch onto
one of the questions i was having was

okay but how does it get better
if a company is using it for a specific case and it needs to be improved in that specific case

let's say they're monitoring lizards or something really niche case
and Tesla doesn't have a lot of lizards
is there a way where Tesla can run a service

where this stuff is can be improved by the very developers that are using it

actually input these images labels or something

where it could actually train the whole neural net to make it better
is that too complicated or is that something that's possible

 

WANG

i think it's not very easy with current technology for that neural network to learn to incrementally learn a new class

it has to learn from scratch again

typically like human training

human training or human learning is incremental so
if you have to learn a new thing today

you can just write that on top of your existing knowledge

you don't have to delete or start from scratch

but the way neural networks typically is trained is that
if your neural network has been trained on 100 lizards
and you need to learn a new class

you basically add the 101st data set into your data pool

you run it again to learn it

because it all sums up to a probability of one

typically the way it's done is not easy

you can do transfer learning but you tend to forget the older stuff as well

and for GPT-3 there is no way the customer can augment the training data

Open AI does everything

it gives you an API and you have practically no control

you can condition your ass your prompt and answers

but you can't add to their training data set

and you can't certainly do a little bit of incremental training as a customer

and then use that as a custom solution to yourself

i think it's not very easy

like from a Tesla's perspective

instead of being that more flexible

I think it's more like addressing the

low-hanging fruit of

if we can just offer this base layer

generalized computer vision model

let's see what you can do with it and

without doing any customization

GPT-3 has proven out that model even with no customization with client side

actually works pretty good

can generate many useful use cases
thousands of developers are working on it

step one you don't have to get too fancy just give people access to an incredibly robust vision model and i'm sure they'll figure out what to do with it
that's fascinating

 

DAVE
GPT-3 for vision or real world

one of the the challenges is like with OpenAI they were able to get billions and billions of text from everywhere on the internet to analyze and feed their neural nets and but in Tesla's case it's more limited

it's a narrow niche of just driving

it's not really because there's so many ways to interact with the real world that isn't just driving

it's not as generalized as for example OpenAI's approach to language and text all that stuff

 

→この返しはちょっと的外れだな。ワンさんはそんなことは言ってない。


WANG
i think it's a vertical specific neural network
it's a driving it's a generalized network for driving
for general vision

yeah it's like it doesn't even have images of inside the house right by definition

i think that is challenging

i think probably the most easiest adjacent industry can do is

to maybe license it to other automakers who need help
because they have less than one percent of Tesla's data set

they could make that a licensing business to that industry vertical

that's probably the most obvious thing to do

but if you're a toyota or gm you would be at lowest to license this piece of software from Tesla
who's already killed you and now you're going to pay them to kill you more

トヨタが死亡扱いされててワロタ)

But what is your choice

you're gonna use an intel mobile eye with chip which is not really a programmable stack
and still you have no data

there are not a lot of choices

 

 

 

 

 

 

テスラコミュニティに学ぶ AAPL の現状とテスラの強み

アップルは将来EVに参入することになるでしょう。なぜそうする必要があるのか、その場合にどのような条件が必要になるのか、テスラの持つアドバンテージとは何なのか。テスラコミュニティに教えていただきます。

 

 

  

1. Appleの売上の成長率のトレンドラインを引いてみると、年間+ 7% になります。このペースが続けば、2030年の売上は 540ビリオン(55兆円以上)になります。

f:id:stockbh:20210206180053p:plain

アップルの売上と今後の予測

JPR007 (@jpr007) | Twitter


2. Appleが、粗利益率を現在の 38.2% で一定に保つと仮定します。

f:id:stockbh:20210206180147p:plain

アップルの粗利益率推移と予測

JPR007 (@jpr007) | Twitter


3.その場合、2030年のアップルの粗利益額は 206.5ビリオン(20兆円以上) になります。

f:id:stockbh:20210206180241p:plain

アップルの粗利益額推移と予測

JPR007 (@jpr007) | Twitter


4.このチャートはアップルの研究開発費、販売管理費の予測です。

f:id:stockbh:20210206180351p:plain

アップルの間接費(販管費、研究開発費)

JPR007 (@jpr007) | Twitter


5.収益に対する間接費の割合は、一定に保たれると想定します。

f:id:stockbh:20210206180506p:plain

アップルの間接費(売上に占める比率)

JPR007 (@jpr007) | Twitter

 


6.アップルは2030年までに、大量のリソースを利用できるようになります。

f:id:stockbh:20210206180557p:plain

アップルの間接費推移と予測

JPR007 (@jpr007) | Twitter

 

7.売上と営業利益の変化は以下のようになるでしょう。

f:id:stockbh:20210206180739p:plain

アップル 売上と営業利益

JPR007 (@jpr007) | Twitter

 

8. 営業利益率は 24.1% で安定すると仮定します。 

f:id:stockbh:20210206180851p:plain

アップルの営業利益率

JPR007 (@jpr007) | Twitter

 


9.営業利益額はは2030年に 130.4ビリオン に達するでしょう。

f:id:stockbh:20210206180943p:plain

アップル営業利益額

JPR007 (@jpr007) | Twitter


10. 現在の14.4%の所得税率が変わらないと仮定します。すると、純利益率は売上の20.8% になります。

f:id:stockbh:20210206181027p:plain

アップル純利益率

JPR007 (@jpr007) | Twitter


11. 2030年のAppleの 純利益は 112.3ビリオンになるでしょう。

f:id:stockbh:20210206181119p:plain

アップル純利益額

 JPR007 (@jpr007) | Twitter


12. 以上をまとめると、2030年のISは以下のようになります。

青色の項目は見積もりです。

緑色の項目は、現在の値と同じです。

この前提に基づくと、時価総額は 4.4トリリオン です

f:id:stockbh:20210206181225p:plain

アップルのIS 2030年

JPR007 (@jpr007) | Twitter

 

13. Appleが自社株買いプログラム(Stock Buyback program)を現在のペースの、年間 -5.5% で続けると仮定すると、将来の発行済株式数は、2020年の175億2800万株から99億5500万株に減少します。

f:id:stockbh:20210206181458p:plain

アップル発行済み株式数

JPR007 (@jpr007) | Twitter


14. この自社株買いにより、2030年の予想株価は

$ 4,400 / 9.955 = $ 442

になると予想されます。

これに15%のディスカウントレートを適用すると、2021年には

125.64ドル

と計算することができます。


15. 株価の見積もりには、さらに現金配当の現在価値を加える必要があります。このために、純利益の25%の割合での、配当性向(continued Dividend Payout Ratio)を想定します。

f:id:stockbh:20210206181617p:plain

アップル配当性向

JPR007 (@jpr007) | Twitter

 

16. 以下のような現金配当の支払いストリームを想定します。

f:id:stockbh:20210206181713p:plain

アップル配当額

JPR007 (@jpr007) | Twitter

 

17.1株当たりの年間の配当金額です

同じ15%の割引率でこれらを現在価値に割り戻すと、1株あたり8.62ドルとなります。

f:id:stockbh:20210206181804p:plain

アップル一株当たり配当

 

JPR007 (@jpr007) | Twitter


18.  $ 125.64 + $ 8.62 = $ 134.26 と現在の理論株価を計算することができます。

これはAAPLの現在の株価とほぼ一緒です。

f:id:stockbh:20210206181852p:plain

アップル株価

 JPR007 (@jpr007) | Twitter

 

19.それでは、このモデルに潜むリスクは何でしょうか?

このモデルの最大のリスクは、現在の株価収益率 39.2倍 が継続すると仮定していることです。 

f:id:stockbh:20210206181946p:plain

アップルIS

JPR007 (@jpr007) | Twitter


20.現在のPERは、S&P 500の歴史的水準に比べて、非常に高くなっています。ゼロ金利に近い状態であれば、現在の状態も正当化することができますが、2~3年後に金利上昇が本格化してくるようであれば、現状のような高PERは正当化することが難しくなってきます。ただしPERを20倍と想定するのであれば、長期的に(10年後)も許容することができます。

f:id:stockbh:20210206182022p:plain

SP500ヒストリカルPE

 

JPR007 (@jpr007) | Twitter

 

21. 高PER問題、これは「AAPLに限った問題」ではありません

現在の市場全体が、PER 39.57倍 のレベルにまで上昇してきています。

http://multpl.com

 

f:id:stockbh:20210206182124p:plain

マルチプルの推移

JPR007 (@jpr007) | Twitter

 

22. もし仮に、株価収益率が2030年までに、20倍に低下した時点から割り引くならば、企業価値の現在価値は $ 125.64 x 20 / 39.2 = $ 64.10 に低下してしまいます。

 

23. その際の株価の現在価値は、64.10ドル + 配当の8.62ドル = 72.72ドル になります。

 
24. その他の、明確なリスク要因は次のとおりです。

-実効税率はわずか14.4%と想定

-売上成長率の想定が楽観的

-コストの増加率をやや保守的に見積もっている

 
25. 「Apple Car」のような新製品は、これらの問題を解決するとは限りません

新しい売上は、コストの増加とマージンの低下をもたらす可能性があるためです。

 

個人的感想

アップルは、アップルカーの販売台数を増やすと同時に、しっかりと高いマージンも確保していかなければ、現在の株価をさらに上昇させ続けることは難しいだろう。

既存の製品での成長が飽和状態に達しているサインが随所に現れている。

ただディスカウントレートが15%っていう、特大の数字を使っているので評価の難しいモデルではある。PEは楽観的で、割引率は保守的なモデルとなっている

アップルは、ハイエンドのEVマーケットから攻めざるを得ないと思う。その意味では、年間10万台の販売目標は理にかなっている。 

ただし年間10万台ではマイナーな存在を脱却することはできない。そこからマージンを確保しつつスケールする方法は?

また下請けに作らせるというスタイルは、既存ののOEMと同じで、テスラの超垂直統合とは対極なモデルである。統合ソフトウェアは素晴らしいものを出してくるであろうが、それとともにバッテリー供給や、プロダクション・ランプアップなどの問題をどのようにクリアしていくのだろうか。アップルの腕の見せ所である。

 

 


1 / 今後テスラは、アップルが成し遂げた成功を、上回って成功する可能性が高いです。その分析を以下に記します。 

f:id:stockbh:20210206183133p:plain

時価総額トップ企業の推移


2 /

アップルは、過去10年以上にわたって機会損失を発生させ、戦略的ミスを犯してきました。

 

iPhoneAT&T 専用にしてしまい、Verizonやその他のキャリアが、アンドロイドを選択することを許してしまいました。


3 /

スマホ画面の大型化を何年も遅らせた結果、Samsungなどの競合他社の台頭を許してしまいました。

 

iPhoneの価格を、高価格(高収益)に保つことを選択し、Huawei、Xiao Mi などの中国メーカーの台頭を許してきました。

 

それらのメーカーの端末は、本当に良いものとなっています。中国の私の友人の多くはHuaweiスマホに切り替えました

 

4 /

MacBook Pro やその他の製品を高価格(高収益)に保つことを選択したため、TAMの中での市場シェア(market share of the TAM)はわずかなものにとどまりました。

 

ハードウェアは高価ですが、ソフトウェアは無料で提供してしまっています。

 

理想的には、より多くの顧客にリーチするためには、ハードウェアをより安く販売しつつ「Appleのソフトウェア」にたいして、少額を月額サブスクリプションで課金してもらう必要がありました。

 
5 /

Appleは、競合他社もアクセスすることが可能な、外部企業に、製造を委託しています。製造に関してアドバンテージがないということです。

 

6 /

アップルの近年のイノベーション速度はとても遅いです。新製品リリースの発表会は、ICE車のリニューアルの発表会と同じような印象を与えます(カップホルダーイノベーションに陥っているということ)。新機能を一気に投入することなく、小出しにしている感じを抱かせます。


上記の決定の多くは、主に「利益志向」の考え方に基づいて推進されたものです(最近のNVDAもこれに陥っている可能性がある)。

 
7 /

テスラとは何が違うのか?

 

イーロンとテスラの使命は、持続可能エネルギー社会への移行を加速することです。したがって、彼の最初の動機は決して利益ではありませんでした。正しい考え方はすべての基盤です。

 

8 /
テスラの製品は、とても速いペースで、あらゆる面で改善し続けています。同時に価格が下がり続けています。

 

テスラのような製品は見たことがないです。プレミアムな製品が、以前よりもより安い価格で販売されて続けているからです。

 

さらに、OTAのSWアップグレードで製品が常に改善し続けます。

 

9 /
さらに垂直統合があります。テスラは機械を作る機械(the machines that build the machine)を作り上げています。

 

製造プロセス全体を、他のメーカーにアウトソーシングするのではありません。これにより、テスラの技術に競合他社がアクセス、コピー、およびキャッチアップするのがはるかに困難になります。

 

10/
SpaceXファクターがあります。 SpaceXのテクノロジーはテスラを助け、逆もまた同様です。

 

ロケット・サイエンスをEV産業に応用しているのです。SpaceXロケットまたはスターシップが打ち上げられるたびに、テスラのカスタマーは、自分たちが特別な企業の車に乗っていること思い出します。

 

11/
テスラカルトの存在です。私はAppleファン・ボーイでしたが、Teslaファンと比べると、取るに足らないものでした。彼らは毎日何時間もかけて調査し、オンラインで投稿し、他の人にメッセージを伝え続けています。

 

12/
他社がテスラと競争していくのは、非常に難しいでしょう。
テスラは非常に多くの分野でイノベーションを加速させています。

(FSD、バッテリー、高度な生産技術・生産プロセス、AIチップ、OTA SW、自動車、ストレージ、ソーラー、スーパーチャージャー、保険、eAirplane)

 

13/
◎極度の垂直統合

◎最高のエンジニア集団とタレント集団にアクセスできる

◎莫大なTAMを抱えており、隣接する市場にも足を踏み入れることもできる

◎忠実なカルトフォロワーと顧客ベースを持っている(OTA SWのアップグレード、Elonのツイート、またはRocketのローンチによって常に更新される)

 

14/
強力なコスト競争力を持つ中国メーカーでさえ、テスラと価格競争していくのは難しいでしょう。

 

中国政府はテスラという「サメ」を招き入れ、テスラとの競争により、自国企業が競争力を高め、それにより自国のEVサプライチェーン全体を成長させる戦略を採用しました。これは本当に賢明な判断です。

 

だから私は強く信じています。テスラは今後10年間で、アップルが過去に成し遂げた偉大な成功を上回って、さらなる成功するでしょう

テスラコミュニティに学ぶ 2020Q4 ERのポテンシャル

f:id:stockbh:20210129164217p:plain


 Q4決算を受けて、テスラコミュニティで分析が進んでいます。EPSが「ストリート予想とかいう勉強不足のアナリストどもの平均値」に届かなかったことで、失望決算とかいう輩もいますが、個人的にはポテンシャルしか感じない超絶決算だったと思います。

 

とくにカンファレンスコールには今後の事業展開についての素晴らしいヒントがちりばめられていました。

 

とくに Dojo。 これは、アマゾンにとってのAWSと同じストーリーをテスラにもたらす存在だと感じました。

 

EV、エネルギー、ロボタクシー、Dojo これらのポテンシャルが全て開花した暁には、テスラの時価総額1,000兆円余裕で越えているでしょう。

 

1.  Q4粗利益(GM)は予想よりも低かったです。ただし、

 オート部門GMはリカーリングで見れば、実際はQ3よりも高かったと思います。一時的な費用がかさみました。

 

「S / Xリフレッシュ」

「シングルピース鋳造(single piece castings)導入にともなうコスト」

「中国でYをマージンを圧縮して販売」

「Covidによるロジスティクス費用と人件費の増加」

などなどが加わり、マージン・レートを一時的に悪化させました。

 

エネルギー部門GMは、ソーラールーフのランプアップによって低下しました。ただしそれにより業界でベストのコスト構造を作り上げ、業界1位に戻る準備ができています。

 

R&D費用の大幅な増加

サービスセンター、モバイルフリート、スーパーチャージャーの急拡大に伴う費用増

転換社債の早期決済による100ミリオンの利息

イーロンに対する株式ベースの報酬

 

これらは長期的には素晴らしい結果をもたらします。CFOのザックは、営業利益率が引き続き増加していくことを認めています。

 

2. 展望(Outlook

テスラは「これから何年も」50%成長し続けます。

2021年のデリバリー数は「実質的に」50%のガイダンスを上回り、「2022年も同様に上回る」でしょう。

2021年後半は、さまざまな新製品の増加により、デリバリー数は年前半よりも多くなります。

イーロンは2021年が素晴らしい年になると考えています!

多くの新製品、工場の新設・拡張が進行中です。

テスラの売上規模が急拡大するにつれて、売上比での営業費用の割合は低下していきます。

テスラは、WSの短期的な期待に応えるよりも、50%以上の長期的な成長を継続することに集中しています。これは絶対に正しいことです。

 

3. FSD:
1〜2か月以内に、FSDの月額サブスクリプションが導入されるでしょう。

 

FSDは急速に改善されています。フィードバック学習も急速に進んでいます。1000人以上のベータユーザーが新規に追加されました。

 

イーロン「私たちはたくさんの実データを持っています、大量の実データは素晴らしいAIのために必須です。」

 

イーロン「聖杯となるのは、ビジョンシステム上での、自動ラベル付けです」「これは私のようなAIの人にとっては夢です。」

もう1つの重要なことは「FSDは現段階のテスラのNNチップで実現でき、新たなv2チップ + ハイレゾカメラは必要ない」と述べたことです。

 

人の運転よりもFSDのほうが100%安全となるだろうこと。この実現のための障害はありません。

 

イーロン:「オートノミー実現に関して、誰が2番目になるか見当もつきません(現段階でテスラが圧倒的なリーダーということ)」

Dojoはトレーニング用スーパーコンピューターです。

 

イーロン「Dojoが、世界最高のニューラルネット・トレーニングコンピューターになると信じています」

 

この発言は「グーグルが現段階で何を実現しているのか」をイーロンが、的確に把握してることを意味します。NNチップを用いたサービスでグーグルを越えられると考えているのです。ゆえにこの発言は素晴らしいです!

 

Dojo これは新しいビジネスラインになるでしょう。AIのSaaS、AIaaS です。

 

4. バッテリー
4680セルに対するショー・ストッパーは見当たりません。また2022年までに100GWh生産を達成するでしょう。

 

5. 新しい モデル S/X

これは素晴らしく未来的な車です。1ヶ月程度でデリバリーされるでしょう。

イーロンは、おそらく今週後半に改めて、新しいモデルS / Xの発表会を行うだろうと述べました

 

6. CyberTruck
ほぼすべての開発・エンジニアリングが終了しています。

工作機械を発注できる段階です。

CT用の8000トンの鋳造プレス(8000 ton casting press )の導入が決まっています。

 

2021年に一部デリバリー開始される可能性がありますが、大規模なデリバリーは2022年になるでしょう。

 

7. テスラの企業価値

イーロンによれば、Teslaを$ 1T企業として、評価するのは簡単なことです。Robotaxiに2倍の車両使用率を適用するだけですから。(only using 2X vehicle utilization for robotaxi.)

これはなんとなくはわかるが、細かい計算式がよくわからん発言だった。 

 

CFO:キャパシティとテクノロジーへの長期間に渡る投資のメリット(将来の爆発的成長)を理解しています。 

 

アフターアワーの下げに惑わされないでください。Q4 決算は驚きに満ちています。

 

〇付いたコメント

イーロンによると、中国でのFSDの購買率が1%であると述べました。多分それはマージンの低下と関係があります。 FSDサブスクリプション と Plaid S / X は、マージンが改善されてくるのに役立つでしょう。

同じことを考えていました。中国でのモデル3の値下げと、モデルYの低価格でのローンチ、さらに低いFSDテイクレートは、マージンを引っ張っています

 

明晰な頭脳と根性を併せ持つ若き投資家フランク・ピーレン

短期的な財務のみに焦点を当てた投資家にとっては悪いERでしたが、長期投資家にとっては「素晴らしい金の卵」がいくつか含まれていました。

 

デリバリーの数が事前に示唆したよりも財務結果が弱かった理由から始めましょう。

 

自動車部門のGMは大幅に値引きされたモデルS&Xにより苦しめられました。(旧車両のテスラへのトレードインなどで、実質的な割引を受けることが可能)

 

カンファレンスコールで示唆されたことは、在庫を売却するための措置だったこと。また 新しいモデルのローンチを踏まえて、現行の「古い」バージョンを、割引いて顧客に提供するためであったことです。

 

顧客の利益のために正しいことをすることは、長期的に見返りがあります。


エネルギー&サービス事業GMも、将来に焦点を合わせたために苦しみました。

 

ソーラールーフのランピングは、エネルギー事業のGMの重しとなっています。しかし、これらの投資は今後数年間で大きな成果を上げるでしょう。

 

サービスGMも将来への投資により弱含みでした。これらは両方とも一時的なものでしょう。

営業費用(OPEX)は大幅に増加した可能性がありますが、今期のOPEXの多くは、CEO CompPackageに関するもので、1回限りの費用でした。

 

また営業費用の増加は、売上成長に伴うものとも予想されます。これまで大幅な売上成長にもかかわらず、過去4〜5四半期で、OPEXがほとんど増加しなかったことの方が驚異的なことでした。

  

テスラのようなハイパーグロース企業にとって、各種のマージンとコストが変動しつづけることは当たり前であり、正常なことです。

 

普通株保有しているだけの場合は、短期的な財務にこだわるのではなく、長期の成長に焦点を合わせてください。

 

私にとっては3つの重要なポイントがありました。

 

カスタマーサービスとコミュニケーションに関して。

ジェロームの取り組みは素晴らしいです。何をしているかについて詳しく説明しているのを聞いてとてもうれしく思いました。数年後には驚くべきものになると信じています。


②テクノロジーのライセンシングに関して。

テスラがライセンス供与をするかどうかは少し懐疑的です。

 

ただテスラはEV生産でも、自動運転でもテスラと本当に競争できるレベルの企業は、もはや存在しないことに気づいています。

 

テスラは将来的にEV産業、自動運転産業で(準)独占的な位置を占めるでしょう。そうなれば、テスラのサイズとパワーは巨大なものになり、規制当局の監視に直面することとなるでしょう。

 

その時点までに、当局に協力的であり、独占志向( "walled garden")とは反対の志向を持っていると認知されている必要があります。

 

そのエクスキューズのためのライセンシングを行う可能性はあります。政治的な理由でのライセンシングです。

  

③テスラAIのポテンシャル

このERで私を最も興奮させたのは、テスラのAIのポテンシャルです。将来、AIが世界でどれほど大きな役割を果たすかについて、正確に見積もる手立てはありません。

 

AIが大規模な産業になるとすれば、最高のトレーニングコンピューター(サービス)と最高のAIチップを揃えた企業は非常に価値を持ちます。

 

TeslaのAIチップ(Dojo と組み合わせて使用すると相乗効果があるだろう)は、Dojo as a Service となるでしょう。これは莫大な価値を生み出す可能性のある事業部門が、Teslaの一部になることを意味します。

  

$NVDA の関係者は、テスラがこの領域で何をしようとしているのか、注意深く見守っているでしょう。これはHVACなどよりもはるかに高い成長可能性を秘めていると思います。

 

おそらく、テスラAI は Energy&Automotive と同様のサイズまで成長する可能性があります。

 

要約すれば、$TSLA将来への成長投資により、財務結果は予想をわずかに下回りました。しかし、長期投資家にとって心配することは何もありません。

 

長期のビジョン、生産台数の増加、FSDの進歩、およびAIの成長機会に焦点を合わせてください。

 

AIデーが待ちきれません!

 

〇質問者とのやり取り

2つのギガファクトリー建設の影響あるのでは?

それはCapexに現れるもので、マージンには影響しません。

 マージンに影響を与える成長のための投資の例:

-新しいスーパーチャージャー/サービスセンターが完全に利用可能となるまでには、ある程度時間がかかること
-ソーラールーフのランプアップの前に、より多くのインストーラーを雇うこと
-人員増強(hiring spree)に先立って人事部門を拡大すること

 

 

鋳造機(casting machines)はマージンに影響しますか?少なくともフリーモントのものに関してはどうか?

↓ 

完全に稼働したら、マージンを改善するでしょう。

 

現在 GoogleColab を利用しているエンジニアです。このサービスはGoogleのDatacentresに設置されている、Nvidiaのチップ上で実行されています。

 

テスラは独自開発したチップを使い、グーグルと同様のサービスを提供することになるでしょう。エンジニア観点からすると、テスラのこのサービスは、比較的簡単にローンチできると思います。これは、EV事業と違いデリバリーなど必要としません。すべてクラウド上で完結するサービスです。私は、このサービスに対する需要は莫大なものとなると思います。

 
私の周りで、GoogleのTPU をトレーニングに利用している人は誰もいません。ほとんどのエンジニアは、Nvidiaのチップ上で実行される PyTorch を使用しています。

  

テスラも PyTorch を使用しています。テスラは、独自開発のチップ用にいくつかのカスタムドライバーセットをすでに構築しているはずです。

 

PyTorch が Nvidiaチップ上で実行される方式もこれと同様です。

 

このNN計算サービスを、オンライン上で提供するのが、テスラにとっての最善です

そして、PyTorch で NNトレーニング を実行しているすべてのエンジニアが、すぐにこのサービスを利用し始めることは明らかです。

 

最終的な需要規模を想像するのが難しいほどです。

 

この部門のマージンも巨大なものになるでしょう。

 

〇別の方
レーニングのスピードは大きな問題です。優れたNNはどれも、高品質のデータを必要とし、そのトレーニングにはまだまだ長い時間がかかります。

 

テスラのサービスが、5倍~10倍のNNトレーニング時間の短縮を可能とするならば、劇的なものになるはずです。


DaaS (Dojo as a service)は、NvidiaNGCのようなものです

 

 

NVDA出身のARKのアナリスト↓

 「Dojoは世界最高のAIトレーニングコンピューターになると思います。サービスとして他の企業に提供するかもしれません。Dojoはそれ自体がビジネスラインになる可能性があります。」 – イーロン

 

テスラは「AIハードウェア事業」に参入したといえます。いうなれば

 

cloud AI as a service


すなわち、クラウドAIaaS です。AI /ニューラルネットクラウド・プロバイダーと言ってもいいです。またそれはAWSの AIサービス版ともいえる存在になるでしょう。 

また業界の他のプレイヤーへ「Dojo ニューラル・ネット・トレーニング」をサービスとして提供する可能性もあります。

 

イーロンはバッテリーデーで、FSDは遠い未来に最終的にはコモディティ化されると言っていました。Robotaxisサービスを提供しながら、FSDのコモディティ化を、収益チャンスにすることは理にかなっています!

 

テスラに起こっている恐怖の「無限スクイーズ」(フラグです)

テスラが節目の800ドル(分割前4,000ドル)を越えてきて、改めてARKのキャシー・ウッドの慧眼を称えたいと思います。


ターシャさん結婚して下さい(違)

 

史上最高値からアフターも含めてさらに10%上昇した日に、こんな記事を書きます。

 

天井フラグ感満載なのですが、長期で持つ人には下がってもあんまり関係ないと思うので書かせていただきます。

 

今日は他の株もみんな上がっているので目立たないですが、昨日のように他のメガキャップグロースが大きく下げている中でも、日中にほとんど買い場を作らずに、しっかり上昇してしまう最近のテスラの株価の動きは明らかに異様です。

 

こんなツイートがありました。

 

 

「マーケットの状況にほとんど左右されず淡々と上がり続ける、こんな光景見たことない!」。

 

もっともだと思います。しかも出来高もさほど大きなわけでもなく、奇妙な静寂の中で株価だけが淡々と上昇しているのです。静かな買い圧力が、常にわき続けてくる感じです。

 

この史上最高値の水準でだれが買ってるんだ?

 

しかも小型株ではなくて、時価総額80兆円近い株です。この後におよんでロビンフッダーが買い上がっているのでしょうか?彼らにそんなパワーがあるのでしょうか?

 

 

この疑問に一定の答えを与えているのが「テスラ・ファクツ」さんです。

 

この方は超絶クレバーな方で、「ゲーリー・ブラック」さんと並び、テスラ・ウォッチャーの中でも最高位レベルに位置するお方なので、まだの方はフォローを推奨します。

 

テスラ・ファクツさんはこの現象に「無限スクイーズ」の名を与えています。

 

「無限スクイーズ」というワードが最初に使われたのは、下記の時だと思います。リアルタイムで経験してないので、詳しくは知りませんが。。。

 

 

こんな感じですね。注意してもらいたいのは、これは対数グラフなので、メモリはゼロから1,000まで刻まれてます。株価が70ドル近辺から910ドルまで一瞬だけテンバガーしてますね。

 

これは経済危機のあとで、VWのショートが溜まりまくってる状況で、ポルシェがVWのステークを拡大するとアナウンスして、それが一気に巻き戻された時の現象です。

 

ショートが溜まっている状況で、フロートが極端に少なくなると発生する現象だといえます。

 

そもそもショートは玉を借りてきて売り建てするわけですが、そうするとフロートはカウント上増えることになります。


ショート・ポジションをクローズすれば、借りてきた玉を返済することになるので、その逆でフロートはカウント上減ることになります。

 

この時は一斉に巻き戻しが起こったがゆえに、結果的に市場から売り手が全くいなくなってしまって、マージンコールも巻き込んで、こんなことになってしまったんですね。

 

以前記事にしたように「ゲーリー・ブラック」さんは、株価が$450の時点で、S&P500組み入れに際し、インデックスファンドの買いその他もろもろが、株価を押し上げる現象をさして、「インデックス・スクイーズ」というワードを使いました。

 

ゲーリーさんは、株価が12月18日に、最終的に$695ドルまで押し上げられる過程を詳細に分析し、組み入れ前後までの株価動向を当てまくったわけです。


そしてその過程で「テスラ・ファクツ」さんや他数名により、さらに上位版の「無限スクイーズ」の可能性が指摘されていました。

 

その時の主なトピックはベンチマーカーでした。


インデクサーは18日の終値で買わなければならないので、その値段がいくらであっても買うだけです。またトラッキングエラーが怖いので、彼らは前もって買うこともさほどしません。

 

インデクサーと違って、ベンチマーカーは前もって買うことができましたが、出来高から推定して、ベンチマーカーの買いは、結局ほとんどありませんでした。


で買ってたのは短期の個人投資家ヘッジファンドばかりでした。ベンチマーカーはほとんど様子見していたのです。

 

しかし組入れ発表時点では1パーセント強に過ぎなかったテスラのウエイトが今や2パーセントに迫ろうとしています。

 

仮にあるアクティブファンドがテスラを一株も持っていないとすると、組入れ時点で695ドルで、現在が830ドルということは、その分だけすでにベンチマークに負けていることになります。

 

別の言い方をすれば、ベンチマーカーである限り、ベンチマークの組入れ株を、自分のファンドで持たないということは、その株を事実上をショートしているのと同じ効果を、彼らのパフォーマンスにもたらすのです。

 

 

12月上旬の時点で、およそ8トリリオンあるベンチマークファンドのうち、テスラを持っているのは10%に過ぎませんでした。

 

彼らは組み入れ後にボチボチ買い始めればいいと考えていたことになります。もしくは明確なカタリストがなかったがえに、買う理由を作れなかったといってもいいでしょう。

 

バリュー志向なベンチマークファンドに、ブルームバーグ端末の予想PER見せてから、テスラ買えといっても無理な話です。そもそもテスラに全く興味なかったでしょうし。


これがキャシーがアークを作った理由でもあるんですが。

 

ところが年明けから

 

メイドインチャイナモデルYの発表で、ショールームに中国人が殺到! とか

プレオーダー1日で10万台! とか

デリバリーがが年間50万台達成! とか

モルスタの1年前まで「目標株価$10」だった野郎(アダム・ジョナス)が、ここのところ急に手のひら返して「目標株価$810」へとさらに上方修正

RBCのアナリストの「私が間違ってました、テスラさんごめんなさい」宣言

とか、

カタリストが相次いでしまいました。

 

これらはテスラウォッチャーには当たり前のことでしたが、興味ない人達には衝撃的なニュースでした。

 

しかもデリバリーの数字を受けて、Q4の決算は超弩級のものになることは目に見えています。

 

これでベンチマーカーたちにはいよいよ買わない理由(顧客に説明できるレベルのまともな理由)がなくなってきました。

 

いよいよ焦ってきているわけです。

 

このままベンチマークから劣ってしまっていては彼らは今年職を失います。

 

これ以上の負けを回避するためには、テスラをオーバウェイトにせずとも、せめてイコールウエイトにする必要があります。

 

 

株価が$830とすると、テスラのSP500に占める割合は、約2%です。ベンチマークファンドの規模は8トリリオン以上と推定されます。

 

で、その買い圧力を、完全希薄化ではなく、実際に流通しているフロートで換算すると24%前後です。

 

つまり、ベンチマーカーたちが、もしSP500とイコール・ウェイトのテスラ株式を保有しようとしたら、フロートの24%買わなきゃいけないのですね。

 

またテスラの現在のショートインタレストは、フロートの6%です。これはさほど大きくはありません。

 

合計すると、で30%の潜在的買い圧力がたまっていると考えることができます。

 

そこで現在のフロートを、どのプレイヤーがどれほど保有しているかを推定してみます。

  

①インデクサーはもう買い終わっていて、16%のフロートを市場から奪っていっていきました。インデックスファンドの定義上、彼らはテスラがSP500から除外されない限り、もう絶対に売らない。つまり彼らの目標株価は無限大www。

 

②またテスラのオプションマーケットは通常の個別株オプション市場の10倍の規模があり、デルタヘッジ需要でマーケットメイカーは常にフロートを奪っていきます。しかもこの需要は、原資産のテスラ株式の値段が上がっていくほど増えていきます。この算定は非常に難しいですが、およそ20%~25%だと思われます。

 

③さらに、熱狂的なイーロン・ファンクラブの連中は目標株価最低でも10,000ドルとか、2040年まではイーロンと心中とか言って、ちょこちょこ買い増すばかりで、1株も売ってくれません。値段が上がれば当然売る人はでてくるのでなんとも言えませんが、コアなファンクラブの保有玉は、フロートの10%~20%だと思われます。

 

④長期で保有するファンドはテスラのポテンシャルに注目して昔から持ち続けているので、キャップ制約がかからない限り、なかなか売りたがらない。これがおよそフロートの30%はありそう。

 

teslainvestor.blogspot.com

 

 

⑤ショート玉でかさ上げされていたフロート玉もカバーされちゃって、サーキュレーション総量がそもそも減らされちゃっている。

 

インクルージョンプレイで買い上がっていたヘッジファンドは、12月18日当日やその後の数日で全部売り切ってしまって、売り玉はスッカラカン

 

大げさに言えばまともな売り手が一人もいないという事態に突入してしまった可能性があります。

 

特に②と③はテスラの株式に特有な現象です。こんな株他にないです。

 

 ①~④を足し合わせて、さらに。。。

⑦ここにベンチマーカーのイーコールウェイトにするための買いの24%を加えると・・・

 

なんということでしょう!合計が100%を越えてしまいました。

 

どういうこと?

 

市場に出回っているテスラ株式買いつくしてもまだ足りないってこと?

 

どうしましょう。新たに売ってくれる人を探してもあんまり、見当たりません。

 

これこそまさにインフィニット!無限スクイーズです。

 

 

 

多くの熱狂的テスラホルダーにとって、現在の価格はフェアバリューよりも大幅に下であること。

 

ベンチマーカーが200ミリオンのフロートを必要としているとしても、出来高から推定して、1日当たりせいぜい5ミリオン集めるのが関の山。年明けから今まで50ミリオン集めていればいいほう。

 

目標の4分の1。。。

 

後はもう言わなくてもわかるね。




私ですか?


まあ10, 000ドルいったら少しは売ってやってもいいかな。


なんせファンクラブなもんで!!(爆)

 

(フラグです)

テスラコミュニティに学ぶテスラのエネルギービジネスの可能性

 


テスラのエネルギー蓄電事業はどれくらいのポテンシャルを持っているでしょう?

 

現在の蓄電池技術を使用した、グローバルなエネルギー貯蔵市場の規模は、年間約3.65トリリオンです。

 

ここでは「エネルギー貯蔵システム全体での価格」は、kWhあたり500ドルと想定されています - the market price of Energy Storage Systems is assumed to be $500 per kWh

 

テスラがこの事業の20%の世界市場シェアを獲得すると仮定します。

 

するとテスラの売上は年間で730ビリオン(70兆円以上)になるはずです

 

粗利益率を25%と仮定すると、粗利益は年間182.5ビリオンになります

 

 

R&Dコストと間接費は、テスラの損益計算書でカバーされていると仮定します。

テスラの営業利益は年間年間182.5ビリオンになります

純利益は年間146ビリオンになります(実効税率20%とする)

 

するとこのセグメントによる、時価総額の追加分は

 

-10倍の株価収益率で1.46トリリオン

-20倍の株価収益率で2.92トリリオン

 

になります。

(オートビッダーなどのグリッド関連に基づく収益は考慮されていないことに注意→もしくはグリッド関連のハイマージン事業も含めての25%のGMレートなのかもしれない)

 

 


論点を補足します。


500ドル/ kWhという価格は、既存のパワーウォール並みの価格です。

他方でMegapack関連の価格設定は300ドルに近いです。

市場シェア(20%)を得るためには、価格をさらに下げる必要があります。

 

かりに全体のコストが 100ドル/ kWh (ラッキングコスト、設置費用などを含む総コスト)になれば、真に革新的でディスラプティブなビジネスとなるでしょう。

 

その場合には、25%のGMは難しそうです。簡略化のために 12.5%のGMとなるとします。 


するとJPR007さんの想定の 約1/10のマージンになってしまいます(価格が5分の1になり、マージンレートが半減しているので)。純利益は年間15ビリオンほどになってしまいます。株価収益率20倍とすると、ビジネスの価値は約300ビリオンにしかなりません。

 

私は、エネルギー事業のプロダクトの製造マージンが低くても、それは理にかなっていると思います。その上でエネルギー事業は、10%代後半~20%のGM率を達成できると考えています。

 

エネルギー製品事業の次に、テスラによる「定期的なエネルギーサービス(recurring energy services)」の可能性を考慮します。

 

パイロットプログラムでは、バッテリーが生み出す収入が、月額で約$ 8 / kWh でした。しかし、この値段では、テスラが事業を大規模に展開するためには、サービス需要者にとって経済的訴求力がありません。またテスラはこれらのサービス需要者からの収益をアセット・オーナー(たとえばneoen)とシェアする必要があります。


このビジネス(RES)が真にディスラプティブなものになるためには、このビジネスにおけるテスラの最終的な取り分が 月額で 約$ 0.50 / kWh になる必要があると思います。

 

仮にテスラが 1.5 TWh の蓄電容量を保有し、その出力を10年間維持するとします。すると、設置された分散型バッテリー容量(installed distributed battery capacity)は 15TWh に達するでしょう。

 

その規模までスケールできれば、これは年間90ビリオンの営業利益を生み出します。

 

税金を考慮したのちの、純利益を40倍(PE40)すると、約$ 2.7トリリオンとなります。このビジネス価値が、上記のエネルギー製品製造によるビジネス価値に追加されます。

 

上記の分析からは、多くのニュアンスが欠けています。現実には、設置されたフリートのすべてが、このレベルの収益を生み出すわけではありません。それでもサービスからのマージンのほうが、ハードウェアのマージンを上回ると思います。

 

(2人が見ている未来はそんなに違わない。エラボレーションの仕方が違うだけ)

 

 

粗利益率は、経営陣の決断に左右されます。

 

テスラはEV事業で平均25〜30%のグロスマージンを追求すると思います。



「生産規模拡大」と「数々の技術革新」と「独自設計のバッテリーの生産(製造が社内か社外かに関係なく)」とを組み合わせることで、テスラは2031年までに「低コスト生産が可能な自動車メーカー」になっていると思います。

この観点から、粗利益率は25%ではなく30%に達すると期待しています。

 
業界で一番コスト競争力があり、EV販売から30%の粗利益率を得ているとします。生産するバッテリーも当然それに準じたコスト競争力を持っているはずです。それらのバッテリーを粗利益率30%未満の別の高額商品(big-ticket items)すなわち、別の事業に投入することには意味がありません。

 

もしそれをするならば、「EV販売」が「エネルギー貯蔵システムの販売」を補助することになります。そんなことをする理由はありません。


「バッテリーセル生産」において、最低コストで生産できる生産者は、「バッテリーエネルギー貯蔵システム」でも最低コストで生産できるはずです。

 

その場合にEVビジネスにおける市場シェアと、バッテリー競争力からもたらされる収益性は、エネルギービジネスにおいても同様の結果をもたらすでしょう。 

 

https://twitter.com/jpr007

f:id:stockbh:20210126122503p:plain

 

 

https://twitter.com/jpr007

f:id:stockbh:20210126122538p:plain

 


上記の図が示すように、獲得可能な利益のプールにおいて最大のシェアを持つこと。このために「市場を占有する」必要はありません。美味しいところをいただくために、市場を完全支配する必要はないのです。

 

あなたの利益ポジション(profit position)に明らかなプラスの作用をもたらさない場合には、自然な価格設定レベルを下回った値段設定をして安売りしても、それが報われることはありません。 

例えばFDASの販売それ自体は、EV販売とはまったく別のビジネスです。

 

同様に、Electricity as a Service すなわち  EaaS から別に売上を得る場合にも、それは完全に別のビジネスと考えるべきです。たとえEV事業が、エネルギー事業の成立のためのツールとハードウェアを含んでいるとしてもです。

 

テスラが事業を大規模化する際に、粗利益率は25%になると確信しています。そうでなければ、この事業を拡大する意味がありません。

 

〇 質問者
将来の蓄電池システムの価格が、kWhあたり500ドル に設定されているのはなぜですか?

 

モデルSのバッテリーのコストは、現在 kWhあたり100ドル です。4680セルで kWhあたり60ドル に下がるとされています。それで他の400ドル以上は何のためのコストですか?

 ↓

kWhあたり500ドルという数字は完璧な数字ではありませ。テスラの損益計算書から導き出しました。実はこれは特定する(pin down)のが最も難しい数字です

 ↓
ただしストレージシステムにかかるコストはセルだけではないため、kWhあたり100ドル という数字は明らかに適切ではありません。

例えばインバーターにも費用がかかります。3.5kWhのソーラーモジュールの場合は1000ドル~1500ドルのコストがかかります。ただしソーラールーフ、バッテリーストレージと必要なインバーターの関係の計算方法がわかりません。


またインバーターのサイズは、家庭用なのかどうか、バッテリーの充電と放電の頻度、速度はどれくらいなのかによっても異なります。

 

またインバーターのコスト自体をどれだけ下げることができるかも問題です。

 

よって、現時点でのおおよその見積りの数字として、500ドルを使用しました。

正しい答えは100と500の間のどこかにあるように見えます。それを特定するには客観的で独立したデータポイントが必要です。

 

〇 別の人のコメント


テスラのエネルギー事業は、いつかテスラのEV事業をはるかに凌駕すると思います(Tesla energy will far eclipse Tesla automotive)。

 

エネルギーははるかに大きな市場であり、混乱の危機に瀕しています。化石燃料の時代が始まって以来、現在のレベルの変化はありませんでした。原子力はコストがかかりすぎます。水力は地形に依存しており、限定的です。「ソーラー+バッテリー」という組み合わせは、スケーラブルで、地球上どこでも展開できます。

テスラコミュニティに学ぶテスラのバリュエーション

 

https://twitter.com/jpr007    テスラ株価分布予測

https://pbs.twimg.com/media/ErOum9OVcAA5afE?format=jpg&name=large

2021年のテスラの株価はどうなるでしょうか?

2021年1月4日現在、株価は744.49ドルで史上最高値です。これは過大評価でしょうか?



私の2031年までの株価レンジ予測からすると、

 

PE10x = $657 per share= 1株あたり 657ドル

PE20x = $1,315 per share= 1株あたり 1,315ドル

 

 すなわち現在の最高値水準は、2031の収益を現在価値に割引いたモデルで評価すると、PEで11.3倍を意味します

  

 https://twitter.com/jpr007     PEプロジェクション(対数グラフ)

f:id:stockbh:20210113084640p:plain

ある企業が年率15%を超えて成長している場合は、将来を見据えて、その企業価値を評価する方が実践的です。将来価値を算定したら、それを現在価値に割引きます。

 

 https://twitter.com/jpr007    2031年におけるテスラのIS

f:id:stockbh:20210113084747p:plain

将来におけるBEV市場の規模、市場シェア、製品価格を仮定します。

それにより将来の純利益を導き出します。 

 

https://twitter.com/jpr007    バリュエーションの前提の数字

f:id:stockbh:20210113084828p:plain

  

https://twitter.com/jpr007  

f:id:stockbh:20210113084913p:plain


考慮すべきセグメントが複数ある場合、まとめて足し合わせて評価します。

その合計値を1株あたりの将来価値とみなします。それを現在価値に割引きます。

これにより、「現在の株価」が将来の見通しをどの程度評価しているかを把握できます。


投資家にとって重要なこと。

-将来の売却価格、その可能性

-今日の購入価格

これだけです。 

 

https://twitter.com/jpr007 時価総額の最大値のプロット 

f:id:stockbh:20210111224049p:plain

2030年にテスラが5兆ドルのバリュエーションを与えられていても驚きません。

 

私には対数的増加( logarithmic growth)のように見えます。

 

この傾向を続ければ、2030年に最大の時価総額の企業は6トリリオンを与えられていてもおかしくはないです。

 

別の方 

 

https://twitter.com/ceo_plus_ch     5年間の予測バージョン

f:id:stockbh:20210111224717p:plain


a)前提
a.1)自動車部門
テスラの販売台数は、テスラのEV市場シェア、テスラの生産能力に依存します。これらとテラファクトリー建設計画を考慮すると、今後の販売台数推移は

2021   0.83m

2022   1.38m

2023   2.15m

2024   3.35m

2025   5.23m

で推移すると考えます。

ASP   :2020年に52kだが、1k/年 の減少率と想定

粗利益率   :23%(Teslaはマージンが高くなると製品価格を下げるため、増えない想定)

 
a.2)ソフトウェア(主にFSD)
2020年の車両1台あたり9k @ テイクレート30%

販売価格は 2k /年 の割合で増加し

テイクレートは 2.5%/年 増加するとします。


ソフトウェアは、基本的に売上原価はありません。つまり売上=粗利益です。

 

a.3)エネルギー
自動車と同じ成長率を想定
粗利益率:10%

 

a.4)OpEx(除くSBC):
償却コストは2020年には2.3bで、年率20%増加

R&D / SG&Aは2020年に1bで、年間20%増加

 

b)2025年のデリバリーと財務予測
-デリバリー:5.23m
-ASP:47k
-EV売上:245.8b
-ソフトウェア(FSD)売上:42.2b
-エネルギー事業売上:19.7b
-粗利益:100.7b
-純利益:66.6b
-EPS 49.98ドル(3%希薄化/年 を想定)

 

c) Valuation
- 2025のEPSの現在価値:31ドル

-理論PE 70.3 を想定

PEG 2  x EPS CAGR 2026-2030は35.15

(5年後のPEを現在のEPSに想定)

-2020年12月現在の理論株価:2,181ドル

 ↓

エネルギー事業や、販売台数増を考慮しているので、ゲーリーさんの見積もりよりはだいぶ高い。


しかしソフトウェア収入がFSDだけであり、またロボタクシーなどは考慮していないので、実現可能性が高い保守的な想定だといえる。


販売台数は5ミリオンだし、十分達成可能な台数である。 

 

https://twitter.com/ceo_plus_ch

f:id:stockbh:20210120094129p:plain

EVマーケットとテスラのシェア予測

2030年にはEVが現在のICE車以上の販売台数水準(年間9,500万台)を達成するとしている人が多いな。

 

テスラは2,000万台でシェア20%強予測

 

市場規模、テスラのシェアのどちらの変数が変わっても将来価値が大きく変わってくることには留意。

 

ただEV市場の予測はある程度見積もることができても、テスラのエネルギー事業の規模を見積もることは相当に困難。本格展開には至っていないかもしれないし、EV事業をしのぐ巨大ビジネスとなるポテンシャルを見せているかもしれない。

テスラ Q4決算展望(注意:わかりにくいです)

※この記事はモバイルで見ると、さらに意味が分からない可能性があります。

 

S&P500組み入れ完了、MICモデルYの発表など、順調にカタリストをこなして、テスラの株価もそれらを反映して好調を維持していますが、Q4のデリバリー台数の速報を受けて、各所でQ4決算見込みのアップデートが行われています。 

 

その中でも

  (@ICannot_Enough) https://twitter.com/ICannot_Enough

のジェームス・スティーブンソンさんのツイッター投稿をもとに決算を展望したいと思います。

https://twitter.com/ICannot_Enough

f:id:stockbh:20210125114639p:plain

テスラのグローバル販売台数推移

コロナ禍の2020年でも、テスラの販売台数増加を止めるものはなかった。

 

今回のQ4決算は当然好決算が予想されますが、ちょっとトリッキーです。

Q4の決算はEPSは一見すると超絶サプライズに見えるものが出てくる可能性があります。

 

しかし、これは現在はBSに2ビリオン分のっかっている「繰延税金資産の戻り入れ」による特別利益による部分が大きいです。その部分を除外すると、普通に好決算となりそうです。

 

投資判断的には、リカーリングな収益のみがカウントされますので、「繰延税金資産の戻り入れ」のような一時的な収益は重要視されません。

 

ただヘッドラインに反応して、一時的に株価が大きく変動する可能性はあります。

 

決算で重要なEPSを予想する場合、完全希薄化後のノンGAAP EPS (fully dilutede non-GAAP EPS)を用いるのが通例なので、それに照らすと。。。

 

ストリート予想EPS              $0.93     ですが、

ジェームスさんの予想EPS   $1.06   となり、14% のビートとなります。

 

普通の好決算ですね。ジェームスさんの予想に基づくならば、決算発表が株価のカタリストになることはあまりなさそうです。発表までに織り込む動きになると思われます。

 

   

 

https://twitter.com/ICannot_Enough 

f:id:stockbh:20210104150012p:plain

①生産台数と売上および利益 

全体の売上は四半期ベースで、初めて10ビリオンを越えて来ます。

つまり四半期売上高が初めて1兆円を超えるということです。そのうちオート部門の売上高は9ビリオンです。

 

さらに目を引くのが 2021Q1 の売上高予想です。Q1はオート売上にとっては各社ともに鬼門で通常は売上を落としますが、その中でもテスラは販売台数を維持し、売上を伸ばすことが予想されています。

 

また、Q4の GAAP 純利益はなんと$2.3ビリオンが見込まれます。これは前年同期比で22倍ですね。この利益水準には、多くの人が驚くかもしれませんが、これはあくまで一時的なものです。

 

この中には特別項目として、$1.6ビリオン規模の「繰延税金資産戻り入れ益」が含まれているからです。これは上述のように投資判断的にはカウントされません。

 

これを除外すると$0.72ビリオンとなり、前年同期比で6.89倍の利益増となります。すごいです。利益が7倍になってるので、今までに株価が7倍になっていても全くおかしくないですね。

 

ただハイライトしてある、Adj. EBITDA を見た方が、業績の推移がよくわかります。 3Qと4Qと連続でEBITDAが急拡大しているのがわかると思います。このトレンドはもう止まりません。この拡大が続く限りは株価の上昇も維持されるでしょう。

 

また予想EPSの計算方法ですが、以下となります。

 まず「GAAPベース」純利益を「ノンGAAPベース」純利益に戻して、そこからノンリカーリング項目を除外して、完全希薄化後の株式数で割るという手順となります。

 

                     ベーシックEPS換算

GAAPベース利益          $2.324B                    $2.46     

   イーロンのSBC                     +$0.226B

     その他のSBC                       +$0.239B

ノンGAAP利益                           $2.788B                      $2.95

DTA分の利益                             -$1.600B                    -$1.69 

調整済み利益                             $1.188B                      $1.26

                                                                                       ↓

                         $1.06

                 (完全希薄化後の調整済みEPS)

                →これがストリート予想のEPSと比較される。

 

このようにして $1.06 という数字が出てくるわけです。

※SBC = Stock Based Compensation       = 株式ベースの報酬

※ DTA =Deffered Tax Asset                     = 繰延税金資産

 

ちなみに繰延税金資産の概要は以下です。

 

企業会計では、会計上は損失であったものが、税務上は損失とみとめられず結果的に課税対象となる項目が常に発生します。損金不算入というやつです。

 

この差異が、将来的に損金として認められる可能性がある場合に、その際の税金軽減効果を見込んで、資産としてBSに積んでおくことができます。

 

ただ利益が発生しなければ、課税も発生しませんので、軽減効果を受けることができません。よって、今後しっかりとした収益が見込めることが、資産取り崩しの前提となります。

 

取り崩すか否かの判断は、これは監査法人(テスラの場合はプライスウォーターハウスクーパース)とCFO(ザック)との交渉により決定される項目です。

 

Q3で行われてもよかったのですが、行われませんでした。Q4は絶好の機会となります。これ以上先延ばしする意味がないからです。

 

ただし、いかに利益がでようとも、一回の取り崩しは最大80%までというルールがあるので、Q4とQ1の2回に分けて行われると思われます。

 

https://twitter.com/ICannot_Enough

f:id:stockbh:20210104150520p:plain

②モデル別の生産台数、モデル別一台あたり売上高、モデル別売上高

1台当たりの売上高(ASP)はわずかに低下します。

セールスミックの変化によるものです。

モデル3とYが↑、XとSが↓ なためです。

またモデルYの売上が四半期で2ビリオンを越えて来ました。

自動車部門の売上は、記録的だった3Qを、塗り替えるでしょう。

 

https://twitter.com/ICannot_Enough

f:id:stockbh:20210104151826p:plain

③Income statement

全体のグロス・マージン比率                   22.3%

自動車部門グロス・マージン比率                 26%

 排出権クレジットがない場合、自動車部門のグロス・マージン比率    24.3%

 

(ARKのブルケースのグロスマージンはオートの粗利が、2024年時点で40%目標)

→これにはFSD、バッテリーコストのさらなる低下が必要

→現状では粗利が30%以上にいかないように、値下げをしているように見える。

 

上述の「繰延税金資産の戻入れ(The DTA benefit)」 は、

the Provision/(Benefit) for Income Taxes

の行に反映されています。

 

https://twitter.com/ICannot_Enough 

f:id:stockbh:20210104152223p:plain

④IS続き、工場別出荷台数

上海のモデルYのデリバリーはQ1から

ベルリンのモデルYのデリバリーはQ2から

オースティンのセミ・トラックとモデルYのデリバリーは Q3から

オースティンのサイバートラックのデリバリーは Q4から

になると予想します。

 

ベルリンローンチ、オースティンローンチ、サイバートラック、セミとカタリストが目白押しです。

 

ギガ・オースティンの建設がやや遅れている問題は、そのうち解決すると考えています。

 

自動車部門の原価低減が進むことで、グロスマージンは2021年を通じて改善していくことでしょう。

 

 

(この予想値だと上海のモデルYのデリバリー数は随分控えめですね。 もうちょっとランプアップスピード上がってもいいとおもうけどなぁ。いずれにしてもフル生産は2022年ということか。)

(ベルリンとオースティンも本格的な収益貢献は2022年になりそうだが、生産台数見積りが保守的すぎるかもしれない。)

 

https://twitter.com/ICannot_Enough 

f:id:stockbh:20210104152413p:plain

⑤EBITDA(調整済み、クォーターごと)の推移と予測

調整済みEBITDAのクオーターごとの推移です。

キレイな右肩上がりの予想です。このトレンドが続く限り、株価の上昇は維持されます。

 

またこの利益指標が、イーロンの株式報酬付与計画の根拠となっています。

 

またこの数字には、特別利益のインパクトは反映されていません。EBITDAなので、税前利益をベースに計算されているからです。

 

https://twitter.com/ICannot_Enough

f:id:stockbh:20210104152712p:plain

⑥車種別販売台数の積み上げグラフ

車種別の販売台数推移です。モデル3の売上が頭打ちなのではなく、単純に生産キャパシティの問題でしょう。 3とYがテスラを支えている構図がはっきりとしています。今年後半には、サイバートラックが3本目の柱として加わってきます。

 

「モデルSがポルシェをディスラプト」とか、もはやそういうレベルの競争をしているわけではないのです。

  

  https://twitter.com/ICannot_Enough

f:id:stockbh:20210104152933p:plain

⑦生産台数と出荷台数

生産台数と出荷台数の差異。テスラは在庫マネジメントも秀逸です。作ったそばから売れていく様子がわかる。

 

https://twitter.com/ICannot_Enough

f:id:stockbh:20210104153743p:plain

⑧CEO報酬の発生高

非常に予測が難しい項目です。

 

おそらくイーロンへのストックオプション付与はこのようなペースで 行われていくはず。

 

発生主義ベースで計上するので、テスラからの現金支出ではなない点に注意。

 

また、ロックアップ期間が数年(5年)あるし、イーロンは権利行使してこの株を手にするためにテスラに相応のキャッシュを支払わなければならないので、これらの株がフロートとして市場に放出されるには何段階もステップが必要です。

 

また事実イーロンは今まで1株も売ってない。

 

  https://twitter.com/ICannot_Enough

f:id:stockbh:20210104153930p:plain

グロスマージン額の推移

グロス•マージン額が急上昇し始めているのがわかる。この傾向はもう止まらないよ。

  


 https://twitter.com/ICannot_Enough

f:id:stockbh:20210104154236p:plain

⑪売上1ドルあたりのセグメント別貢献割合の推移

売上1ドルあたりのセグメント別の貢献割合。

 

今はオート部門が売上を引っぱっているが、バッテリー供給制約問題が解決されてくれば、エネルギー部門が、急にキャッチアップしてくるはず。

 

やがては、オートと匹敵するレベルになって、共に大きく成長していくでしょう。

 

特に Autobidder のポテンシャルはマーケットに全く評価されていないと思う。

 

またこれらに含まれない新たなセグメントが主力事業になっていく可能性も高い。

 

ロボ・タクシー、ロボ・フリート、自動車保険、テスラ・アップストアなどなど。

 

アップルの時価総額を抜くのも10年はかからないでしょう。

 

もしかして5年かからないかもしれない。

 

  https://twitter.com/ICannot_Enough

f:id:stockbh:20210104154455p:plain

⑫売上1ドルをどのように使っているのかの推移

利益として残る部分がこれから安定して拡大していくだろうことがわかる。

 

もはや利益の増加に、設備投資の増加が追いつかないフェーズの、その初期に入ったといえる。

 

テスラは将来的にはアップルのように、自己株式を買い戻す選択を迫られていくことになるでしょう。

 

キャッシュ持っていても使い道がなく、インフレで劣化していくだけだし、負債コストよりも株式コストのほうが圧倒的に高いのだから。

 

 

  https://twitter.com/ICannot_Enough

f:id:stockbh:20210104154718p:plain

⑬期首在庫と生産、期末在庫と出荷

生産、在庫、出荷の推移のビジュアライゼーション。

 

販売在庫を2週間程度分しかもたいないのは、ロジスティクス的に非常に優秀。

 

  https://twitter.com/ICannot_Enough

f:id:stockbh:20210104155125p:plain

排出権クレジット収入の推移

これは将来的に消滅していくが、全く問題ない。 

 

  https://twitter.com/ICannot_Enough

f:id:stockbh:20210104155536p:plain

参考:テスラの3、Yと競合車種との比較

パンデミックの中にあっても、米国ラグジュアリー車マーケットにおいて、テスラは競合のエンジン車メーカをディスラプトし続けている。

 

テスラの競合はEVメーカーではない。テスラがディスラプトしているのは、ICE車メーカーであり、EV同士の競合に過度に焦点を当てるのは間違い。

 

EVのシェア争いがないわけではないが、それはあくまで年率50%で拡大しているマーケットの中での話であって、比較的マージナルなトピック。

 

要はテスラの心配する前に、自分のところのエンジン工場の心配しなさいよっていう話です。

  

  https://twitter.com/ICannot_Enough

f:id:stockbh:20210104155845p:plain

参考:米国市場ではテスラのみが売り上げを伸ばしたよ。

2020Q3までの数字だが、ヒドいね~。

 

米国市場ではテスラ以外のすべてのメーカーが販売台数で前年比マイナスであった。テスラのみプラス。

 

GM,FORD,FIAT,TOYOTA,NISSANと、名誉ある前年比30万台減クラブwww。

ドイツ勢、韓国勢は減らしつつも相対的には健闘しているといえる。

 

その販売台数の減少幅は、各社合計でマイナス240万台 

Q4含めた全体の数字は以下

https://www.goodcarbadcar.net/2020-us-auto-sales-figures-by-manufacturer/

f:id:stockbh:20210120080741j:plain

2020 US企業別販売台数

トヨタ、ホンダは、栄えある「30万台減クラブ」入りはまぬがれた。Q4にインセンティブで相当に押し込んだね。GM、フォード、FCA、日産はクラブ入り。コロナ禍で前年より販売台数を伸ばしたのは、テスラ、ボルボマツダのみ。

https://www.goodcarbadcar.net/2020-us-auto-sales-figures-by-manufacturer/

f:id:stockbh:20210120081745j:plain

2020年 企業別販売台数 面積表示

US市場では、テスラ2021はスバル、VWレベル、2022はホンダレベルまで行くだろうね。25,000ドルモデルの発売で、一気にトップに躍り出るだろう。 

 

https://www.goodcarbadcar.net/2020-us-auto-sales-figures-by-manufacturer/ 

f:id:stockbh:20210120083226p:plain

2020 販売台数、成長率のプロット

左上の50%成長しているのがテスラ。テスラだけが別のゲームをプレイしているのがわかる。ICE車メーカーは滅びるしかない。

 

 https://twitter.com/ICannot_Enough

f:id:stockbh:20210104162213p:plain

参考:車種別の出荷台数の予想

Q1は出荷台数が落ちるのが、米国自動車市場の通例なんだけど、テスラに限っては落ち込みは限定的というかQ4と同じ水準を維持しそう。FSDスポット購入などなどもあって売上は増加するでしょう。 

でもこの図もわかりやすいんだけど、上海のモデルYの生産見込みが保守的に過ぎるんだよね。 

 

  https://twitter.com/ICannot_Enough

f:id:stockbh:20210104162136p:plain

スディーブンソンさんの予想と実際との差異

かなり正確に結果を予測してきている。 

 

  https://twitter.com/ICannot_Enough

f:id:stockbh:20210104162437p:plain

各工場の生産キャパと生産の予測値

  

https://twitter.com/ICannot_Enough

f:id:stockbh:20210104162510p:plain

各工場の生産キャパと生産の予測値

その他コメント 

・Q1に売上が落ち込むのは全社共通。テスラだけの問題ではない。でも2021年以降はテスラには当てはまらないかもしれない。

・モデル2(仮称:コンパクト・ハッチバック)の出荷は2023年くらいになるだろう。

・ザック(CFO)がプライスウォーターを説得できれば、$1.6ビリオンの繰延税金資産戻り入れ益が認められるだろう。この確率は相当に高いと思っている。

・ただこれもGAAPルールで、一度に認識することはできなくて、最大80%まで。残りの20%は次年度もしくは、次のクォーターに持ち越しとなる。

・これからFSDオプションの購入は、機能の拡張とともに、車両購入と同時になってくだろう。だから繰延収益化の比率は少なくなっていくだろう。 

・米国と違ってサイバートラックのEUでの需要はそれほど大きくはないだろう。オースティンからの輸出で対応できるだろう。S & Xと同じように。

・チャイナ・オリジナルモデル、EU・オリジナルモデル、両社とも小さめのハッチバックとなるだろう。

エナジービジネスは、バッテリー供給制約があり、オート部門のように急成長するのが難しい。どうしてもオート部門優先になってしまうからだ。

・メガパックの引き合いは莫大なものだと思うが、シンプルにセル供給がたりない。

 ・エネルギー事業は今年度は2桁成長はすると思うが、やはりオート事業の急成長と比べるとやや物足りなさは残る。すべてはバッテリー生産次第。バッテリー制約が解消されるまでは2~3年はかかると思う。

・ベルリンのモデルYのランプアップは相当に慎重に行われていくと思う。イーロンがカンファレンスコールでそう言っていた。4680セルや、メガキャスなど新しい試みが多いので、クリアしなければならないボトルネックが多い。

 ↓

他の人:メガキャスはすでにフリーモントでやってるし、4680 DBE siliconセルは、すでに多く生産されている。またQ4には、LG化学製の 4680セルも納入されるはず。ベルリンのQ4にはもっと期待していいかも。

他の人:ギガ上海は10月より、800台/日いけるので、クォーターあたり65,000台以上行けそうか?

 

 

  https://twitter.com/ICannot_Enough

 

f:id:stockbh:20210125113547p:plain

テスラのレヴェニュー推移とQ4予測

 https://twitter.com/ICannot_Enough 

f:id:stockbh:20210104170232p:plain

FCFの推移(TTM)

フリーキャッシュフローの推移を見ても、2019年の後半から株価が急騰し始めた理由がよくわかる。

 

 

 

デイビッド・ワンさんのNIOデーツイートまとめ:NIOデーの勝者は誰か?

www.youtube.com

Image of Nio (NIO) logo branded on the exterior of a corporate building.

テスラコミュニティの反応なのでNIOには厳しい内容となっていますが、EV市場の成長に合わせてNIOの販売台数も拡大していくという前提での話です。

 

 

テスラのアプロ―チである「カスタムSoCと統合ソフトウェア」という組み合わせは、Nvidiaのような汎用的なチップによるものよりも、効率的に特定の目的を達成できます。(Apple M1チップがIntelよりも優れているのと同じ)

 

したがって、NIOが主張する7倍の計算能力は、NIOの開発するFSDが優れたものであることを意味しません

 

またNVDAのソースと、今回公表された計算能力をかけ合わせれば、消費電力はテスラの3.5倍~4倍となるでしょう。これは航続距離にマイナスの影響を与えます。

 

最も失望したのは、NIOがバッテリーとEV製造の自社工場を発表しなかったことです。独自のバッテリーと自動車製造能力がなければ、NIOの成功は大きく制限されます

 

本当に全固体電池が製品投入できるとしても、2022年第4四半期はやや遅いと思います。

 

ただし全固体電池として考えた場合、米国のクオンタムスケープ社よりは、素早い市場投入になります。クオンタムスケープの2025年または2027年以降のタイムラインは遅すぎます。

 

NIOのロイヤルティプログラム(車を購入するときにポイント付与、商品に使うなど)は、ある程度までしか機能しません。

 

ユナイテッド航空マイレージプラスプログラムでは、多くの人がポイントを獲得するためにユナイテッドを利用していますが、他により良い選択肢があれば、乗り換えられられます

 

それだけでは顧客をつなぎとめることは難しいでしょう。

 

NIOデーの勝者と敗者です。

大勝者:テスラ

テクノロジー面での大きなアドバンテージが再び確認されました。

何年も前にリリースされたモデルS / Xは、いまだどのメーカーも追いついていません。

テスラのバッテリー、FSDは紛れもないリードを保っています。

 

勝者:#CATL 、#BYD 、#LG

もしかしたら、LGはコストの懸念のため勝者ではないかもしれない


EVレースで誰が勝ってたとしても、#CATL 、#BYDは大きな勝利を収めるでしょう。

 

バッテリーメーカーがEVメーカーとともに、バッテリー技術を進歩させること。

 

これが「EV+エネルギービジネス」の成功の鍵を握ることになります。

 


小さな勝者:#Nvidia

NVDAは、#Intel MobileEye 連合から勝利を収めたと思います。

 

NVDAは、FSDハードウェアビジネスを大きく獲得していくでしょう。

 

今後は、テスラ用の テスラFSDHWと、それ以外のすべてのプレイヤー向けの Nvidia FSDハードウェアという位置づけになります。(テスラは他社にライセンス供与する可能性はあります)

 

ルネサスR-Carは死亡?)

 

短期的な敗者:NIO

NIOは、長期的には成功すると思いますが、短期から中期にかけては難しいでしょう。

 

テスラの3&Yは、低価格でより良い車です。

 

バッテリー/自動車工場と独自のFSDIPを早急に構築しないと、NIOはテスラと直接競争することはできません。

 

ただし、NIOは、ICE車からは勝利を得るでしょう。

 

NIOがバッテリー/自動車工場とFSDIPを今後構築していく場合、資本を調達するため、増資しつづける必要があります。

 

最大の敗者:ICE車

特にBBA(BMW、ベンツ、アウディ)は、中国で今後ますます厳しくなるでしょう。

 

NIOはFSDHWのみの発表でした。 アルゴリズムおよび、データ収集の発表はありませんでした。

 

そして、テスラのFSDウェアに対して、7Xの単純計算能力のみを強調しました。しかし FSDチップの計算能力だけではミスリーディングです。

 

私はAIの専門家です。優れたAIソリューションには計算能力、アルゴリズム、データが揃うことが必要でです

 

実証済みのFSDアルゴリズムと大量の実データがなければ意味がありません。7倍のHW計算能力だけではFSDの成功を意味しません。

 

さらに、NVDAの4つのチップを搭載したハードは莫大な電力を消費します。

 

Lidarはハードの一部分であり、FSDの成功を意味するものではありません。

 

多くのAI専門家、そして私もテスラのアプローチに賛同します。

 

つまり、コンピュータービジョン(カメラ・Rador・超音波センサー)が、FSDへの最良のアプローチだということです。

 

Lidar&3DHDマップはマップがない場所では使用できません。

 

NIOのCEOは、2022年第4四半期に150KWの全固体電池パックを搭載した車両を発売すると発表しました。

 

ただしNIOデー後に「NIOが固体と液体の混合バッテリーだと訂正した」と、中国メディアは報じています。

 

株主からマーケティング上の強いプレッシャーがあり、テスラより優れているとアピールする必要があったのかもしれません。

 

NIOのCEOは、NIOを「ローエンド」ではなく、BMWベンツアウディと競争するハイエンドとして位置付けています。NIOは既存のオーナー保護のために、価格を下げないといっています。

 

私はこの戦略が、うまくいくかどうか懐疑的です。

 

現代の消費者はスマートであり、派手なインテリアだけでなく、より良い車輛とを割安な価格を選好するからです。

 

NIOのロイヤルティプログラムは、古くからのオーナーが、新車を購入する際に、大幅値引き、FSDの月額サブスクリプションを提供するようです。

 

これは新規オーナーを犠牲にした販売方法です。

 

それとは逆にテスラオーナーは常に、過去と比べてベストな価格で最良の機能を手に入れることができます。

 

 

NIOはテスラとの競争において、途方もないプレッシャー(価格、コスト、FSD)にさらされていると思います。テスラが 3 / Yの価格を下げてきました。S / Xのアップデートもありそうです。

 

問題は、NIOが今後もプレミアム価格を維持できるかどうかです。

 

 

販売量の拡大、生産コストの削減を達成するまで、顧客にプレミアムカーのステータスを納得させつづけ、高価格を請求し続けることができるのか。

 

もしくは独自のバッテリーとファクトリーを建設するために資本を調達しつづけ、徐々に販売価格を下げていくのか。どちらも難しい戦略です。

 

 

その他の企業に関してです。CATLの高成長は長続きすると思います。EV/エネルギーという新たなゴールドラッシュにおける、シャベルとジーンズとなるでしょう。

 

BYDは何十年もの間バッテリー開発・製造に取り組んできました。
独自のバッテリー/自動車製造および技術スタックを所有しています。
新しい「ブレード」バッテリーが大きな注目を集めました。
車のデザインはすぐに良くなってきます。
EVバスの製造と輸出も強みです。

 

$TSLA、$CATL 、$BYDDYの3社は巨大なEVアダプションのメガトレンドに乗って2021年も上昇していくでしょう。

 

NIOは長期的には成長するでしょうが、将来の成長力から見てバリュエーションが非常に高く、リスクが高いため、慎重に検討する必要があります。

 

また、NIOはテスラをライバル視するのではなく、ICEカーからいかにシェアを奪っていくのか、その競争により焦点を当てるべきだと思います。

 

Apple + Hyundaiは良い考えだとは思いません。私はAAPLは車に関してもBYDと提携すべきだと思います。すでに提携の実績はあるのですから。

 

中国のEVサプライチェーンは、機能と低コストの両方ですでに確立されています。

 

Apple+BYDは、普及への最速ルートだと思いますが、しかしそれでもテスラの競合となることは難しいと思います。

 

 

 厳しめの反応

 

 

Nioが独自のバッテリーやFSDチップを公表しなかったのはなぜ?

「ラグジュアリーライフスタイル」ブランドとしてポジショニングしようとしているのはなぜ?

 

単に実現するための技術を持っていないからです。

 

NIOは従来の自動車メーカーとまったく同じで、サプライヤーから部品を購入して組み立てるだけです。

 

NIOはローテクなものの別名すなわち「ハイエンドサービス」を提供するだけです。

 

パワポスライドの販売頑張ってください。

 

 その他の人
・バッテリー交換とLiDARは無用の長物です。

・バッテリー交換ステーションの設置は、チャージングネットワークよりも、多額の資金を必要とします。

・実際は、すべての交換ステーションに人員を配置しなければいけません。

・交換バッテリーが充電中の場合、交換予定時刻までの待機時間が発生します。

・ピーク交換需要に合わせたセル数を生産しなければならず、コスト高です。

・テスラはずっと前にバッテリースワッピングを検討しましたが、計画を放棄しました。

・パックサイズが異なるモデルが混在していますが、どのように交換対応するのか、予備バッテリーを保管しておくコスト負担も大きなものになります。

 

 

 

 

〇個人的感想

NIOデーは、最初のコンサートの時点で、見る気なくしたんだよね。

コンサートを最初から持ってくる時点で「うわべの取り繕い」を感じて。

 

「これって既存のICEメーカーのカタログ(パワポ)エンジニアリングの手法と一緒じゃん」って。

  

ゼロベースで技術開発してないから「販売ネットワーク力」と「イメージ戦略」と「目くらまし多品種少量オプション戦略」で勝負するしかない。

 

ネーちゃん(若いとはいってない)に厚化粧さして田舎者のジジイに、そこそこの高級車売りつけるレクサスみたいな妄想戦略(元RXオーナー乙)。 

 

カップホルダー・イノベーションというか、カタログ・エンジニアリングであるがゆえに生み出される製品の持つ、あの独特の「コレジャナイ感」ね。

www.youtube.com

別の言い方すればコレ↑みたいな。

 

ただ充電器につなげばいいだけなのに、大量の蓄電池コストとか、ロボットを動かす機構とか、不必要なメンテナンスとか実現する意味が全くない雰囲気技術。

 

「なかなか革新的なサービスじゃないか、その方向で進めたまえ」っていう言葉が目に浮かぶ会議風景というか・・・

 

本当に必要なものを、古いしがらみ抜きにゼロから考えていない。それゆえに生み出される、消費者を「ナメてる」感。「お前らの欲しいものなんてこの程度だろ」という見下し感。既存の枠組みの中でしか思考してないことから生み出される「コレジャナイ」感。

 

車内マスコットとか、マッサージ機能とか要りますか?ニオ・オーナーハウスとかホントに利用したいですか?ウーブン・シティと同じ気持ち悪さを感じません?

 

全てがそろっていて、至れり尽くせりです!っていって、だけど肝心な欲しいものが微妙な店屋みたいな。

 

プロダクトで差別化できないから、イメージで差別化する古典的なマーケティング戦略にしか見えない。

 

ホントに革新的なプロダクト作ってたら、あんなイメージアピールいらないから。

 

テスラのバッテリーデーとかオートノミーデーっては簡単なイメージビデオのあと、即座に技術説明会になったわけでしょ。

 

伝えたい革新的な取り組みがいくつもあるから。で株価を吊り上げることが目的じゃなくて、リクルートが目的だから。世界最高水準のエンジニアを一人でも多くテスラに呼び込みたいから。

 

「あなたが自分の才能をフルに発揮できる、ワクワクする、チャレンジングなフロンティアがここにありますよ!」

 

って猛烈にアピールしてたわけでしょ。

 

バッテリースワップだって、テスラの「セル・ツー・シャシー技術」で、極限までレンジ効率改善しようという試み見てたら、重量増、エネルギー密度減でしょ。コスト面、安全面考えてもお笑いのネタでしかなくない?

 

NVDAだって、テスラはFSDシステムメーカーとしてはとっくの昔に見捨ててる。NVDAは、あくまで優れた汎用GPUをつくるメーカーであって、専用GPUメーカーではない。NVDAの自動運転用GPUは、幅広い顧客に対応するために、チップレベルですでに余計な機能が満載されている。あれユニットあたりおそらく3千ドルはするし、しかも電気バカバカ食って航続距離犠牲にするよ。

 

そもそもFSDにGPUが最適なのかという根本問題もある。そこでテスラは、消費電力を喰うDRAMをチップ上から大きく減らして、SRAMを採用し、NN計算に特化させたチップを独自開発して、それにニューラルプロセッサーという名前を与えた。

 

NVDAのORINは、使い物になるレベルの計算させようとしたら、電気喰いまくって大幅に航続距離短くなるよ。

 

株価押し上げておいて、増資しまくって、その資金で研究開発費や投資をファイナンスするための、ハイプ・デーの感じがするなあ。

 

テスラよりチョイ安の雰囲気EVなんとか形にして、拡大するEV市場の中で一定のシェア握って、そのうちワンちゃん狙えればOK!って戦略に思えるなぁ。

 

EVという成長市場にいるんだから、そりゃ成長はしますけど、それだけの存在な気がする。

 

あと全固体(か準固体かしらんけど)電池系は、もう何年も噂や新発表ばっかり聞かされ続けて聞き飽きた。

 

いくらでも出せるコンセプトやプロトタイプはもういいです。

 

ギガワット級の供給力あって、採算のとれる可能性のある、全固体電池の量産ライン早く実際に作ってくれや。

 

かりに準固体でなくて全固体電池だとしたら、世界中の研究者が取り組んでいて、ラボレベルでも達成されていないブレークスルーがまだいくつもある技術。それなのに、2022年に車載用の全固体電池の量産なんか絶対にできない。

 

それともNIOやそのサプライヤーは、ノーベル賞級の発明できる研究者やエンジニアを、いままで一切の研究発表させずに何十人も隠して養成していて、技術開発済みで、パイロットラインも製造済みなのかい?なわけないよね。

 

しかも世界最高の頭脳と経験を持つエンジニアを集めまくっているテスラを差し置いて。

 

そもそも全固体電池は車載用には向いてないしね。

 

サプライヤーが「できる可能性があります!それに向けて努力します!」っていう社交辞令トークを実際の投入予定製品として発表しちゃだめよ。株価押し上げのために。

 

実際に開発主導してないからああいう発表ができるんだと思う。あとで全部サプライヤーのせいにすればよいから。 

 

あとFSDに関しても、シミュレーションでは全く不十分。実データの収集と、その実車両への「シャドー・モード」によるフィードバックのループが軽視されているとしたら、それは大きな間違い。

 

現実をシミュレーションできるエンジニアなんて存在しないのだから。ロングテールというか、6シグマの安全性を保障するには、シミュレーションじゃ無理。実車輛との大規模なフィードバックループが絶対に必要。

 

テストの答え合わせを自分で採点するような環境で鍛えたって実戦で使えるものはできないよ。

 

AlphaGOとかにたとえるアナロジーも間違い。碁はそもそも完全情報ゲームでしょ。碁盤ひっくり返すような相手にも安全に勝つ方法なんて考える必要ないでしょ。

 

現実の道路では動物がいたり、看板がマチマチだったり、なんでもありですから。

 

個人的には今の株価からNIOはないな。だったらBYDかCATL含んでる商品に投資するな。

ウォール街のプロからの公開書簡:現役アクティブ・ファンドマネージャーの皆様へ

短期的な株価の上下はあったとしても、テスラ株はバブルではありません。 

 

S&P 500をベンチマークとしているファンドマネージャーの皆さんへ

 

テスラはS&P 500指数に12月18日の終値でおよそ1.5%の比率で組み入れられます。S&P 500指数の中では、6番目の時価総額になります。

 

GSによると、皆さんのファンドのうち90%は、現状ではテスラ株を保有していません。またバリューを重視する皆さんは、テスラ株に興味を抱いたこともほとんどなかったことでしょう。

 

テスラは年初来で665%も上昇し、コンセンサスEPS予想の169倍ものPEで取引されているのですから、それも当然のことです。

 

皆さんには、この株価上昇をやりすごして、株価が地上まで墜落してくるのを待つという選択肢だってあります。

 

しかしそれは大きな間違いだと申し上げたい。

 

 CNBCに出てくるような解説者は、テスラのこと何も調べもせず「割高だ」と喧伝します。

 

ロングショート系の有名人(ジム・チェノス、デイビッド・アイホーンなど)や、セルサイドのアナリストは、当然のことのようにテスラを既存の自動車メーカーと比較します。しかし彼らのテスラについての見通しは、何年ものあいだ、ずっと間違ってきたのです。

 

自分のことをスマートだと思っている彼らが、テスラ株の上昇し続ける理由について述べるのを聞くと、中身のない空っぽな意見だと私は感じます(ロビンフッダーによる投機的な買い上りに過ぎない!などなど)。

 

なぜテスラが上昇し続けるのか、そして2021年もさらに倍増しうる可能性を持っているのか、私がその理由をお教えしましょう。

 

(もし皆さんが、ベンチマーク上で1.5%のウエイトを占める株が1年で2倍になるのを逃したとしたら、150ベーシスのパフォーマンスを犠牲にすることになるのですから!)

 

まず初めに、

EVは今後急速にガソリン車に置き換わっていきます。

現状ではEVのグローバルでのSAARは3%に過ぎませんが、これが急拡大していきます。

 

アップルの iPhone を手にした時のように、一度でもEVに乗ってしまえば、顧客はもうガソリン車に戻ることはありません。

 

その結果2025年までに、EVのSAARは、グローバルで20%に達することでしょう。

 

ここで簡単な算数をしてみますと、

 

20/3 = 6.7x = 46% CAGR.

 

つまりEVは年率46%で急成長する市場なのです。

 

次に、テスラはグローバルなEV市場において、すでに圧倒的なリーダーです。

今年のグローバルでのシェアは25%に達します。

これだけ競合がいる中でテスラのシェアは減るどころか拡大し続けているのです。

 

(中国では100以上のEVメーカーがあるとされていますが、その中国においてさえテスラのシェアは減るどころか拡大しています。成長する市場でシェアが拡大!)

 

またテスラのTAMも上昇し続けています。モデルYがクロスオーバー市場に投入されたことで、テスラのUS市場における TAM は 24% から 65%まで上昇しました。サイバートラックが発売されればTAMは 86%まで上昇します。

 

アップルの iPhoneと同じように、内燃機関メーカーのブランドが作るEVが、ブランド力でテスラのEVの競合となることはありません。

 

また彼らの作るEVは、バッテリー航続距離、パワフルさ、FSDやソフトウェア、バッテリーも含めた製造コストにおいてもテスラの競合とはなりません。

 

また内燃機関メーカーというブランドは今後急速に色あせていきます。

 

 

 

 

画像

 

さらに12月15日の終値をベースに、テスラのバリュエーションを考えてみます。

 

上述の「自分をスマートだと思っている人々」のほとんどがここで本筋を見誤ってしまいます。 

 

テスラの販売台数とEPSが、今後年率50%で成長していくときに、既存の内燃機関メーカーに与えられている8~10倍のPEを、テスラにも与えるファンドマネージャーはいないでしょう。

 

既存の内燃機関メーカーと、世界最高の純粋なEVメーカー(世界最高のFSD、バッテリー技術、BMS)とを同列に比べることはできません。

 

私の2022年の予想EPSを見てみれば、PEは67倍です。

 

ゲーリーさんの数字は、ロボタクシーとか、エネルギー事業の拡大、保険事業の拡大とかはカウントされてないもので、テスラブルの中では控えめな数字です。販売台数も年率50%増というのも3つのギガファクトリー(上海、ベルリン、オースティン)のフル稼働を考えれば控えめな数字です)

 

これはPEGレシオで見れば、1.3倍に過ぎません。

 

2023年の予想EPSを見てみれば、PEはたった43倍です。

 

PEGは1倍を下回ります。

 

 

f:id:stockbh:20201216174724p:plain

 

 

これを他のメガキャップ・グロース株と比較してみます。上述のようにテスラが年率50%成長するならば、テスラのPEGは1.3倍に過ぎません。

  

この中でテスラよりも割安なPEGを与えられているのは、フェイスブックだけです。 

 

アマゾンとグーグルはテスラと同じPEGを与えられていますが、成長率はずっと低いです。

 

ラッセル1000グロース指数は、2倍のPEGを与えられています。

 

S&P 500指数に至っては、3倍ものPEGが与えられています。

 

テスラが割高ならば、AAPL, NVDA, PYPL, LULUなどなど、これらはみな超割高です。

 

ではテスラの株価はどれくらいが妥当なのでしょうか?

 

2025年にEVのシェアが20%として、テスラが現状と同じ25%のシェアを実現するとしましょう。また廉価モデルの発売により、平均販売価格は下がると予想し、排出権によるクレジット収益はゼロとして考えてみます。

 

わたしの予想では 2025年の EPSは $24ドルです。

ここでPEを50倍(PEGは2倍を想定、すなわちEPSGは25%を想定)とするならば株価は1,200ドルとなります。

 

( PE 50=2×25 もしくは PEG 2=50÷25)

(PE=PEG×EPSG もしくは PEG=PE÷EPSG)

(PEG2倍は成長株では十分正当化される。)

 

(DCFではなくDDMを、PSRではなくPEを使うことは議論の余地がありますが、わたしはゲーリーさんの手法の方が100倍マシだと思います。PSR(4x)とか壮大なジョークだと思います。)

 

テスラのディスカウントレートは9.5%近辺なので、現状の理論株価は830ドルが妥当だと考えます。

 

もし2025年に現状と同じEPS成長を実現しているならば、PEGを2倍とすれば、理論株価はさらに倍増します。

 

現時点(12月15日)から12月18日のクローズまで、 S&Pインデックスファンドは、テスラ買いその他売りモードになる可能性が高いです。

 

そこでベンチマーカーの皆さんも同じことをされてはいかがでしょう。

 

ご自身のファンドの1.5%をテスラ株とすれば、ベンチマークに劣る心配をすることなく、夜もぐっすり眠ることができるのですから。

ウォール街のプロが教えるGSアップグレードの舞台裏

水曜日にGSアナリストによる71%もの目標株価のアップグレード($455→$780)を受けて、アフターで3%ほど上昇したテスラ株ですが、その舞台裏をゲーリーブラックさんが暴露してくれています。

www.fool.com

 

一言でいうと、ベンチマーカー焦ってるぅ!

 

ベンチマーカーとは、インデックスファンドとは異なりアクティブファンドではあるものの、S&P500などのインデックスをベンチマークとして、そこからのパフォーマンスで報酬を受け取る、ファンドマネージャーのことです。

 

その規模はS&P500インデックスファンドに匹敵するともいわれています。ただ彼らはアクティブファンドなので、テスラをポートフォリオに入れる義務はありません。

  

しかし、今後ベンチマークが1.5%もの比率でテスラを組み入れるときに、その株を全く所有していない場合は、顧客に説明が必要です。また、テスラをアンダーウェイトするということは、テスラをファンドのパフォーマンス上ショートしていることになります。またルール上一銘柄あたりのショートキャップが設けられていることも多いです。

 

よって、テスラを組み入れないということ。これはこれでベンチマーカーにとっては大きな賭けなのですね。

 

ではどれほどのアクティブファンドが、すでにテスラをポートフォリオに組み入れているのでしょうか?

 

このブルームバーグの記事によると

 

Tesla’s S&P 500 Entry Takes Away Secret Weapon for Stock Pickers

https://www.bloomberg.com/news/articles/2020-12-02/tesla-s-s-p-500-entry-takes-away-secret-weapon-for-stock-pickers

 

”Not many of the 215 active managers with at least $500 million in assets whose funds are indexed to the equity gauge have ventured to invest in Tesla. But the 21 who have are richer for the move.”

 

500ミリオン以上のアセットを持つベンチマーカー215のファンドのうち、わずか21ファンドしか、テスラ株を持っていないようです。10%ですね。残りの90%のファンドはテスラを持ってません。

 

これは無理もない話で、彼らの眼が節穴というわけではありません。これらのファンドのほとんどはバリューオリエンティッドなので、テスラのフォワードPE見てビビッてしまうのです。

 

またそのPEを正当化するストーリーを手に入れるインセンティブもなかなか生まれません。なぜならS&P500に入っていなかったということは、ベンチマークの対象外であるので、その株がどのように動こうが自分の評価・報酬には影響しないので、注目する必要もなかったからです。

 

ところが。。。  

 

ウォール街出身のプロの中ではNo,1のテスラフォロワーのゲーリーさんのところに、「ゲーリーさんのモデルをファンドマネージャーに送っていいか?」と、アナリストから複数の問い合わせが来ているようです。

 

つまり、アクティブポートフォリオマネージャーたちは、アナリストに(今さら)テスラの情報集めさせてる真っ最中なんですね。

 

でS&P500入りを含めたこの状況を、絶好のチャンスとみなしたのが、GSのアナリストのマーク・ディレニーです。彼はテスラの目標株価を外しまくってきたので、投資家の信頼は薄いのですが、ビジネスチャンスは逃さないようです。

 

アナリストのインセンティブは手数料です。アナリストは顧客がGSにもたらした手数料をベースに報酬を受け取ります。(また取引手数料のみならず、アクティブファンドが保有したテスラ株をショートに貸し出すことによる金利の鞘取り収入からの報酬も見込めます。)

   

 

 

このアップグレードを受けて、営業部隊が一斉に電話をかけ始めます。まずは一番手数料を落としてくれるクライアントからです(フィデリティなど) 。でアップグレードやテスラの素晴らしさについてまくしたてます。

 

 

GSのクライアントのほとんどは、テスラ株を持っていないので、意思決定に使えるレベルのテスラの情報がありません。で「バイサイドのリサーチチームの手助けします!」「モデルの作成やカンファレンスコールで手助けすします!」などなど、あれこれオファーするわけです。

 

でクライアントがテスラポートフォリオにを採用すると決めれば、GSを通じて取引するよう仕向けるわけです。

  

 

つまり、マークディレニーなどのアナリストの報酬は、彼のリサーチがもたらした手数料とダイレクトにリンクしているから、このタイミングで、このようなアップグレードが起こるのです。

 

ちなみにS&P500入りを目前に、テスラが増資をする可能性に賭けて、その引き受けを狙い、テスラをアップグレードしたのではないかと邪推する向きもあるのですが、ゲーリーブラックさんは、その意見を一蹴しています。

 

そもそもアナリスト業務と引受け業務は完全に分離されているので、アナリストのアップグレードで引受けがスムーズに進むようなインセンティブ設計ではないのです。

 

 

このような大きなアップグレードは、GSの営業チームにとっては大号令で、みんな目の色変えて電話している真っ最中でしょう。テスラ程取引量が多い株がS&P500入りとなれば、それに伴う手数料のアップサイドは莫大です。

 

 

で結局のところベンチマーカーたちはどのくらい買ってくれるのでしょうか?

 

これは株価に応じて現在進行形で変わっていくのでなんともいえません。

 

ただ高いから買わないという選択肢がなかなか取りずらい状況にベンチマーカーたちが追い込まれているというのは事実でしょう。

 

フロントローディングするのか、S&P500入り後に徐々にポジションを増やしていくのか、まんべんなく買っていくのか。いずれにしてもアクティブマネージャーたちも買い出動しなくてはならなくなっています。

 

S&P500入りの後の「ニュースで売れ」でポジション増やしたいベンチマーカーは多いでしょうが、どうなるでしょうか。

 

少なくともQ4決算の前にはある程度買っておきたいベンチマーカーは多いはずです。

 

ちなみにブラックさんの相場観は

mobile.twitter.com

 

S&P500インクルージョンで$650~$690で、そのあと2週間で10%~20%の調整があるというものです。

 

もし$700から20%調整すれば$560ですからね。

現状の株価はブラックさんによりれば、このイベントに関してはいいところまで織り込んでいるということになります。

 

ただ金曜日にブラックさんは目標株価を上方修正しました。

 

$720→$830(今後6~12か月以内の目標株価)

 

これはテスラの、10月までの今年のEV市場におけるシェアの上昇(17%→25%)を受けてのものです。

 

この株価を一気に織り込みに行くのか、徐々に織り込みに行くのか、いずれにしても要注目です。

3億が60億に?テスラのコール・オプションを買いまくった投資家:エメット・ペッパーズ

ま60億になったわけじゃなくて、ポテンシャルの話なんですけどね。ただコールオプションをUSD2.7ミリオン分買ったのは事実みたいです。

www.youtube.com

 エメットさんが買ったのは、

 

$TSLA call JAN 15'21 $700

 

ですね。このオプションは1単位が、

「2021年1月15日に、テスラ株式100株を、1株あたり700ドルで買う権利」

を表しています。

 

しかも買ったその数なんと3,500個以上

つまりテスラの株式を35万株購入する権利を買ったわけですね。

ただ実際にオプションで、権利を行使する場合は少なく、満期の前に反対売買するのが普通です。

 

で、購入価格を抑えるためにコールスプレッドを組んだわけでもなく、

単純に裸単騎のド根性コール買いです。

 

S&P500採用が決まった翌日に、オープン前にインタラクティブ・ブローカーズ証券のブロックトレーディングデスクに電話してアシストしてもらいながら、最初の45分間で5.5ドル~6.85ドルの間で約定させました。

(日本でオプション投資するなら、IB証券が事実上の選択肢となると思います)

 

で当該オプションは11月24日の時点で$17の値段がついてますので、およそ2.5倍になってますね。

 

3ミリオンはすでに含み益が発生しています。すごいです。

 

そしてなんと「このトレードは20Xのポテンシャルがあると思ってエントリーしている」と冷静に語っています。2か月弱で20バガーの達成です

 

彼の予想通りになるならば、2.7ミリオンが54ミリオンになります(白目)。

 

期限を区切ってボラティリティの概念を導入することで、数百倍の利益もしくは損失というすさまじい損益の出方を可能にするのがオプションの醍醐味です。

 

逆に現物株をホールドしていれば、実に多彩に損失と利益の出方をコントロールできるのもオプションの素晴らしさです。

 

ちなみに

オプション投資には、デルタ、ガンマ、ベガ、セータのグリークスのある程度の理解が必須です。

株価の変動に対するオプション価格の微分がデルタで、デルタの微分がガンマです。

つまりデルタが速度で、ガンマが加速度ですね(高校物理www)。 

ボラティリティに対する反応度がべガで、タイムディケイがセータです。

 

エメットさんのベットは、ディープアウトオブザマネーのコールを買ってるわけですから、先ずはある程度セータを犠牲にして、ベガをロングしてる戦略です。このケースではデルタとガンマは、当初はほとんど反応しません。

 

で、彼の予想が実現するためにはテスラの株価が、どれくらいの期間で、どれくらいまで到達しなければならないのでしょうか?

 

正確な数字は難しいですが、およそ850ドルくらいですね。しかも年末年始ぐらいまでに。年末までに、それぐらい行けばタイムディケイを考慮しても20バガー達成できると思います。

 

購入時点の株価がおよそ450ドルですから、1か月強で400ドル以上のアップサイドを見込んでるんですね。

 

彼が自分のトレードの一番の根拠に挙げているのはズバリ

 

「売り手の不足」です。

 

現在のマーケットのボリュームのほとんどはアルゴ取引がつくりだしていることは周知の事実です。

 

彼はもともとマーケットメーカー関連の仕事をしていたらしいのですが、その経験から、テスラなどの人気株を長期にホールドしている投資家は空中戦にはあまり参加していないとしています。マーケットのボリュームのほとんどは、アルゴとロビンフッダーが空中戦を演じていることにより、作り出されていると語っています。

 

だからインデクサー、ベンチマーカーたちの本気の買いがやってくるときに、実は積極的な売り手はさほどいないというのが彼の主張です。

 

すなわちS&P500入りで「インデクサーたちは誰から株を買うんだ問題」が発生すると。

 

また現在進行形で、ベンチマーカーたちも、今ここでテスラをポートフォリオに加えるかどうかの決断を迫られています。ここまで大きい時価総額のものがインデックスに組み入れられるのに、それを無視して、ベンチマークに勝とうとすると、必要のない苦労がつきまとうわけです。

 

そもそもベンチマークが1.34%以上の比率で組み込もうとしている株を、それ以下の比率でしか持たないということは、ベンチマーカーたちにとっては、その株を事実上ショートしているのと同じことです。

 

それで果たしてベンチマークに勝てるのか?という問題もさることながら、普通は1銘柄あたりのショートキャップがあると思います。今回はそれに抵触する可能性が出てきます。そうするとキャップ解消まで現物を買わなければならなくなります。

 

 

その分の買いもインデクサーほどではないにしろ、見込めると述べています。

 

つまりインデックス・スクイーズゲーリーブラックさんなどの想定よりも大規模に起こると考えているわけです。

 

その過程で株価は800ドルも突き抜けていくだろうというシナリオにベットしているわけですね。

 

また、ここまで時価総額が大きくなってくると、ヘッジファンドはショートしようとしても、キャップがかかってしまって、ほとんど株価にプレッシャーを与えられないだろうとしています。ショート勢も脱落していくからその意味でも「売り手不足」との見解も持っています。

 

まとめると

・インデクサーの買い

・ベンチマーカーの買い

・ショーターのキャップ制約

・熱狂的な長期投資家

 

などが、インデックス・スクイーズを引き起こすということでしょう。

(あとデルタヘッジにもとづく事実上のロックアップフロートも面白いトピックとしてあるのですが、それはまた別エントリーで)

 

ま、彼は個人資産30ミリオンUSDを超えているので、2.7ミリオンのベットが可能なわけです。資産の10%未満のベットです。資産をオールインしているわけではないのです。

 

本人もインタビュアーもこういったタイプの取引は、マーケットがちょっとでも調整すれば全額失う可能性があると、繰り返し注意喚起しています。

 

 

それにしても12月中旬がますます楽しみになってきました!

 

700ドルコール今から買っても5バガーはいけるかな(ボソッ)