من برای جمع آوری اطلاعات زلزله های اتفاق افتاده در ایران از سایت مرکز لرزه‌نگاری کشوری، موسسه ژئوفيزیک، دانشگاه تهران استفاده کردم :

http://irsc.ut.ac.ir

در قسمت جستجوی بولتن شما می‌تونید یک بازه تاریخی رو مشخص کنید و مشخصات زلزله‌های بیشتر از ۲.۵ ریشتر در اون بازه رو مشاهده کنید. دیتاستی که جمع آوری کردم شامل ۵۲۲۶۸ سطره که بین تاریخ 1996/01/06 تا 2022/07/14 است. تا جایی که بررسی کردم، قدیمی ترین زلزله‌ای که داده های اون در این سایت موجوده مربوط به 1374/10/16 میشه که یک زلزله ۴.۴ ریشتری در استان فارس بوده :

http://irsc.ut.ac.ir/newsview.php?&eventid=154823&network=earth_ismc__

بزرگترین زلزله در این دیتاست مربوط به 1392/01/27 در خاش سیستان و بلوچستان به بزرگی 7.5 است :

http://irsc.ut.ac.ir/newsview.php?&eventid=73984&network=earth_ismc__

دیتاستی که جمع‌آوری کردم رو در لینک زیر قرار دادم :

https://www.kaggle.com/datasets/johntukey/iran-earthquake

البته مقیاس Magnitude در این دیتاست برای همه سطر ها ریشتر نیست ولی خیلی فرقی نمیکنه. دقیق ترش رو در لینک زیر میتونید بخونید :

https://www.behsazandishan.com/articles/Earthquake-Magnitude-Scale

در تصویر زیر یک مقایسه‌ای بین ریشتر های مختلف انجام شده :

https://www.hamshahrionline.ir/news/127086/

حالا می‌خوام یکسری تحلیل های آماری روی این دیتاستی که جمع‌آوری کردم انجام بدم. اول بیاید ببینیم توزیع زلزله ها بین سال های مختلف چگونه است؟

همونطور که مشاهده می‌کنید سال ۱۳۹۶ بیشترین زلزله رو در ایران داشتیم. اگر بازه تاریخی سال ۱۳۹۶ رو در سایت irsc جستجو کنیم نقشه پراکندگی زلزله ها در نقاط مختلف کشور رو نشون میده :

توزیع زلزله های بین ماه های مختلف سال چگونه است؟

همونطور که می‌بینید تعداد زلزله ها تقریبا به شکل برابری بین ماه های مختلف توزیع شده. در مجموع در ۶ ماه اول سال ۲۶۵۷۶ زلزله و در ۶ ماه دوم سال ۲۵۶۹۲ ثبت شده است.میخوام بررسی کنم بیشترین زلزله ها در چه ساعاتی از شبانه روز اتفاق افتاده؟

می‌بینید که توزیع بین ساعت های مختلف هم تقریبا یکسانه. نقشه حرارتی زیر هم نشون میده در ساعات مختلف شبانه‌روز و روز های مختلف هفته چه تعداد زلزله ثبت شده :

حالا بیاید همین نمودار های بالا رو رسم کنیم ولی فقط زلزله های بیشتر از ۴ ریشتر رو در نظر بگیریم. توزیع زلزله ها بین سال های مختلف (بزرگتر از ۴ ریشتر) :

همونطور که می‌بینید نمودار کمی تغییر کرد! نمودار قبلی نشون میداد که سال ۱۳۹۶ بیشترین زلزله رو داشتیم ولی این نمودار نشون میده سال ۱۳۹۲ بیشترین زلزله بیشتر از ۴ ریشتر رو داشتیم! بنابراین سال ۱۳۹۲ زلزله بیشتر احساس شده. چون زلزله های زیر ۴ ریشتر عموما حتی احساس هم نمیشن. ممکنه حتی فکر کنید لرزش به خاطر طویله طبقه بالایی بوده!توزیع زلزله ها بین ماه های مختلف (بزرگتر از ۴ ریشتر) :

در ۶ ماه اول سال ۲۱۱۹ زلزله و در ۶ ماه دوم سال ۲۰۹۲ زلزله داشتیم.توزیع زلزله ها در ساعات مختلف شبانه‌روز (بیشتر از ۴ ریشتر) :

تصویر زیر توزیع زلزله ها رو بر اساس بزرگی روی نقشه نشون میده :

خیلی تحلیل های دیگه میشه با این دیتاست انجام داد. اما هدف من بیشتر بررسی این شایعه بود که در ماه های سردتر بیشتر زلزله میاد یا نه؟! از داده های بالا به وضوح مشخصه چنین ادعایی صحیح نیست. اتفاقا در ۶ ماه اول سال کمی بیشتر از ۶ ماه دوم سال زلزله اومده! هیچ ارتباطی هم بین ساعات مختلف شبانه‌روز و زلزله وجود نداره. چون بعضی ها میگفتن شب ها بیشتر زلزله میاد. دلیل بیشتر این شایعات اینه که افراد تفاوت بین علیت و همبستگی رو نمیدونن! مثلا در تابستان فروش بستنی بیشتر میشه. فروش کرم ضدآفتاب هم بیشتر میشه. میشه نتیجه گرفت دلیل افزایش فروش بستنی، افزایش فروش کرم ضد آفتاب بوده؟! میبینید چقدر مسخره است؟ وقتی عامل دمای هوا رو در نظر نگیرید، چنین نتیجه های عجیبی حاصل میشه! سایت زیر مجموعه‌ای از این همبستگی های عجیب رو جمع آوری کرده :

https://www.tylervigen.com/spurious-correlations

مثلا نمودار زیر رو ببینید :

این نمودار داره نشون میده بین تعداد افرادی که بر اثر افتادن در استخر غرق شدند و تعداد فیلم هایی که نیکلاس کیج بازی کرده رابطه وجود داره! نمودار خیلی خوشگل داره این رابطه رو نشون میده ولی میزان مسخره بودن این نتیجه گیری رو متوجه میشید دیگه؟!یه جمله‌ای وجود داره که میگه اگر داده ها را به اندازه کافی شکنجه کنید، به هر چیزی اعتراف خواهند کرد. ممکنه شما به هر طریقی بتونید یه نمودار در بیارید که زمستون بیشتر زلزله میاد. یا اصلا تابستون بیشتر زلزله میاد. بازم این دلیل نمیشه که نتیجه خاصی بگیرید!این دوست عزیزمون در این مطلب به نظرم خیلی خلاصه و مفید این قضیه رو توضیح دادند :

https://vrgl.ir/nCRa8

دلیل خیلی از این تحلیل ها و شایعات نادرست اینه که افراد تفاوت بین علیت با همبستگی رو نمیدونن! انسان دچار خطاهای شناختی متعددی می شود، یکی از این خطاها اشتباه گرفتن علیت با همبستگی است. علیت یا causation موضوع چندان غریبی نیست و تقریبا همه ی ما با آن آشنا هستیم. در سقوط یک سنگ همگی متفق هستیم که علت سقوط سنگ وجود جاذبه ی زمین است. یا علت سیر شدن مان خوردن غذا است. اما توضیح دقیق مفهوم همبستگی یا correlation قدری پیچیده تر است و شاید بیان آن در قالب مثال ساده تر و راه گشا باشد: فروشنده گان کفش به خوبی می دانند که در تابستان میزان فروش صندل به شدت افزایش می یابد. همچنین بستنی فروش ها نیز به شدت از تابستان راضی هستند زیرا باعث افزایش میزان فروششان می شود. شخصی فرضی را تصور کنید که از علت واقعی این دو پدیده یعنی گرمای هوا بی خبر باشد (مثلا یک فضایی هوشمند!)، او یک دانشمند است و قصد دارد تا یک مدل ریاضی از مسئله ی ما بسازد از این رو در هر روز داده هایی را جمع آوری کرده و ثبت می کند. سپس آن ها را در یک فضای دو بعدی (فضای میزان فروش بستنی-میزان فروش صندل) رسم می کند و متوجه یک ارتباط جالب خطی بین این دو متغیر می شود. او در می یابد که با افزایش میزان فروش بستنی، میزان فروش صندل ها هم افزایش پیدا کرده است! از این رو یک مدل خطی ساده در خواهد یافت که در آن فروش صندل ها تابع میزان فروش بستنی ها خواهد بود (چیزی شبیه مدل خطی قانون اهم یعنی V=RI)! و می تواند به غلط نتیجه بگیرد که علت تغییر در میزان فروش صندل ها، تغییر میزان فروش بستنی ها بوده است. دقت کنید که اینجا یک خطای مهم شناختی یعنی عدم درک تفاوت علیت با همبستگی صورت گرفته است. این شخص از هم فاز بودن تغییرات دو متغیر یک رابطه ی علت و معلولی مجعول را بنا نهاده است. در واقع علت هر دو پدیده، پدیده ی دیگری است اما چون هر دو پدیده تحت تاثیر آن رخ داده اند این طور برداشت شده که یکی علت دیگری است! دیروز با یکی از دوستان قدیمی صحبت می کردم! بحثمان بر سر یک موضوع ساده ی همیشگی بود. او با آوردن چند نمونه می خواست به من نشان دهد که #ازدواج می تواند باعث #رشد_اقتصادی افراد شود. اتفاقا مثال های متعددی هم بیان کرد (از جمله خودم را) و فکر می کرد که روشی علمی را پیشه کرده! برایش توضیح دادم که اینجا صرفا و صرفا یک رابطه ی همبستگی ساده داریم و هیچ علیتی در کار نیست! در واقع وقتی فرد به سنین جوانی می رسد از سن مصرف کنندگی صرف به سن مولد بودن اقتصادی پای می گذارد. طبعا او شروع به درآمدزایی کرده و پس از چندسال می تواند ملک و ماشین بخرد و پس انداز کند و به رشد اقتصادی برسد. همزمان در این برهه وارد سن ازدواج نیز شده و متاهل می شود از این رو عده ای ممکن است به غلط این طور برداشت کنند که علت رشد اقتصادی همان ازدواج بوده است که کاملا غلط است. اینجا صرفا ما همزمانی و هم فازی دو متغیر تصادفی را داریم که نمی توان از آن یک رابطه ی علی انتزاع کرد. البته در پایان به شوخی به او گفتم چرا فقط نمونه های موید نظریه ات را می بینی و موارد بسیار زیادی که به طلاق و نابودی کامل فرد منجر شده است را از صورت مسئله پاک می کنی؟!