داستان از توییت زیر شروع شد :

اگر توییت ها و پست های قبلی من در ویرگول رو ببینید، متوجه میشید که گاهی از اوقات میام و یکسری تحلیل رو بر روی داده های مختلف انجام میدم. چند روز پیش یکدفعه علاقه‌مند شدم که روی اشعار فارسی سایت گنجور یک تحلیلی رو انجام بدم. خیلی سریع و با عجله (به دلیل اینکه سربازم و فرصت بسیار کمی دارم) یک کد نوشتم که کلمات منحصر به فرد رو از اشعار استخراج کنه و ابر کلمات تمام اشعار فارسی رو تولید کردم و بعدش اون رو توییت کردم. فکر نمیکردم انقدر بازخورد داشته باشه. فکر میکردم مثل بقیه توییت هایی که میزنم یه تعدادی از فالوور هام لایکش میکنن و تموم میشه. اما به شکل عجیبی در توییتر پخش شد! تازه سوتی هم دادم و تعداد کلمات رو اشتباه نوشتم!حالا ابر کلمات چیه؟ هر چقدر یک کلمه در ابر کلمات بزرگ تر باشه، یعنی تعداد تکرارش بیشتر بوده. مثلا در تصویر بالا کلمه دل از همه بیشتر تکرار شده پس از همه بزرگ تر نمایش داده شده. توی توییت بعدی نوشتم که اگر کلمات توقف رو حذف نکنیم تصویر اینجوری میشه :

حالا به چه کلماتی میگیم Stop Words یا کلمات توقف؟ به کلمات پر تکراری که جزو کلمات کلیدی به حساب نمی‌آیند مانند حروف اضافه («به»، «از» و …)، حروف ربط («که»، «پس» و …) و ضمایر («من»، ««او» و…) کلمات توقف گفته می‌شود. البته لیست کامل و دقیقی از کلمات توقف چه برای زبان فارسی و چه برای زبان انگلیسی وجود نداره. ممکنه در یک متن کلمه «سلام» کلمه توقف حساب بشه و در یک متن کلمه کلیدی و اصلی!در لینک زیر مجموعه‌ای از کلمات توقف فارسی وجود داره که من از اون برای پروژه های مختلف استفاده می‌کنم :

https://github.com/ziaa/Persian-stopwords-collection

اما همونطور که گفتم، نمیتونیم یک لیست از کلمات توقف رو برای همه پروژه ها استفاده کنیم. باید متناسب با هر پروژه، یک لیست جدید ایجاد کنیم. مثلا این لیست کلمه «مِی» رو به عنوان کلمه توقف در نظر گرفته و یکی از پایه های شعر فارسی رو حذف کرده! موقعی که داشتم توییت رو مینوشتم خیلی فرصت این رو نداشتم که کلمات توقف رو تغییر بدم و باعث شد چند تا از کلمه های مهم از ابر کلمات حذف بشه! اما الان یه مقدار بیشتر وقت گذاشتم و کمی این لیست رو تغییر دادم تا نتیجه دقیق تری داشته باشیم.بر اساس اطلاعاتی که در سایت گنجور نوشته شده است، این دیتابیس شامل ۱,۲۹۲,۲۴۷ بیت شعر است. همچنین تعداد کلمات منحصر به فرد در گنجور ۴۴۶,۵۶۹ عدد است که در لینک زیر قرار دادم :

https://gist.github.com/vahidbaghi/f54321c2f75feded7578766fb064f9f8

اگر ابر کلمات تمام اشعار فارسی رو ترسیم کنیم نتیجه به صورت زیر می‌شود :

اگر کلمات توقف را از دایره واژگان حذف نکنیم نتیجه به صورت زیر می‌شود :

در حال حاضر اشعار ۱۶۱ شاعر در سایت گنجور وجود داره. من ابر کلمات تک به تک این شعرا رو هم ترسیم کردم اما برای اینکه این پست طولانی نشه، تصاویر رو در لینک زیر قرار دادم :

https://vahidbaghi.ir/hobby/ganjoor_wordcloud.html

حالا میخوام بررسی کنم در دایره واژگان هر شاعر چه تعداد کلمات منحصر به فرد وجود داره که سایر شعرا از اون استفاده نکردند. لیست ۱۰ نفری که بیشترین کلمه منحصر به فرد رو دارند، در جدول زیر قرار دادم :

لیست کامل رو میتونید از لینک زیر مشاهده کنید :

https://storage.vahidbaghi.ir/unique_words.png

همچنین لیست کلمات منحصر به فردی هر یک از شعرا استفاده کردند رو میتونید از طریق لینک زیر دریافت کنید :

https://storage.vahidbaghi.ir/unique_words.zip

جدول زیر، تعداد تکرار هر یک از حروف الفبا در تمام اشعار گنجور را نشان می‌دهد :


از جدول بالا میشه فهمید که حروف ژ ، ث و ظ کمتر از سایر حروف در اشعار فارسی تکرار شده‌اند. حالا میخوام بررسی کنم که کدام یک از شعرا بیشتر از سایرین از این حروف در اشعار خود استفاده‌ کرده‌اند؟

  • حرف ژ
  • حرف ث
  • حرف ظ

کدام یک از شعرا بیشترین تعداد نقطه را در اشعار خود بکار برده‌اند؟

کدام یک از اشعار بیشترین تعداد نقطه را دارند؟

آذر بیگدلی » دیوان اشعار » مثنویات » شمارهٔ ۱۱ » ۲۶,۴۴۳ نقطه

عطار » جوهرالذات » دفتر دوم » تمامی اشیا از یک نور واحدند » ۱۸,۲۰۰ نقطه

فردوسی » شاهنامه » پادشاهی کسری نوشین روان چهل و هشت سال بود » ۱۸,۰۳۷ نقطه

افسرالملوک عاملی » کوروش نامه » تحصیل اجازه خشایار از پدرش برای رفتن بشکار » ۱۷,۷۳۰ نقطه

کدام یک از اشعار هیچ نقطه‌ای ندارند؟

وطواط » قصاید » شمارهٔ ۱۴۲ – قصیدۀ محذوف النقط در مدح محمد نام

مجیرالدین بیلقانی » دیوان اشعار » قصاید » شمارهٔ ۵۵

خالد نقشبندی » قطعات » قطعه شماره ۳۹

نکته بامزه اینه که غزل شمارهٔ ۱۱۵۹ و غزل شمارهٔ ۹۳۹ از بیدل دهلوی فقط ۳ نقطه دارد و اون هم نقاط کلمه بیدل است!

لیست تعداد نقطه در هر یک از اشعار گنجور رو در لینک زیر قرار دادم :

https://gist.github.com/vahidbaghi/916bd259d167041d69be126dad8ce739

از بین نام های ایرانی کدامیک بیشتر از بقیه در اشعار مورد استفاده قرار گرفته‌اند؟

برای اینکه پاسخ این سوال رو پیدا کنیم ابتدا باید لیستی از نام های ایرانی در اختیار داشته باشیم. این لیست رو از سایت ثبت احوال برداشتم که شامل ۶۲۴۰ نام ایرانی است. لیست این نام ها را در لینک زیر قرار دادم :

https://gist.github.com/vahidbaghi/31070ed61318cd828442e99a83bc73d1

در تصویر زیر می‌توانید ابر کلمات اسامی ایرانی که در اشعار گنجور آماده است را مشاهده کنید :

لیست کامل نام ها و تعداد تکرار هر کدوم رو در لینک زیر قرار دادم :

https://gist.github.com/vahidbaghi/abb6277234191105b36cddd9eaa502a6

اگر استقبال بشه سعی میکنم بخش دومش رو هم بنویسم و یکسری تحلیل های دیگه رو انجام بدم.

لینک دونیت : https://www.coffeete.ir/vahidbaghi (بدون فیلترشکن باید باز کنید)