داستان از توییت زیر شروع شد :
اگر توییت ها و پست های قبلی من در ویرگول رو ببینید، متوجه میشید که گاهی از اوقات میام و یکسری تحلیل رو بر روی داده های مختلف انجام میدم. چند روز پیش یکدفعه علاقهمند شدم که روی اشعار فارسی سایت گنجور یک تحلیلی رو انجام بدم. خیلی سریع و با عجله (به دلیل اینکه سربازم و فرصت بسیار کمی دارم) یک کد نوشتم که کلمات منحصر به فرد رو از اشعار استخراج کنه و ابر کلمات تمام اشعار فارسی رو تولید کردم و بعدش اون رو توییت کردم. فکر نمیکردم انقدر بازخورد داشته باشه. فکر میکردم مثل بقیه توییت هایی که میزنم یه تعدادی از فالوور هام لایکش میکنن و تموم میشه. اما به شکل عجیبی در توییتر پخش شد! تازه سوتی هم دادم و تعداد کلمات رو اشتباه نوشتم!حالا ابر کلمات چیه؟ هر چقدر یک کلمه در ابر کلمات بزرگ تر باشه، یعنی تعداد تکرارش بیشتر بوده. مثلا در تصویر بالا کلمه دل از همه بیشتر تکرار شده پس از همه بزرگ تر نمایش داده شده. توی توییت بعدی نوشتم که اگر کلمات توقف رو حذف نکنیم تصویر اینجوری میشه :
حالا به چه کلماتی میگیم Stop Words یا کلمات توقف؟ به کلمات پر تکراری که جزو کلمات کلیدی به حساب نمیآیند مانند حروف اضافه («به»، «از» و …)، حروف ربط («که»، «پس» و …) و ضمایر («من»، ««او» و…) کلمات توقف گفته میشود. البته لیست کامل و دقیقی از کلمات توقف چه برای زبان فارسی و چه برای زبان انگلیسی وجود نداره. ممکنه در یک متن کلمه «سلام» کلمه توقف حساب بشه و در یک متن کلمه کلیدی و اصلی!در لینک زیر مجموعهای از کلمات توقف فارسی وجود داره که من از اون برای پروژه های مختلف استفاده میکنم :
https://github.com/ziaa/Persian-stopwords-collection
اما همونطور که گفتم، نمیتونیم یک لیست از کلمات توقف رو برای همه پروژه ها استفاده کنیم. باید متناسب با هر پروژه، یک لیست جدید ایجاد کنیم. مثلا این لیست کلمه «مِی» رو به عنوان کلمه توقف در نظر گرفته و یکی از پایه های شعر فارسی رو حذف کرده! موقعی که داشتم توییت رو مینوشتم خیلی فرصت این رو نداشتم که کلمات توقف رو تغییر بدم و باعث شد چند تا از کلمه های مهم از ابر کلمات حذف بشه! اما الان یه مقدار بیشتر وقت گذاشتم و کمی این لیست رو تغییر دادم تا نتیجه دقیق تری داشته باشیم.بر اساس اطلاعاتی که در سایت گنجور نوشته شده است، این دیتابیس شامل ۱,۲۹۲,۲۴۷ بیت شعر است. همچنین تعداد کلمات منحصر به فرد در گنجور ۴۴۶,۵۶۹ عدد است که در لینک زیر قرار دادم :
https://gist.github.com/vahidbaghi/f54321c2f75feded7578766fb064f9f8
اگر ابر کلمات تمام اشعار فارسی رو ترسیم کنیم نتیجه به صورت زیر میشود :
اگر کلمات توقف را از دایره واژگان حذف نکنیم نتیجه به صورت زیر میشود :
در حال حاضر اشعار ۱۶۱ شاعر در سایت گنجور وجود داره. من ابر کلمات تک به تک این شعرا رو هم ترسیم کردم اما برای اینکه این پست طولانی نشه، تصاویر رو در لینک زیر قرار دادم :
https://vahidbaghi.ir/hobby/ganjoor_wordcloud.html
حالا میخوام بررسی کنم در دایره واژگان هر شاعر چه تعداد کلمات منحصر به فرد وجود داره که سایر شعرا از اون استفاده نکردند. لیست ۱۰ نفری که بیشترین کلمه منحصر به فرد رو دارند، در جدول زیر قرار دادم :
لیست کامل رو میتونید از لینک زیر مشاهده کنید :
https://storage.vahidbaghi.ir/unique_words.png
همچنین لیست کلمات منحصر به فردی هر یک از شعرا استفاده کردند رو میتونید از طریق لینک زیر دریافت کنید :
https://storage.vahidbaghi.ir/unique_words.zip
جدول زیر، تعداد تکرار هر یک از حروف الفبا در تمام اشعار گنجور را نشان میدهد :
از جدول بالا میشه فهمید که حروف ژ ، ث و ظ کمتر از سایر حروف در اشعار فارسی تکرار شدهاند. حالا میخوام بررسی کنم که کدام یک از شعرا بیشتر از سایرین از این حروف در اشعار خود استفاده کردهاند؟
- حرف ژ
- حرف ث
- حرف ظ
کدام یک از شعرا بیشترین تعداد نقطه را در اشعار خود بکار بردهاند؟
کدام یک از اشعار بیشترین تعداد نقطه را دارند؟
آذر بیگدلی » دیوان اشعار » مثنویات » شمارهٔ ۱۱ » ۲۶,۴۴۳ نقطه
عطار » جوهرالذات » دفتر دوم » تمامی اشیا از یک نور واحدند » ۱۸,۲۰۰ نقطه
فردوسی » شاهنامه » پادشاهی کسری نوشین روان چهل و هشت سال بود » ۱۸,۰۳۷ نقطه
افسرالملوک عاملی » کوروش نامه » تحصیل اجازه خشایار از پدرش برای رفتن بشکار » ۱۷,۷۳۰ نقطه
کدام یک از اشعار هیچ نقطهای ندارند؟
وطواط » قصاید » شمارهٔ ۱۴۲ – قصیدۀ محذوف النقط در مدح محمد نام
مجیرالدین بیلقانی » دیوان اشعار » قصاید » شمارهٔ ۵۵
خالد نقشبندی » قطعات » قطعه شماره ۳۹
نکته بامزه اینه که غزل شمارهٔ ۱۱۵۹ و غزل شمارهٔ ۹۳۹ از بیدل دهلوی فقط ۳ نقطه دارد و اون هم نقاط کلمه بیدل است!
لیست تعداد نقطه در هر یک از اشعار گنجور رو در لینک زیر قرار دادم :
https://gist.github.com/vahidbaghi/916bd259d167041d69be126dad8ce739
از بین نام های ایرانی کدامیک بیشتر از بقیه در اشعار مورد استفاده قرار گرفتهاند؟
برای اینکه پاسخ این سوال رو پیدا کنیم ابتدا باید لیستی از نام های ایرانی در اختیار داشته باشیم. این لیست رو از سایت ثبت احوال برداشتم که شامل ۶۲۴۰ نام ایرانی است. لیست این نام ها را در لینک زیر قرار دادم :
https://gist.github.com/vahidbaghi/31070ed61318cd828442e99a83bc73d1
در تصویر زیر میتوانید ابر کلمات اسامی ایرانی که در اشعار گنجور آماده است را مشاهده کنید :
لیست کامل نام ها و تعداد تکرار هر کدوم رو در لینک زیر قرار دادم :
https://gist.github.com/vahidbaghi/abb6277234191105b36cddd9eaa502a6
اگر استقبال بشه سعی میکنم بخش دومش رو هم بنویسم و یکسری تحلیل های دیگه رو انجام بدم.
لینک دونیت : https://www.coffeete.ir/vahidbaghi (بدون فیلترشکن باید باز کنید)