زبان محاوره ای فارسی که در شبکه های اجتماعی، کتب داستانی، فیلمها و گفتگوهای روزمره بسیار پرکاربرد است با زبان رسمی فارسی که عمدتا در کتابهای درسی و علمی، اخبار و نشست های رسمی استفاده می شود دارای تفاوتهای واژی و ساختاری است. تفاوت واژی به تفاوت در واژگان مورد استفاده اطلاق می شود (مثلا هندونه در مقابل هندوانه) در حالیکه تفاوت ساختاری به تغییر ساختار نحوی جمله در جملات محاوره ای اشاره دارد. (مثلا رفتم خودم مدرسه گرفتمش. بجای خودم به مدرسه رفتم و آن را گرفتم).

پیکره محاوره -رسمی “عامی” با حمایت معاونت علمی و فناوری ریاست جمهوری تهیه شده است و شامل ۵۰ هزار زوج جمله محاوره ای- رسمی و همترازی کلمات معادل در آنهاست. در این پیکره هردو نوع تبدیلهای واژی و نحوی در جملات مورد استفاده لحاظ شده و حدود نیمی از جملات محاوره ای دارای تغییرات ساختاری نسبت به جمله رسمی معادلشان هستند. همچنین علاوه بر زوج جملات معادل، برای کلمات و عبارات هر جمله محاوره ای کلمه یا عبارت معادل آن در جمله رسمی مشخص شده است (همترازی). جملات محاوره ای از منابعی چون شبکه های اجتماعی مانند اینستاگرام و توئیتر، پیام رسان ها مانند تلگرام و واتسپ، صفحات وب، وبلاگ ها، کتاب ها و فیلم ها جمع آوری شده یا توسط خود داده آماها تولید شد اند. نحوه جمع آوری جملات محاوره ای مورد نیاز به صورت خودکار و یا نیمه خودکار با خزش روی اینترنت بوده و نتایج پس از پالایش اولیه جهت انتخاب و ورود در سیستم در اختیارداده‎آماها قرار گرفته است. داده آماها جملات مناسب (متنوع و متفاوت) را انتخاب و جمله محاوره ای و صورت رسمی آن و همترازی کلمات را وارد کرده‌اند. بنابراین تولید پیکره به صورت دستی انجام شده و دقت بالایی دارد. در انتها از مجموعه همترازی های ایجاد شده یک فرهنگ کلمات و عبارات محاوره ای- رسمی تولید شده که برای هر مدخل فرکانس رخداد آن در پیکره نیز وارد شده است.

محتوای دادگان محاوره-رسمی:

۵۰ هزار زوج جمله محاوره و معادل رسمی آن به همراه همترازی‌های هرجمله
فرهنگ لغات محاوره-رسمی شامل ۴۹۳۱۶ زوج کلمه و عبارت محاوره و رسمی به همراه بسامد تکرار هر زوج در پیکره

ویژگی های دادگان محاوره-رسمی:

در این پیکره تقریبا نیمی از جملات محاوره ای برای تبدیل به فرم رسمی نیاز به تغییر ساختار نحوی دارند.
در هر جمله محاوره ای حداقل یک کلمه محاوره ای وجود دارد.
پیکره دارای پوشش مناسبی از زبان محاوره از منظر پدیده های زبانی و انواع محاوره و شکسته نویسی از منابع متعدد و متنوع است
پیکره حاوی جملات با طولهای مختلف است و جملات کوتاه و بلند را نیز پوشش میدهد. متوسط طول جملات محاوره وارد شده ۱۱,۳۶ و متوسط طول جملات رسمی وارد شده ۱۲.۳۲ کلمه است.

مشارکت کننده در ساخت :

اطلاعات ارجاع :

شمس فرد، مهرنوش. دادگان‌ها و منابع زبانی فارسی: از متن تا واژه، پردازش متن و گفتار فارسی (ویراستاران: دکتر مهرنوش شمس‌فرد، محمود بیجن‌خان)، فصل اول، صفحه ۱-۲۵، انتشارات سمت، ۱۴۰۱.
Takalli vahideh, Kalantari, Fateme, Shamsfard, Mehrnoush, Developing an Informal-Formal Persian Corpus, ۲۰۲۲.
Falakaflaki Parastoo, Shamsfard, Mehrnoush, Formality Style Transfer in Persian, ۲۰۲۲.

مجوز استفاده:(CC BY ۴,۰)
https://creativecommons.org/licenses/by/۰,۴
آخرین نسخه:
۲۰۲۱