دانلود مقاله طراحی سیستمهای مدرن اطلاعاتی، بازشناسی خودکار الگوها

Word 1 MB 18402 66
مشخص نشده مشخص نشده کامپیوتر - IT
قیمت قدیم:۳۰,۰۰۰ تومان
قیمت: ۲۴,۸۰۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • پیدایش علوم و فنون جدید، جوامع بشری را با شکلهای مختلفی از اطلاعات روبرو نموده است.

    سطح توسعه یک جامعه را می توان با مقدار اطلاعات و دانش تولید شده در آن ارزیابی کرد.

    تولید فزاینده اطلاعات به شکلهای مختلف صورت می گیرد و با درجات متفاوتی از پیچیدگی همراه میباشد.

    در نتیجه نیاز به سیستمهای پردازش اطلاعات بصورت روزافزون افزایش می یابد.

    یکی از مسائل مهم در طراحی سیستمهای مدرن اطلاعاتی، بازشناسی خودکار الگوها است.

    1-1- شناسایی الگو
    شناسایی الگو، شاخه ای از هوش مصنوعی است که با طبقه بندی و توصیف مشاهدات سروکار دارد.شناسایی الگو به ما کمک میکند داده ها (الگوها) را با تکیه بر دانش قبلی یا اطلاعات آماری استخراج شده از الگوها، طبقه بندی نماییم.

    الگوهایی که می بایست طبقه بندی شوند، معمولاً گروهی از سنجش ها یامشاهدات هستند که مجموعه نقاطی را در یک فضای چند بعدی مناسب تعریف می نمایند.یک سیستم شناسایی الگوی کامل متشکل است از یک حسگر ،که مشاهداتی را که می بایست توصیف یا طبقه بندی شوند جمع آوری می نماید، یک سازوکار برای استخراج ویژگی ها که اطلاعات عددی یا نمادین را از مشاهدات، محاسبه می کند، (این اطلاعات عددی را با یک بردار بنام بردار ویژگیها نمایش می دهند)؛ ویک نظام طبقه بندی یا توصیف که وظیفه اصلی طبقه بندی یا توصیف الگوها را با تکیه بر ویژگی های استخراج شده عهده داراست.









    شکل 1-1 نمودار بلوکی یک سیستم شناسایی الگو را نشان می دهد.

    همانطوری که از پیکان های برگشتی مشخص است، این بلوک ها لزوماً مستقل نیستند و بسته به نتایج حاصله گاهی لازم است که
    بلوک های اولیه مجدداً طراحی گردند تا راندمان کلی سیستم بهبود یابد.
    نظام کلاسه بندی یا توصیف معمولا مبتنی بر وجود یک مجموعه از الگوهایی است که قبلا کلاسه بندی یا توصیف شده اند.

    این مجموعه الگوها را مجموعه آموزشی و قانون یادگیری منتج شده را قانون یادگیری باسرپرستی(با نظارت) می نامند همچنین یادگیری میتواند بصورت بدون نظارت باشد و این در حالی است که الگوهایی از قبل به سیستم داده نشده اند و در مقابل، سیستم خود براساس قواعد آماری الگوها، کلاسها را پایه گذاری میکند.
    -2- کاربردهای بازشناسی الگو
    بازشناسی الگو در بسیاری از زمینه ها نقش کاربردی دارد .

    بازشناسی حروف، بازشناسی نویسنده، تصدیق امضاء ، طبقه بندی اثر انگشت و بازشناسی گفتار نمونه هایی از این کاربردها هستند.

    شناسایی الگو برای تحلیل داده های پزشکی نیز بکار گرفته شده است.

    برای مثال تفسیر الکتروکاردیوگرام، تحلیل تصاویر و طبقه بندی کروموزمها را میتوان نام برد.

    نمونه های دیگری از این کاربردها شامل طبقه بندی x اشعه مناطق زراعی، مطالعه آلودگی آبها، آشکار کردن منابع زیرزمینی و پیش بینی آب و هواست.

    در این نوع کاربردها، تصاویر ارسال شده از ماهواره و تصاویرهوایی به کمک روشهای بازشناسی الگو تفسیر می شوند.

    بازرسی تصویری و بازشناسی قطعات ماشینی، از کاربردهای صنعتی شناسایی الگو هستند.

    تحلیل بافت، آشکارسازی هدف در سیگنالهای برگشتی رادار یا سونار ، طبقه بندی امواج زلزله و تشخیص ذرات شیمیائی کاربردهای دیگری ازبازشناسی الگو می باشند.



    1-3- طرح پژوهش
    در چند دهه گذشته مسأله بازشناسی الگوهای نوشتاری شامل حروف، ارقام و سایر نمادهای متداول دراسناد مکتوب شده به زبانهای مختلف، توسط گروههای مختلفی از محققین مورد مطالعه و بررسی قرار گرفته است.

    نتیجه این تحقیقات منجر به پیدایش مجموعه ای از روشهای سریع و تا حدزیادی مطمئن بمنظور وارد نمودن اطلاعات موجود دراسناد، مدارک، کتابها و سایر مکتوبات چاپی یا تایپ موسوم بهOCR شده و حتی دستنویس به داخل کامپیوتر شده است.

    مسئله بازشناسی حروف الفبای فارسی سابقه ای نه چندان طولانی به همراه دارد.

    نخستین گزارشهای رسمی منتشر شده از تلاشهای انجام گرفته در این راه، مربوط به سالیان نخست دهه 1980 میلادی است.
    به رغم فراگیری نسبی کاربرد الفبای فارسی در میان ملل مختلف قاره آسیا،بررسیهای انجام شده در خصوص یافتن روشهایی برای بازشناسی حروف این الفبا بسیار محدود بوده است.

    بواسطه وجود تفاوتهای اساسی بین نحوه نگارش کلمات فارسی و کلمات لاتین نظیرچسبیده بودن حروف سازنده یک کلمه به یکدیگر و تغییر شکل حروف بر اساس موقعیت نسبی قرارگیری آن در یک کلمه فارسی، امکان اعمال مستقیم روشهای متداول در بازشناسی حروف انگلیسی بمنظور شناسایی حروف تشکیل دهنده کلمات فارسی وجود ندارد.
    اکثر کارهای انجام شده در زمینه« اُْسی آر » در رابطه با متون لاتین، چینی و ژاپنی بوده است » نرم افزارهای تجاری « اُْسی آر » لاتین در سالهای اخیر پیشرفت کیفی قابل ملاحظه ای داشته اند.

    اما« اُْسی آر » فارسی با وجود حجم نسبتاً وسیع تحقیقات دانشگاهی و نیاز شدید بازار تجاری به آن، هنوز هم از جایگاه مورد نظر فاصله بسیاری دارد و تاکنون هیچ سیستم « اُْسی آر » کارآمدی که ازنظر دقت و کیفیت محیط نرم افزاری، قابل مقایسه با سیستم های « اُْسی آر » لاتین باشد، عرضه نگردیده است.

    در نتیجه ضرورت انجام تحقیقات بیشتر در زمینه متون فارسی و عربی کاملاً احساس می شود.
    هدف از انجام این پروژه آزمایش توانایی تکنیک آنالیز اجزای اصلی جهت استخراج ویژگیهای مربوط به ارقام فارسی و کاربرد آن جهت شناسایی است که این امر در فصل آخر محقق شده است.

    امید است انجام این پروژه افقهایی نو را در مبحث آنالیز اسناد بگشاید.


    فصل دوم- مروری بر سیتمهای OCR


    2-1-بخشهای مختلف سیستمهای ocr
    در ادامه ماهیت سیستمهای ocr، تاریخچه وبخشهای مختلف آن مورد بررسی قرار میگیرد.



    2-1-1- بازشناسی نوری حروف
    اصطلاح « اُْسی آر »به تکنیک هایی اطلاق می شود که در تصاویر اسکن یا فکس شده، نواحی متنی را تشخیص می دهند و سپس این نواحی(تصویری) را به متن قابل ویرایش تبدیل می نمایند .با دستگاهی به نام اسکنر می توان تصویر یک صفحه کاغذ را به صورت یک فایل گرافیکی(تصویری)، به رایانه ارسال و در آن ذخیره نمود.

    بدین ترتیب کاربر م یتواند با یک نر م افزار مناسب نمایش دهنده تصاویر، تصویر صفحه اسکن شده را بر روی نمایشگر رایانه خود ملاحظه نماید یا آن را چاپ کند؛ اما قادر نخواهد بود که متن موجود در تصویر سند را ویرایش کند یا آن را مورد جستجو قرار دهد .

    یک نرم افزار « اُْسی آر » تصویر اسکن شده را میخواند، محتویات آن (شامل متن، خطوط، تصاویر، جداول، ...)را شناسایی می نماید، و سپس آن را به یک قالب قابل ویرایش(در واژ ه پردازها) تبدیل می کند.

    امروزه بیشتر دستگاههای اسکنر به نرم افزارهای « اُْسی آر » مجهز گردیده اند و قادرند متن موجود در یک سند اسکن شده را تشخیص دهند و آن را با همان نحوه قالب بندی، ستون بندی، جدول بندی ونوع فونت مطابق با سند کاغذی اصلی، در قالب یک فایل متنی با قالب بندی مناسب ذخیره نمایند.

    استفاده از سیستم های « اُْسی آر » دو مزیت عمده دارد :
    الف.

    افزایش چشمگیر سرعت دسترسی به اطلاعات؛
    زیرا در متن بر خلاف تصویر، امکان جستجو و ویرایش وجود دارد.
    ب.

    کاهش فضای ذخیره سازی؛
    زیرا حجم فایل متنی استخراج شده از یک تصویر، معمولاً بسیار کمتر از حجم خود فایل تصویری است.
    چنین قابلیتی امکان استفاده گسترده از رایانه را در پردازش سریع حجم وسیعی از داد ههای مکتوب شرکت ها و مؤسسات مختلف(نظیر بانک ها، شرکت های بیمه، مؤسسات خدمات عمومی، اداره پست، و دیگر نهادهایی که سالانه با میلیون ها مورد پرداخت، دریافت و حسابرسی امور مشتریان خود مواجه اند) فراهم می آورد.

    2-1-2- تاریخچه سیستم های « اُْسی آر »
    از جنبه تاریخی، سیستم های « اُْسی آر » تا کنون سه مرحله تکاملی را پشت سر گذاشته اند
    الف.

    مرحله تکوین(از 1900 تا 1980): رد پای اولیه اقدامات صورت گرفته در زمینه بازشناسی حروف را در سال های اول دهه 1900 می توان یافت و آن زمانی است که « تیورینگ»دانشمند روسی بر آن بود که به افراد مبتلا به نارسایی های بینایی کمک نماید.

    اولین اختراع های ثبت شده در این زمینه مربوط به سال های 1929و 19 میلادی هستند این سیستمها حروف چاپی را با روش تطابق قالبی شناسایی می کردند؛ به این صورت که ماسک های مکانیکی مختلفی از مقابل تصویر حرف عبور می کردند(مکانیکی) و نور از یکسو به آن تابانده می شد و از سوی دیگر توسط یک آشکارساز نوری دریافت می گردید(اپتیکی).

    وقتی یک انطباق کامل صورت می گرفت، نور به آشکارساز میرسید و حرف ورودی بازشناسی می شد.

    این اختراع به دلیل فناوری اپتومکانیکی مورد استفاده در آن، کاربردی نبود.

    تصور دسترسی به دستگاهی برای بازشناسی حروف تا دهه 1940 میلادی و ظهور رایانه های دیجیتال، به صورت یک رؤیا باقی ماند.
    اقدامات اولیه در زمینه بازشناسی حروف، بر متون چاپی یا مجموعه کوچکی از حروف و نمادهای دستنوشت که براحتی قابل تشخیص بودند، متمرکز گردیده بود.

    سیستم های بازشناسی حروف چاپی که در این مقطع زمانی عرضه شدند، عمدتاً از روش تطابق قالبی استفاده می نمودند که در آن، تصویر ورودی با مجموعه بزرگی از تصاویر حروف، مورد مقایسه قرار م یگرفت.

    در مورد متون دستنوشت نیز الگوریتم های پردازش تصویر که ویژگی های سطح پایین (ویژگی هایی که مستقیماً و بدون اعمال هیچ تبدیلی، از تصاویر استخراج می شوند) را از تصاویر استخراج می کنند، در مورد تصاویر دوسطحی اعمال می شدند تا بردارهای ویژگی استخراج گردند.

    سپس این بردارهای ویژگی به طبقه بندی کننده های آماری سپرده می شدند.

    در این دوره، تحقیقات موفق اما مقید (منظور از مقید، مفروض دانستن شرایط و پی شفرض های خاص برای کاراکترهای ورودی است)، بیشتر بر روی حروف و اعداد لاتین انجام گرفت.

    با این حال مطالعات چندی نیز بر روی حروف ژاپنی، چینی، عبری، هندی، سیریلیکی، یونانی و عربی در هر دو زمینه حروف چاپی و دستنوشت آغاز گردید.

    با ظهور صفحات رقومی کننده در دهه 1950 که قادر به تشخیص مختصات حرکتی تجاری نیز امکان عرضه یافتند.

    این نوآوری سبب شد « اُسی آر » نوک یک قلم مخصوص بودند، سیستم های که محققان بتوانند در زمینه بازشناسی برخط حروف دستنوشت، فعالیت خود را آغاز نمایند.

    منبع مناسب درباره اقدامات صورت گرفته بر روی بازشناسی برخط حروف تا سال 1980 می باشد.
    ب.

    مرحله توسعه (از 1980 تا 1990): مطالعات صورت گرفته تا قبل از سال 1980 بدلیل فقدان سخت افزارهای رایانه ای قدرتمند و دستگاه های اخذ داده ها با مشکل همراه بودند.

    در این دهه بواسطه رشد انفجارگونه فناوری اطلاعات، وضعیت بسیار مناسبی برای تحقیقات مختلف از جمله بازشناسی حروف فراهم گردید.

    روش های ساختاری به همراه روش های آماری در بسیاری از سیستم ها استفاده شدند.

    تحقیقات در اساساً به توسعه روش های بازشناسی معطوف گردید، بی آنکه مسئله استفاده از اطلاعات « اُسی آر » زمینه معناشناختی به منظور افزایش دقت بازشناسی مورد توجه قرار گیرد.

    این امر سبب گردید که دقت بازشناسی) نرخ بازشناسی)از یک حد خاص فراتر نرود، که در بسیاری از کاربردهای « اُسی آر » قابل قبول نبود.
    ب.

    تحقیقات در اساساً به توسعه روش های بازشناسی معطوف گردید، بی آنکه مسئله استفاده از اطلاعات « اُسی آر » زمینه معناشناختی به منظور افزایش دقت بازشناسی مورد توجه قرار گیرد.

    این امر سبب گردید که دقت بازشناسی) نرخ بازشناسی)از یک حد خاص فراتر نرود، که در بسیاری از کاربردهای « اُسی آر » قابل قبول نبود.

    ج.

    مرحله بهبود(از 1990 به بعد): در این مقطع زمانی بود که با تکوین ابزارها و تکنیکهای پردازشی جدید، پیشرفت واقعی در سیستمهای « اُسی آر » محقق گردید.

    در اوایل دهه 90 ، روش های پردازش تصویر و بازشناسی الگو با تکنیک های کارآمد هوش مصنوعی ادغام گشتند.

    محققان، الگوریتم های پیچیده ای را در بازشناسی حروف ابداع نمودند که قادر بودند داده های ورودی با تفکیک پذیری بالا را دریافت کنند و درمرحله پیاده سازی، محاسبات بسیار زیادی را بر روی داده ها انجام دهند.

    امروزه علاوه بر وجود رایانه های قدرتمندتر و تجهیزات الکترونیکی دقیق تر مانند اسکنرها، دوربی نها و صفحات رقوم یکننده، استفاده از تکنیک های پردازشی مدرن و توانمند همچون شبکه های عصبی ، مدل های مارکوف پنهان ، منطق های مجموعه فازی و مدل های پردازش زبان طبیعی امکان پذیر گشته است.

    سیستم های جدیدبرون خط متون چاپی و برخط متون دستنوشت با واژگان محدود و وابسته به نویسنده، در کاربردهای محدود به نحو کاملاً رضایت بخشی عمل می کنند.اما به منظور دستیابی به هدف نهایی در شبیه سازی ماشینی نگارش انسانی و متون چاپی، هنوز راه درازی در پیش است.

    2-1-3- تحقیقات انجام شده در داخل کشور در زمینه تولید « اُسی آر » فارسی با توجه به اهمیت طیف وسیع کاربردها ، در سا لهای اخیر تحقیقات قابل ملاحظه ای در کشور در زمینه « اُسی آر » توسط دانشگاه ها، برخی نهادهای دولتی، و شرکت های خصوصی صورت گرفته است که متاسفانه از آمار دقیق آن ها اطلاعی در دست نیست.

    اما قدر مسلم این که برای « اُسی آر » متون چاپی تاکنون هیچ .

    نرم افزار کارآمد تجاری که محصول تحقیقات داخل کشور باشد، عرضه نگردیده است.

    در ادامه به برخی از تلاش های صورت گرفته در این زمینه اشاره می شود: - در حوزه تحقیقات دانشگاهی، تعداد نسبتاً زیادی پایان نامه(بخصوص در مقاطع کارشناسی ارشد ودکتری) و مقاله در این زمینه منتشر شده اند که نقطه تمرکز بیشتر آن ها، ارائه روش هایی به منظور قطعه بندی درونی ، بازنمایی و بازشناسی حروف بوده است و سایر بخشها شامل پیش پردازش ، قطعه بندی بیرونی و پسپردازش کمتر مورد توجه قرار گرفته اند .

    بخش های مختلف پردازشی یک سیستم « اُسی آر » شامل پیش پردازش، قطعه بندی، بازنمایی، بازشناسی و پسپردازش در بخشهای بعدی مورد بررسی قرارخواهند گرفت.

    طرح ملی« بازشناسی متون چاپی و حجم محدودی از کلمات دست نویس» به سرپرستی دکتر « احسان الله کبیر »آغاز گردید که در آن تعدادی از دانشجویان و اساتید دانشگاه های تربیت مدرس و صنعتی امیرکبیر در قالب پایان نامه های کارشناسی ارشد و دکتری، به انجام تحقیق پرداختند.

    دکتر «کبیر» پروژه هایی نیز با عناوین « بازشناسی متون چاپی فارسی» و « بازشناسی حروف و ارقام فارسی دست نویس» برای «سازمان پژوهش های علمی و صنعتی ایران»انجام داده است.

    2-1-4- برخی ویژگی های متون چاپی فارسی از دیدگاه پردازش رایانه ای نگارش فارسی، ویژگی های منحصر به فردی دارد که آن را کاملاً از نگارش لاتین متمایز می سازد.

    به منظور فعالیت در حوزه « اُسی آر » فارسی، آگاهی از قوانین نگارشی و نحوه چاپ حروف در این زبان، امری ضروری است.

    در اینجا به ویژگی های کلی نگارش فارسی اشاره می شود: شکل 2-1-4 .

    برخی از ویژگی های نگارش زبان فارسی :الف) کلمه خورشید از سه زیرکلمه تشکیل شده؛ ب) چهار شکل مختلف حرف «ع» با توجه به موقعیت آن در کلمه، ج) همپوشانی دو حرف «ح» و «ک» در کلمه «حکم»؛ د) اتصال حروف «ک» و «ا» در دو محل؛ ه)حروف متفاوت با بدنه مشابه؛ و)کشیدگی حرف«ب» در کلمه «با».

    الف - متون فارسی برخلاف متون لاتین از راست به چپ نوشته می شوند.

    ب - در کلمات فارسی برخی از حروف از یک یا دو طرف به حروف مجاور خود اتصال دارند و برخی نیز به صورت مجزا نوشته می شوند.

    در نتیجه هر کلمه ممکن است شامل یک یا چند بخش متصل باشد که «زیر کلمه نامیده می شوند.(شکل-الف) چسبیده یا سرهم بودن حروف در نگارش فارسی، بازشناسی متون فارسی را برای سیستم های « اُسی آر » نسبت به متون لاتین بسیار مشکل تر می سازد.

    ج - حروف فارسی ممکن است چهار موقعیت مجزا و در نتیجه چهار شکل متفاوت نگارش داشته باشند: حروف ابتدایی، میانی، انتهایی و مجزا(شکل- ب).

    چ - حروف واقع در یک کلمه ممکن است همپوشانی داشته باشند، بدین معنا که نتوان با رسم خطوط عمودی، حروف را به طور کامل از یکدیگر مجزا نمود(شکل- ج).

    ح - در برخی از فونت ها بعضی از حروف، از یک سمت در دو محل به یکدیگر اتصال دارند(شکل- د) خ - برخی از حروف بین یک تا سه نقطه دارند که ممکن است در بالا یا پایین بدنه حرف واقع باشند (شکل – ه).

    بعضی از حروف بدنه مشابه دارند و تفاوت آن ها تنها در تعداد و محل قرارگیری نقاط(شکل ه) یا در وجود یک سرکش است(مانند «ک» و «گ») که در مقایسه با بدنه حروف، اندازه بسیار کوچکی دارند.

    این موضوع نیز یکی از مواردی است که بر پیچیدگی سیستم های « اُسی آر » فارسی می افزاید د - حروف فارسی ممکن است در بالا یا پایین بدنه دارای اعراب باشند.

    سه اعراب -َ -ِ -ُ در زبان فارسی، اعراب های اصلی اند و اعراب -ً در برخی کلمات عربی رایج در زبان فارسی دیده می شود (نظیر کلمات «عمدأ» و«احتمالأ»).

    کلمات عربی دارای اعراب -ٌ و -ٍ در زبان فارسی عمومیت نیافته اند.

    هر چند کاربرد اعراب در زبان فارسی نسبت به زبان عربی بسیار محدودتر است، اما اگر کلمه ای نامتداول باشد یا به دلیل تشابه نگارشی آن با کلمه دیگر، تأکید بر تلفظ صحیح آن باشد، از نشانه های اعراب استفاده می شود.

    ذ - در بالای بدنه یک حرف ممکن است علامت تشدید وجود داشته باشد.

    ر - برخی از حروف دارای علامت همزه هستند («ئا»،«أ»،«ؤ»،«به») ز - حروفی که از طرف چپ قابلیت اتصال به حرف مجاور خود را دارند، ممکن است به صورت کشیده نوشته شوند (شکل – و).

    بیشتر حروف فارسی(مخصوصاً حروف چسبیده)دندانه دار هستند.

    در مواردی که کیفیت سند اصلی یا دستگاه اسکنر پایین باشد، ارتفاع دندانه ها نسبت به خط زمینه کوتاه می شود و این امر، شناسایی صحیح این حروف در مرحله قطعه بندی یا بازشناسی را با مشکل مواجه می سازد.

    بواسطه وجود تفاوت های اساسی بین نحوه نگارش فارسی و لاتین (نظیر چسبیده بودن حروف کلمه به یکدیگر، تغییر شکل حروف براساس موقعیت نسبی آن در کلمه فارسی، و...) ، امکان اعمال مستقیم روش های بازشناسی متون لاتین به منظور شناسایی متون فارسی وجود ندارد.

    2-1-5-انواع سیستم های « اُسی آر » از لحاظ نوع الگوی ورودی سیستم های « اُسی آر » را می توان از لحاظ نوع الگوی ورودی به دو گروه اصلی تقسیم کرد: الف.

    سیستم های برخط،.

    ب.

    سیستم های برون خط.

    در بازشناسی برخط، حروف در همان زمان نگارش توسط سیستم تشخیص داده می شوند و دستگاه ورودی این سیستم ها یک قلم نوری است.

    در این روش علاوه بر اطلاعات مربوط به موقعیت قلم، اطلاعات زمانی مربوط به مسیر قلم نیز در اختیار است.

    این اطلاعات معمولاً توسط یک صفحه رقومی کننده اخذ می شوند.

    در این روش می توان از اطلاعات زمانی سرعت ، فشار و زمان برداشتن و گذاشتن قلم روی صفحه در بازشناسی استفاده کرد.

    در بازشناسی برون خط، از تصویر دوبعدی متن ورودی استفاده می شود.

    در این روش به هیچ نوع وسیله نگارش خاصی نیاز نیست و تفسیر داده ها مستقل از فرآیند تولید آن ها و تنها براساس تصویر متن صورت می گیرد.

    این روش به نحوه بازشناسی توسط انسان شباهت بیشتری دارد.

    2-1-6- معرفی بخش های مختلف یک سیستم « اُسی آر » شکل 2-1-6 نمودار بلوکی یک سیستم « اُسی آر » را نمایش می دهد.لازم به ذکر است که بسته به الگوریتم کلی به کار رفته و سطح انتظارات از عملکرد نرم فزار، ممکن است برخی سیستمها فاقد یک یا چند مرحله از مراحل فوق باشند.

    شکل 2-1-6 نمودار بلوکی دیاگرام یک سیستم « اُسی آر » در ادامه هر یک از این بلوک ها مورد بررسی قرار می گیرند.

    2-1-6-1- پیش پردازش کلیه اعمالی که روی تصویر صورت می گیرند تا موجب تسهیل در روند اجرای فازهای بعدی گردد؛ مانند دوگانی کردن تصویر، حذف نویز ، هموارسازی ، نازکسازی ، تشخیص زبان و فونت کلمات، و نظایر این ها.

    از مجموعه این پردازش ها، هدف های زیر دنبال می شود: 1.

    کاهش نویز 2.

    نرمالیزه کردن داده ها 3.

    فشرده سازی میزان اطلاعاتی که م یبایست محفوظ بماند.

    کاهش نویز: نویز ایجادشده بواسطه دستگاه های اسکنر نوری منجر به ایجاد نقطه نقطه های لک مانند ، قطعه خط های گسسته ، اتصال بین خطوط، فضاهای خالی در خطوط متن، پرشدن حفره های موجود در تصویر برخی حروف، و ...

    می گردد.

    همچنین اعوجاج های مختلف شامل تغییرات محلی، منحنی شدن گوشه های حروف، تغییر شکل یا خوردگی حروف را نیز باید در نظر داشت.

    قبل از مرحله بازشناسی حروف، لازم است که این نقایص برطرف شوند.

    مهم ترین دلیل برای کاهش نویز، کم کردن خطا در مراحل قطعه بندی و بخصوص بازشناسی می باشد.

    کاهش نویز همچنین سبب کم شدن اندازه فایل تصویر می شود که به نوبه خود، کاهش زمان مورد نیاز برای پردازش ها و ذخیره سازی های آینده را در پی خواهد داشت .

    نرمالیزه کردن داده ها: روش های نرمالیزه کردن داده ها به حذف تغییرات نگارشی کمک می کند و داده های استانداردشده ای را نتیجه می دهد.

    روش های پایه نرمالیزه کردن عبارت اند از: الف.

    نرمالیزه کردن کجی متن و استخراج خطوط زمینه به دلیل بی دقتی در مرحله اسکن یا بی دقتی نویسنده در هنگام نگارش متن دستنوشت، ممکن است خطوط متن نسبت به تصویر، اندکی انحراف یا چرخش داشته باشند.شکل (2-1-6-1).این وضع ممکن است کارآیی الگوریتم های به کار رفته در طبقات بعدی سیستم « اُسی آر » را تحت تأثیر قرار دهد؛ چرا که یکی از مفروضات در بیشتر روشهای قطعه بندی، کج نبودن تصویر متن ورودی است و در نتیجه لازم است که این نقیصه، آشکار و تصحیح گردد.

    آشکارسازی خط زمینه در بسیاری از تکنیک های قطعه بندی و بازشناسی متون فارسی، عربی و لاتین، نقش اساسی دارد.

    علاوه بر این، برخی از کاراکترها مانند «g» و «9» در نگارش لاتین و «.»(صفر) در نگارش فارسی را بواسطه موقعیت نسبی شان نسبت به خط زمینه می توان آشکار ساخت.

    شکل 2-1-6-1 تصویر یک صفحه که کج اسکن شده است کلیه الگوریتم های توسعه داده شده برای آشکارسازی کجی صفحه، بر روی صفحات متنی با ترازبندی یکنواخت، دقیق عمل می کنند.الگوریتمی کارآتر است که به واسطه حضور مواردی نظیر گرافیک، پاراگراف های دارای کجی متفاوت، اعوجا جهای منحنی- خطی ظاهرشونده در کتاب های فتوکپی شده، نواحی وسیع پیکسل های سیاه نزدیک حاشیه صفحه و خطوط متنی مختصر و کوتاه، دقت آن کمتر دستخوش تغییر شود.روش های به کار رفته برای تصحیح کجی خطوط زمینه در متون لاتین را می توان به چهار گروه اصلی دسته بندی کرد که عبار تاند از: 1.

    به کارگیری هیستوگرام(پروفایل تصویرنمایی)تصویر 2.

    استفاده از روش خوشه بندی نزدیک ترین همسایه ها 3.

    روش همبستگی متقابل بین حروف 4.

    تبدیل هاف اغلب پس از آشکارسازی کجی، تصویر صفحه در جهت اصلی چرخانده می شود تا عملیات تحلیل قالب بندی متن و « اُسی آر » با سهولت و دقت بیشتری انجام پذیرد.

    نمونه برداری مجدد مورد نیاز برای این منظور که باید بر روی صفحات دوگانی شده اعمال گردد، ممکن است الگوی کاراکترها را تغییر دهد.

    در این حالت به جای چرخاندن تصویر می توان الگوریتم های پردازشی را به نحوی اصلاح نمود که اثر چرخش در آن ها لحاظ گردد.

    همچنین می توان تصویر سند را قبل از دوگانی کردن، چرخش داد یا این که مقدار چرخش را از روی انتقال های کوچک و بدون اعوجاج کل بلوک های متنی، تقریب زد.

    نرمالیزه کردن اریب شدگی : در متون چاپی فارسی و لاتین، کاراکترهای دارای قالب ایتالیک از راستای عمود، انحراف دارند.

    در متون دست نوشت نیز برخی از نویسنده ها حروف را به صورت زاویه دار می نویسند.

    این پدیده با عنوان «اریب شدگی» شناخته می شود و ممکن است دقت برخی از الگوریتم های قطعه بندی یا بازشناسی را تحت تأثیر قرار دهد و از این رو در این سیستم ها لازم است که در مرحله پیش پردازش، میزان اریب بودن کاراکترها شناسایی و تصحیح گردد.

    نرمالیزه کردن(تغییر مقیاس دادن ) اندازه: در سیستم های « اُسی آر » اغلب تصاویر کلمات یا حروف خیلی کوچک یا خیلی بزرگ، به یک اندازه استاندارد نرمالیزه می شوند تا بدین ترتیب عملیات بازشناسی، مستقل از اندازه فونت متن گردد.

    د.

    هموارسازی کانتور: خط تشکیل دهنده مرز یک کاراکتر را کانتور آن کاراکتر گویند.

    در متون دست نوشت، به واسطه لرزش یا حرکات ناخواسته دست نویسنده در هنگام نگارش، ممکن است که کانتور حروف ناصاف شود.

    این وضع در سیستم های بازشناسی متون چاپی و دست نوشت نیز، به دلیل تغییر مقیاس حروف یا وجود نویز در مرحله اسکن تصاویر ممکن است ظاهر گردد.

    روش های هموارسازی کانتور، به منظور جبران این نقیصه مورد استفاده قرار می گیرند.

    به طورکلی هموارسازی کانتور، تعداد نقاط نمونه مورد نیاز برای نمایش کاراکتر را کاهش می دهد و در نتیجه کارآیی مراحل پردازشی باقیمانده را بهبود میبخشد.

    ر.

    فشرده سازی: این نکته پذیرفته شده است که تکنیک های کلاسیک فشرده سازی تصاویر که تصویر را از حوزه مکانی بهحوزه های دیگر منتقل می کنند، برای بازشناسی حروف مناسب نیستند.

    در بازشناسی حروف، عمل فشرده سازی نیازمند آن دسته از تکنیک های حوزه مکانی است که اطلاعات شکلی را حفظ مینمایند.

    دو تکنیک متعارف فشرده سازی، یکی تکنیک اِعمال سطح آستانه (به منظور دوگانی یا دوسطحی کردن تصاویر سطح خاکستری) و دیگری نازک سازی می باشند الف.

    دوگانی(دوسطحی) کردن تصویر متن: تصاویر دیجیتالی به یکی از سه صورت- تصاویر رنگی، تصاویر سطح خاکستری(مشابه تصویر یک تلویزیون سیاه و سفید که رنگ تصویر به صورت سیاه، سفید و طیفی از رنگ های خاکستری ظاهر می شود)، و تصاویر دوگانی یا دوسطحی(مشابه تصویر یک سند فکس شده که رنگ پیکسلهای تصویر، تنها سیاه یا سفید است) می باشند.

    به منظور کاهش حجم ذخیره سازی مورد نیاز و افزایش سرعت و سهولت پردازش، اغلب مطلوب است که با انتخاب یک سطح آستانه، تصاویر سطح خاکستری یا رنگی را به تصاویر دوگانی تبدیل نمود.

    ب-نازک سازی: با این عمل، تصویر کاراکترها به تصویری با عرض یک پیکسل تبدیل می شود؛ درست مثل این که کاراکترها با یک قلم نوک باریک نوشته شده باشند.

    نازک سازی در حالی که کاهش قابل ملاحظه ای در حجم داده ها ایجاد می کند، اطلاعات شکلی کاراکتر را نیز حفظ مینماید شکل(2-1-6-2) شکل 2-1-6-2 عملیات نازک سازی بر روی یک تصویر متنی نمونه بازشناسی خط ، زبان و فونت: بازشناسی خط، تعداد کلاس های مختلف نمادهایی را که باید مورد ملاحظه قرار گیرند کاهش می دهد.

    شناسایی زبان متن، به منظور به کارگیری مدل های متنی خاص ضرورت دارد.

    طبقه بندی فونت ها، کاهش تعدد شکل های مختلف حروف در هر کلاس که لازم است در فرایند بازشناسی لحاظ گردند را به دنبال دارد و سبب می شود که امر شناسایی ، تنها به یک کلاس فونت محدود گردد.

    بازشناسی خط و زبان و فونت در کاربردهایی مانند نمایه سازی و دستکاری اسناد نیز مطلوب می باشد.

    2-1-6-2- قطعه بندی(جداسازی) قطعه بندی مرحله ای بسیار مهم برای سیستم های « اُسی آر » مخصوصاً « اُسی آر » فارسی و عربی (که حروف کلمات به صورت سرهم نوشته می شوند) می باشد.

    قطعه بندی به دو گونه تقسیم می شود: 1.

    قطعه بندی بیرونی: که عبارت است از تفکیک قسمت های مختلف تصویر نظیر متن، گرافیک و خطوط و نیز جدا کردن بخش های مختلف متن مانند پاراگراف ها، جملات یا کلمات؛ 2.

    قطعه بندی درونی: که منظور از آن، جداسازی حروف کلمات مخصوصاً در مورد کلمات سر هم نوشته شده در متون لاتین، یا در رسم الخط های پیوسته نظیر فارسی و عربی است شکل(2-6-1-3) همچنین حروفی که در متن اصلی جدا بوده اند، اما به خاطر کیفیت پایین دستگاه اسکنر به هم چسبیده اند، توسط این دسته از تکنیک ها از یکدیگر جدا میشوند.

    شکل 2-1-6-3 قطعه بندی یک کلمه به حروف مرحله قطعه بندی بیرونی، بحرانی ترین و حساس ترین قسمت در حوزه تحلیل تصویر اسناد میباشد و یک مرحله ضروری برای سیستم های « اُسی آر » برون خط محسوب میشود.

    گرچه مبحث تحلیل اسناد با روشها و تکنیک های خاص خود یک حوزه تحقیقاتی تا حدی متفاوت نسبت به است، اما تقسیم بندی تصویر سند به نواحی متنی و غیرمتنی، یک بخش لاینفک در نرم افزارهای « اُسی آر » به حساب می آید.

    بنابراین برای افرادی که در زمینه « اُسی آر » تحقیق می نمایند،داشتن دانش عمومی از تکنیک های آنالیزاسناد ضرورت دارد.

    نقطه تمایز اصلی میان سیستمهای « اُسی آر » لاتین و فارسی برای متون چاپی، در مرحله قطعه بندی درونی نهفته است؛ چرا که حروف کلمات در نگارش فارسی برخلاف نگارش رسمی لاتین به صورت سرهم نوشته می شوند و در نتیجه ضرورت انجام صحیح این مرحله برای متون فارسی و عربی نسبت به متون لاتین، اهمیت فوق العاده بیشتری دارد.

    با وجود فعالیتهای نسبتاً چشمگیر دهه گذشته و تنوع تکنیکهای عرضه شده، قطعه بندی متون پیوسته (بخصوص متون دست نوشت پیوسته)به حروف، هنوز هم یک مسئله قابل بررسی مانده است.

    روش های قطعه بندی حروف به سه دسته تقسیم می شوند : 1.

    قطعه بندی صریح 2.

    قطعه بندی ضمنی 3.

    تکنیک های ادغام شده در مواردی همچون متون فارسی که حروف به صورت سرهم نوشته می شوند، سه رویکرد مختلف در بازشناسی برون خط متون کلمات یا زیرکلمات وجود دارد: 1.

    رویکرد مبتنی بر قطعه بندی کلمات 2.

    رویکرد مبتنی بر بازشناسی کلمه به عنوان یک الگوی واحد 3.

    رویکرد ترکیبی در رویکرد بازشناسی مبتنی بر قطع هبندی، ابتدا کلمه در مرحله جداسازی به حروف یا زیرحروف، شکسته می شود؛ آنگاه قطعات جداشده بازشناسی می شوند و از کنار هم قرارگرفتن آ نها، کلمه شناسایی خواهد شد.

    روش های به کار گرفته شده در این رویکرد به دو گروه مختلف تقسیم می شوند: - تقطیع کلمه به حروف - تقطیع کلمه به زیرحروف در گروه اول، کلمه به حروف جداسازی می شود و با شناسایی حروف جداشده، کلمه بازشناسی می گردد.

    در گروه دوم، کلمه به زیرحروف مثل پار همنحنی ها و ساختارهای پایه دیگر جداسازی می شود و با شناسایی زیرحروف ها و ترکیب آ نها، کلمه بازشناسی می گردد.

    در این رویکرد نمی توان در ابتدا مرز حروف را به طور کامل مشخص کرد، بلکه حروف به ترتیب از ابتدا به انتهای کلمه، بازشناسی و جداسازی می شوند.

    در هیچ یک از دو رویکرد نخست که مبتنی بر جداسازی هستند، به شکل کلی کلمه توجهی نمی شود و سعی بر آن است که با بازشناسی حروف یک کلمه، آن کلمه شناخته شود.

    در رویکرد بازشناسی کلمه به عنوان یک الگوی واحد، تلاشی برای تقطیع کلمه به حروف و بازشناسی حروف موجود در کلمه صورت نمی گیرد و کلمه در قالب یک الگو بررسی می گردد.

    قطعه بندی غلط کاراکترها، عامل بسیاری از خطاهای « اُسی آر » است(مانند میزان m→rn یا rn→m ).میزان دقت یک الگوریتم قطعه بندی به سبک نگارش حروف، کیفیت دستگاه چاپ و نیز نسبت اندازه فونت به قدرت تفکیک دستگاه اسکنر(تابع گسترش نقاط و نرخ نمونه برداری مکانی) بستگی دارد.

    نتیجه مطلوب مرحله قطعه بندی، تصویری است که تنها حاوی یک کاراکتر باشد و بجز پیکسلهای پس زمینه، هیچ شیء دیگری را شامل نشود.

    اما هنگامی که اشیای چاپی، در تصویر ورودی خیلی نزدیک به هم ظاهر شوند(مانند نقشه های هیدروگرافی)، این منظور همواره قابل حصول نخواهد بود.

    غالباً در چنین حالتی دیگر کاراکترها یا اشیای چاپی، به طور تصادفی در داخل تصویر کاراکتر قرار می گیرند و احتمالاً ویژگی های استخراج شده را تحریف می نمایند.

    این مورد یکی از دلایلی است که بیان می دارد چرا هر سیستم بازشناسی حروف ، یک گزینه وازدگی دارد .

    2-1-6-3-بازنمایی(استخراج ویژگی ها) این مرحله یکی از مراحل بسیار با اهمیت در سیستمهای« اُسی آر » است؛ چرا که نتایج حاصل از این مرحله، مستقیماً بر روی کیفیت مرحله بازشناسی اثر می گذارد.

    در مرحله بازنمایی، به هر الگوی ورودی(کاراکتر یا کلمه بر حسب آن که رویکرد سیستم، مبتنی بر کدامیک از دو گروه «قطعه بندی کلمات» یا «شناسایی کلمه به عنوان یک الگوی واحد»باشد)، یک کد یا بردار ویژگی نسبت داده می شود که معرف آن الگو در فضای ویژگی ها است و آن را از دیگر الگوها متمایز می سازد.

Rural Design معرفت ساخت‌وساز سکونتگاههای روستایی، از مقیاس خُرد تا کلان، از جنس شناخت بومی و مردمی است. براین‌مبنا، قواعد و اصول طراحی و ساخت‌وساز در این مناطق به‌تدریج و طی سده‌های متمادی، به‌صورت سینه به سینه منتقل شده است. در مناطق روستایی مبانی طرح و ساخت ساختمان بر منطق و واقع‌گرایی استوار است؛ طرح بنا با شرایط اقلیمی هماهنگ است؛ حداکثر بهره‌برداری از مواد و مصالح ساختمانی ...

نگاهی به ماشینهای کنترل عددی کامپیوتری  CNC ماشینهای ابزار مدرن و رباتها دستگاههای خودکار پیشرفته ای هستند که از کامپیوتر بعنوان بخش اساسی کنترل کننده آنها استفاده می شود. کامپیوترها در حال حاضر یکی از اجزاء اصلی برای اتوماتیک کردن دستگاهها هستند و می توانند دستگاههای مختلفی مانند ماشین های ابزار , جوش و برش با لیزر را کنترل کنند. آنها می توانند خطوط تولید را براه اندازند ...

نگاهی به ماشینهای کنترل عددی کامپیوتری  CNC ماشینهای ابزار مدرن و رباتها دستگاههای خودکار پیشرفته ای هستند که از کامپیوتر بعنوان بخش اساسی کنترل کننده آنها استفاده می شود. کامپیوترها در حال حاضر یکی از اجزاء اصلی برای اتوماتیک کردن دستگاهها هستند و می توانند دستگاههای مختلفی مانند ماشین های ابزار , جوش و برش با لیزر را کنترل کنند. آنها می توانند خطوط تولید را براه اندازند ...

ویژگیهای نرم افزار برای درک مفهوم نرم افزار (و سرانجام درکی از مهندسی نرم افزار)، بررسی آن دسته از ویژگیهای نرم افزار که آن را از دیگر چیزهای ساخته دست بشر متمایز می سازد، اهمیت دارد. هنگامی که سخت افزاری ساخته می شود، فرآیند آفرینش بشری (تحلیل، طراحی، ساخت، آزمون)، سرانجام به یک شکل فیزیکی منتهی می شود. اگر یک کامپیوتر جدید می سازیم، طرحهای اولیه، ترسیمات طراحی رسمی و نمونه های ...

چکیده در تعامل بودن با برنامه ریزی و ذخیره سازی برای موادی که شرکت شما نیاز دارد و ساخت و تحویل محصولات و خدمات به طور تقریبی تلاش بعضی از افراد هر سازمان را به خود معطوف می کند. و این در حالی است که مدیریت زنجیره تامین ،‌یا به عبارت دیگر زنجیره ارزش، فرصتهای بزرگی را برای کاهش هزینه ها و افزایش رضایت مشتری و در نتیجه حفظ مشتری در اختیار ما قرار می دهد. در این راستا، ‌مشتری محور ...

چکیده » در هر صنعتی اتوماسیون سبب بهبود تولید می گردد که این بهبود هم در کمیت ومیزان تولید موثر است و هم در کیفیت محصولات.هدف از اتوماسیون این است که بخشی از وظایف انسان در صنعت به تجهیزات خودکار واگذار گردد. در یک سیستم اتوماتیک عملیات شروع،تنظیم و توقف فرایندبا توجه به متغیر های موجود توسط کنترل کننده سیستم انجام می گیرد. هر سیستم کنترل دارای سه بخش است: ورودی ، پردازش و خروجی ...

سیستمهای کنترلی و سخت افزاری مرسوم در این فصل ما تجهیزات کنترلی، کارآیی کنترلر، تنظیم کنترلر و مفهوم طراحی سیستمهای کنترلی عمومی را مطالعه می کنیم. سؤالهای بوجود آمده شامل : چگونه می توانیم نوع شیر کنترلی مورد استفاده را انتخاب کنیم؟ چه نوع سنسورهای می توانیم مورد استفاده قرار دهیم؟ کدام مشکلها باعث ایجاد سیگنالهای خطا می شود انواع کنترلرها که باید برای یک کاربرد مورد نظر انتخاب ...

-1- تعریف انتظارات کارفرما یا بازار و محدوده طراحی تمام مکانیزمها Can/over فرض می‌‌شوند. امکان استفاده برای فرمان چپ و راست با کمترین تغییرات ممکن باشد. به دلیل ارتقای سیستمهای مکانیکی (فنی موجود) نیاز به تغییر و بهینه سازی سیستم داشبورد جهت نمود ظاهری این تغییرات. موقعیت: Panel gauge و controler ها ثابت می‌باشد. مشخصات ارگونومی ثابت تعیین شده است. ثابت بودن H.point راننده و ...

ارتباط در عصر حاضر و در شروع قرن بیست و یکم الفبای زندگی صنعتی مدرن و متمدن جوانع مترقی این کره خاکی را تشکیل می دهد. اهمیت ارتباطات و در معنایی ساده تر تبادل اطلاعات بین جوامع بشری و انسانها که تشکیل دهنده جوامع بشری می باشند، در عصر امروز آنقدر مهم و حائز اهمیت است که به زعم بزرگان علم در جهان امروز کسی خود را بی نیاز از تبادل اطلاعاتی بداند در حقیقت دچار توهمی بزرگ از یک کحیط ...

خلاصه : یک بررسی از کتب درسی حسابداری صنعتی از سال 1904 تا 1990 نیازمند مکمل بودن حسابداری و تاریخ است . تعداد کمی از کتب درسی یا تعالیم در حسابداری صنعتی در کتابی از قبل برای سال 1920 در دسترس است بنابراین متنهای متفاوتی در شکل رقمی وجود دارد . تمام متن های تاریخی با یک تعریف از حسابداری صنعتی و اهمیت آن در تجارت جهانی شروع می شوند تاریخچه تولید به مالکان تجارت ، حسابداران و ...

ثبت سفارش
تعداد
عنوان محصول